【数据可视化复习方向】

发布于:2024-12-23 ⋅ 阅读:(16) ⋅ 点赞:(0)

1.数据可视化就是数据中信息的可视化

2.数据可视化主要从数据中寻找三个方面的信息:模式、关系和异常

3.大数据可视化分类:科学可视化、信息可视化、可视分析学

4.大数据可视化作用:记录信息、分析推理、信息传播与协同

5.可视化流程:1️⃣数据采集 2️⃣数据处理和变换 3️⃣ 可视化映射和人机交互 5️⃣用户感知

6.数据4V特征:大量、多样、高速、价值

7.可视化元素由三个部分组成:可视化空间、标记、视觉通道(分别对应什么东西)

8.可视化设计原则:1.数据筛选原则 2.数据到可视化的直观映射原则 3.视图选择与交互设计原则 4.美学原则 5.适当运用隐喻原则 6.颜色与透明度选择原则

9.时间数据分类主要有两种:连续型时间数据可视化,离散型时间数据可视化

连续型时间数据可视化:阶梯图、折线图、螺旋图、热图

离散型时间数据可视化:散点图、柱形图、堆叠柱形图、点线图

10.时间数据可视化设计三个维度:表达、比例和布局

11.P31-P34 不同图形之间有什么特点 (各个图形进行比较)

12.时空比例数据可视化 + 这些图干嘛的

13.关系数据可视化

关系数据具有关联性和分布性

关联性:正相关、负相关和不相关

14.气泡图、散点图矩阵等展现了关系数据什么特性?茎叶图,直方图等展现什么特性?要会画?

15.文本数据可视化包括哪几种可视化方式?

文本数据大致可以分为三种:单文本、文档集合和时序文本数据;对应的文本可视化也可分为:文本内容可视化、文本关系可视化、文本多层面信息的可视化

文本内容可视化:是对文本内的关键信息分析后的展示

文本关系可视化:既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示;

文本多特征信息可视化:是结合文本的多个特征进行全方位的可视化展示

16.对文本的理解需求分成哪几个层级?不同层级使用什么方法?

词汇级、语法级、语义级;

词汇级使用各类分词算法,语法级使用一些句法分析算法,语义级使用主题提取算法

17.文本可视化的基本流程

涉及到文本流程图一定要看

18.时序文本是干嘛的?特点,图形有哪些,不同可视化元素代表什么?

时序文本具有时间性和顺序性。对具有明显时序信息的文本进行可视化时,需要在结果中体现这种变化。

有三种流图可以满足这种可视化需求

1️⃣主题河流:两个属性:颜色用以区分主题的类型,相同主题用相同颜色的涌流表示;宽度表示主题的数量,涌流状态随着主题变化,可能扩展、收缩或者保持不变

2️⃣文本流:是主题河流的一种变形,可以表达主题变化,以及随着时间流动,各个主题之间的分裂和合并信息

3️⃣故事流:可以表达文本的情节或者电影中的情节

19.文本分布可视化

文本分布可视化实际上是引入了词语在文本当中的位置、句子长度等信息,这些信息常被制作成文本弧。文本弧特性如下:P48

20.文本关系可视化P48

21.第七章看看书和PPT吧

22.实验部分作业

数据可视化/实验一.ipynb · 南毅c/school - Gitee.com

数据可视化/子图绘制.ipynb · 南毅c/school - Gitee.com

数据可视化/实验二.ipynb · 南毅c/school - Gitee.com

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Songti SC']  # 解决中文不能正常显示的问题
# 子类目
categories = ['童装', '奶粉辅食', '母婴专区', '洗护喂养', '宝宝尿裤', '春夏新品', '童车童床', '玩具文娱', '童鞋']
# 销售额
sales = [29665, 3135.4, 4292.4, 5240.9, 5543.4, 5633.8, 6414.5, 9308.1, 10353]

# 计算占比
total_sales = sum(sales)
percentages = [(sale / total_sales) * 100 for sale in sales]

# 设置饼图标题
plt.title("拼多多平台子类目的销售额")

# 绘制饼图
patches, texts, autotexts = plt.pie(percentages, labels=categories, autopct='%1.1f%%', startangle=90)

# 添加图例
plt.legend(patches, categories, loc="best")

# 添加表格
plt.table(cellText=[sales], rowLabels=["销售额"], colLabels=categories, cellLoc='center', loc='bottom')

# 确保饼图是圆形
plt.axis('equal')

# 显示图形
plt.show()

 

import matplotlib.pyplot as plt


# 各专业各年的选课人数
data = {
    "电子商务": [136, 197, 428, 263],
    "可视化": [327, 379, 315, 317],
    "网络爬虫": [148, 195, 239, 193],
    "python基础": [495, 140, 211, 452]
}

# 年份
years = [2016, 2017, 2018, 2019]

# 设置柱状图的底部位置
bottoms = [[0] * len(years) for _ in range(len(data))]

# 颜色对应年份
colors = ['blue', 'orange', 'green', 'red']

# 绘制堆积柱状图
for i, (key, values) in enumerate(data.items()):
    for j, value in enumerate(values):
        if j > 0:
            bottoms[i][j] = bottoms[i][j - 1] + values[j - 1]
        plt.bar([key], [value], bottom=bottoms[i][j], color=colors[j], label=str(years[j]))

# 设置标题和坐标轴标签
plt.title("招生情况")
plt.xlabel("专业")
plt.ylabel("人数")

# 显示图例
plt.legend(title="年份")

# 显示图形
plt.show()

 

数据可视化复习1-Matplotlib简介属性和创建子图_python多子图插入插图-CSDN博客

数据可视化复习2-绘制折线图+条形图(叠加条形图,并列条形图,水平条形图)+ 饼状图 + 直方图_条形图+折线图-CSDN博客