山东大学《数据可视化》期末复习宝典

发布于:2025-06-07 ⋅ 阅读:(24) ⋅ 点赞:(0)

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏:🏀山东大学期末速通专用_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 什么是可视化,有什么用

2. 什么是变化盲视

3. 常用的可视化工具

4. 什么是格式塔理论,列举五个格式塔原则

5. 脑神经用什么感知颜色,有哪些特征

6. 什么是色彩空间?请举例典型的色彩空间

7. 色盲解决方案

8. 什么是视觉假象,列举五个例子

9. 什么是可视化编码?由什么构成

10. 解释视觉通道的表现力和有效性

11. 有哪些指标衡量视觉通道的表现力

12. 大数据时代的数据特点,数据属性类型,数据特征

13. 数据质量与问题

14. 为什么要数据变换?有哪些数据变换方法?

15. 什么是45度角原则

16. 什么是ETL

17. 探索性数据分析中有哪些可视化方法?

18. 数据可视化的三个核心要素

19. 可视化质量的衡量指标

20. 举例常见的NoSQL数据库,并说明特性

21. 什么是数据仓库

22. 什么是视觉隐喻?有什么用?

23. 小面积和大面积区域的感知特点和设计原则

24. 有序型数据和数值型数据的设计原则

25. K-means和K-medoids的流程和区别

26. FlowMap算法流程

27. 写出分层显示的Sugiyama算法和力导向布局算法的流程和优缺点

28. 层次数据可视化的两种基本方法及其优缺点

29. 正交布局和径向布局的优缺点

30. 常见统计图的标记、必备视觉通道、常见视觉通道

31. 什么是标签云?Wordle算法,停用词,词袋模型、TF-IDF

32. 七种基本可视化交互方法

33. 地图数据可视化是什么?有哪些类型?有哪些元素?

34. 点可视化和线可视化常用方法

35. 什么是choropleth地图?存在什么问题?

36. 可视化分为哪两个领域

37. 简单说说标量场中数据可视化方法

38. 标量场三维数据直接体绘制有哪些方法

39. 简单说说向量场中数据可视化的方法

40. 简单说说层次数据可视化的方法

41. 简述文本可视化的过程

42. 什么是媒体?多媒体?

43. 可视化交互的分类有哪些?


1. 什么是可视化,有什么用

  • 定义:用可视化的形式进行解释的动作或过程。
  • 作用:记录信息、证实假设、分析推理、交流思想

2. 什么是变化盲视

        人们在同时经历多样事物发生变化时,仅仅能关注其中一样而忽略其他事物的发生变化称为变化盲视。

3. 常用的可视化工具

        Google Refine、Echarts、R语言等

4. 什么是格式塔理论,列举五个格式塔原则

  • 定义:人们在观察时倾向于将感知内容理解为常规的、简单的、相连的、对称的与有序的结构。同时也倾向于将事物理解为一个整体而非组成该事物的所有部分的集合。
  • 格式塔原则:贴近原则、连续原则、共势原则、对称原则、闭合原则、好图原则、对称性原则、相似原则、经验原则。

5. 脑神经用什么感知颜色,有哪些特征

  • 脑神经分为:杆状细胞、锥状细胞(感知颜色)、神经节细胞
  • 特征:1.颜色恒定性(大脑二次处理后的结果,受经验影响);2.人脑对颜色的感知受该颜色与周围颜色关系的影响;3.人脑对亮度变化要比对色相变化更敏感

6. 什么是色彩空间?请举例典型的色彩空间

色彩空间:是用一组数字表示颜色的抽象数学模型

举例:RGB、HSL/HSV、绝对色彩空间、相对色彩空间

7. 色盲解决方案

  • 减少受色盲影响的颜色的混用。
  • 必须混用时,配合符号混用。

8. 什么是视觉假象,列举五个例子

  • 定义:人们通过人眼获得的信息被大脑处理后形成的对事物感知与客观世界中真实的事物不一致。
  • 举例:尺寸错觉、细胞错觉、轮廓错觉、运动错觉和不可能错觉。

9. 什么是可视化编码?由什么构成

  • 定义:将数据映射为可视化元素的技术。
  • 构成:标记+视觉通道

10. 解释视觉通道的表现力和有效性

  • 表现力:视觉通道精确编码数据包含的所有信息。
  • 有效性:通道表现力符合数据属性的重要性。

11. 有哪些指标衡量视觉通道的表现力

  • 精确性:人类感知系统对可视化结果的感知和原数据吻合程度。
  • 可辨性:视觉通道在人类感知系统中存在区分。
  • 可分离性:不同视觉通道之间的独立程度和干涉程度。
  • 视觉突出:人们仅仅依赖感知的前向注意就可以发现一个对象与其他对象的不同。

12. 大数据时代的数据特点,数据属性类型,数据特征

数据特点:数量大、多样性、价值密度低、高速、真实性

数据属性类型:数值型、类别型、有序型、离散型和连续型

数据特征:均值、方差、中位数、相似度和相异度

13. 数据质量与问题

数据质量: 

  • 正确性
  • 一致性
  • 完整性
  • 可靠性

数据问题:

  • 缺失值——数据填充
  • 不正确——噪声处理
  • 不一致——数据删除+数据填充

14. 为什么要数据变换?有哪些数据变换方法?

目的:数据多样性,需要数据变换来统一;为了更好解决特定的问题。

数据变换方法:聚类、降维、拟合、回归等方法

15. 什么是45度角原则

        夹角相等的两条线段,当平均决定角度为45度时能够被最大程度区分。

16. 什么是ETL

        将数据从来源端进行提取(Extract)、转换(Transform)、装载(Load)至目的端的过程。

17. 探索性数据分析中有哪些可视化方法?

  • 原始数据绘图
  • 简单统计值绘图
  • 多视图协调关联

18. 数据可视化的三个核心要素

  • 数据处理和变换
  • 可视化映射
  • 用户感知

19. 可视化质量的衡量指标

  • 尺寸
  • 特征保留度
  • 视觉有效性

20. 举例常见的NoSQL数据库,并说明特性

  • Neo4j:图数据库
  • Redit:键值对数据库
  • MongoDB:分布式文档存储
  • HBase:列存储,非常适用于非结构化数据
  • CouchDB:面向文档存储,提供JSON格式和REST操作接口

21. 什么是数据仓库

        数据仓库是面向主题的,已经整合的,稳定的数据集合,用来支持管理过程中的决策过程。

22. 什么是视觉隐喻?有什么用?

  • 定义:用真实的物体表达抽象的概念或额外的含义。
  • 作用:能够让内容表达更出色,引起思考

23. 小面积和大面积区域的感知特点和设计原则

  • 感知特点:小面积颜色难于感知;大面积区域如果颜色明亮,会使面积看上去更大。
  • 设计原则:小面积用明亮、高饱和颜色;大面积用低饱和颜色。

24. 有序型数据和数值型数据的设计原则

  • 有序型:亮度饱和度有内在的有序性,对顺序性数据非常有效。
  • 数值型:可以使用离散或连续的颜色映射表达。(从低温色到高温色

25. K-means和K-medoids的流程和区别

K-means:

  1. 随机选取K个质心。
  2. 计算各个点到质心的距离。
  3. 将点划分给离它最近的质心,形成k个团
  4. 在每一个团中重新计算质心(计算均值)
  5. 重复2,3,4步直到满足迭代次数或误差小于指定值

K-medoids:

  1. 随机选取K个质心(一定是某一个样本的值,而不是任意的值)
  2. 计算各个点到质心的距离
  3. 将点划分给离它最近的质心,形成K个团
  4. 在每一个团中计算所有样本点到其中一个样本点的曼哈顿距离和,选出最小的那个作为质心
  5. 重复2-4步直到满足迭代次数或误差小于指定值

二者区别:

  • K-means质心位置是任意的,K-medoids是在某一个数据点上。
  • K-means确定质心是通过均值,K-medoids是类内所有数据点的距离之和。

26. FlowMap算法流程

生成流地图:

  1. Layout adjustment:调整布局。
  2. Primary Clustering:将所有节点聚类(层次数据——空间填充——形成树)。
  3. Rooted Clustering:将源/汇移置根节点。
  4. Edge Routing:绕开冲突边

27. 写出分层显示的Sugiyama算法和力导向布局算法的流程和优缺点

网络关系数据可视化——Sugiyama算法:

  1. 创建图层次
  2. 添加伪节点解决过长的边
  3. 减少交叉
  4. 安排各个节点的最终位置
  5. 安排各个边

优点:

  • 美观可读性好
  • 算法容易实现
  • 算法运行快捷
  • 自然的从上向下排列

缺点:

  • 不适用于不具有原生自顶向下顺序的图

网络关系数据可视化——力导向算法:

  1. 先给定初始各个节点的位置
  2. 计算每一个节点的排斥力和引力
  3. 计算合力,沿着合力方向更新各个节点的位置
  4. 重复2、3步骤直到各个节点排列的足够好停止

优点:

  • 算法容易实现
  • 对各种图实现效果都较好
  • 有现成的软件包可以使用

缺点:

  • 容易陷入局部最优
  • 初始位置对结果影响很大
  • 算法复杂度较高

28. 层次数据可视化的两种基本方法及其优缺点

层次数据(是特殊的网络数据,严格1对多)可视化——节点-链接法:

  • 将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。
  • 层次关系反映直观,灵活多变。
  • 复杂度高,密集图不适用。

 层次数据可视化——空间填充:

  • 用空间的分块区域表示数据中的个体,并用外层区域对内层区域的包围来表示个体之间的层次关系。
  • 有效利用空间,支持密集图。
  • 层次关系反映不明显。

29. 正交布局和径向布局的优缺点

层次数据可视化中的节点-链接法具体来说分为:1.正交布局;2.径向布局。

正交布局:

  • 与视觉习惯吻合
  • 层次关系表现直观
  • 可能会出现不合理的长宽比

径向布局:

  • 空间利用更充分
  • 难以避免节点重叠

30. 常见统计图的标记、必备视觉通道、常见视觉通道

散点图:

  • 标记:
  • 必备视觉通道:x,y轴坐标
  • 常见视觉通道:颜色、大小、形状

柱状图:

  • 标记:矩形
  • 必备视觉通道:矩形高度,x左边次序
  • 常见视觉通道:颜色、纹理、y左边绝对位置

折线图:

  • 标记:线
  • 必备视觉通道:拐点处的xy轴坐标
  • 常见视觉通道:颜色、宽度、形态

扇形图:

  • 标记:扇形
  • 必备视觉通道:扇形对应的弧度(角度)
  • 常见视觉通道:颜色、纹理、半径

箱须图:

  • 标记:矩阵、线、点
  • 必备视觉通道:xy轴坐标,矩形
  • 常见视觉通道:矩形形状、颜色

31. 什么是标签云?Wordle算法,停用词,词袋模型、TF-IDF

标签云:抽取文本中的关键词,并将其按照一定的顺序、规律、整齐美观得排列在屏幕上。

Wordle算法:用户可以自定义画布填充区,如正方形、圆形等。然后把标签填充在画布上。既满足美观要求由提高了空间利用率。

停用词:

词袋模型:

  • 用来提取词汇级文本信息。在分词、过滤掉停词、并完成词干提取后,构建词典。利用词典,将一个文档内容总结为各个关键词组成的加权分布向量。

TF-IDF模型:

  • TF-IDF(w)=TF(w)*log(N/DF(w))
  • TF(w)是词 w在文档中出现的次数, DF(w) 是文档集中包含词的文档数目。
  • 核心思想:词重要意味着在一个文档中出现多,在其他文档中出现少。

32. 七种基本可视化交互方法

数据可视化包括:展示和交互

交互分类:按低阶交互操作分类、按交互操作符和空间分类、按交互任务分类(七个基础交互任务;每个基础任务对应一个基本交互方法)。

七种基本可视化交互方式:

  • 选择:标记感兴趣的领域。例如:悬停鼠标看详细信息。
  • 导航:显示不同的数据部分或属性。例如超链接跳转。
  • 重配:通过改变元素再空间中的排列,为用户提供观察数据的不同视角。例如排序。
  • 编码:交互式改变元素的可视化编码。例如颜色、大小、方向。
  • 抽象/具象:显示更多或更少的数据细节。例如缩放。
  • 过滤:显示符合条件的某些子集。例如动态查询。
  • 关联:高亮显示数据对象间的联系。

33. 地图数据可视化是什么?有哪些类型?有哪些元素?

定义:地图数据可视化是将数据中的地理坐标转化为屏幕上的坐标(从真实地球坐标到可视化图片坐标)

  • 等距离可视化:投影后任何点到原点的距离保持不变。
  • 等面积可视化:任何图形面积经等比例放大后和实际图形面积大小相同。
  • 等角度可视化:投影前后任何位置两个微分线段组成的角度不变。

地图数据有两个元素:点、线(因此可视化地图数据本质上就是可视化点和线

34. 点可视化和线可视化常用方法

  • 点可视化在数据点密集时,可以引入颜色通道、使用交互手段
  • 线可视化在线段密集时,可以引入连接绑定技术FlowMap算法

35. 什么是choropleth地图?存在什么问题?

choropleth地图是表示区域可视化的一个手段,最大问题在于数据分布和地理区域大小不一致,可以按照各个区域的数据分布属性值对各个区域进行适当变形。

36. 可视化分为哪两个领域

可视化分为:

  • 科学可视化:处理采样或模拟计算出的时空数据
  • 信息可视化:处理抽象数据结构

37. 简单说说标量场中数据可视化方法

就是将不同维度的数据都转化为二维图片的形式去展示

一维数据可视化:使用坐标图(线图)来呈现数据分布规律。

二维数据可视化:

  • 颜色映射法:本质上就是将一个标量值映射到一种颜色。
  • 等值线提取法:使用移动四边形法。
  • 高度映射法

三维数据可视化:

  • 截面可视化
  • 间接体可视化:等值面提取与绘制(不直接画三维数据而是画其间接体,例如等值面)
  • 直接体可视化:通过直接体中的每一个像素来决定最终可视化里的像素值,是一种直接由三维数据生成二维数据图像的绘制技术。

38. 标量场三维数据直接体绘制有哪些方法

光线投射法:

  • 对于图像平面上的每一像素,从视点投射出一穿过该像素的视线,该视线穿过体数据空间,算法利用该视线上的采样值合成该像素的颜色。
  • 光线投射法需要考虑的有:1.体光照模型;2.体数据分类;3.体采样;4.体积分

数据空间算法:

  • 抛雪球法

在光线投影中最重要的就是体数据分类,体数据分类中最重要的就是传输函数设计。

传输函数设计:

  • 以图像为中心的传输函数设计
  • 以数据为中心的传输函数设计

39. 简单说说向量场中数据可视化的方法

基于标量场映射可视化:

  • 将张量场转化为标量,然后利用标量场中的各种方法。
  • 其核心在于等价标量的选取,要求选择的标量可以更好地反映向量的特征。

基于几何的方法:

  • 标记法:三维数据下会非常乱
  • 基于积分曲线的方法:张量存在长度和方向,因此类似于流体。可以用四种线来可视化流体(流线、迹线、烟线、时线)。

基于纹理的方法:

  • 点噪音方法:随机排列一些点,然后按照流场方法对圆点变形,将变形后的圆点扩散到纹理中

  • 线积分卷积:将矢量场和白噪声卷积

线积分卷积效果非常好,但是难以拓展到三维矢量场

40. 简单说说层次数据可视化的方法

层次数据是特殊的网络数据。不同于网络数据,层次数据是一对多的关系,存在明确的层级关系。

  • 节点-链接法:正交布局(直观,可能导致不合理长宽比)、径向布局(空间利用更好,三维交互难度更高,不够直观)
  • 空间填充法

41. 简述文本可视化的过程

  1. 获得原始文本
  2. 文本信息挖掘:分词、词干提取、向量空间模型、词汇级模型、文本相似度度量
  3. 文本可视化:基于关键词的可视化、时序文本可视化、文本特征可视化等等
  4. 人机交互

42. 什么是媒体?多媒体?

媒体:是人与人之间信息交流的中介,是信息的载体,也称为媒介。

多媒体:在计算机系统中,组合两种或两种以上媒体的一种人机交互式信息交流和传播媒体称为多媒体。

超媒体:指使用超链接构成的全球信息系统。

43. 可视化交互的分类有哪些?

可视化交互分类:

  • 按低阶交互操作分类
  • 按操作符和操作空间分类
  • 按交互任务分类:选择、导航、编码、重配、关联、抽象/具象、过滤


44. 总结 

如果想持续关注系列文章,可以订阅:

如果想学习计算机其他方面的核心知识(都是猫猫的优质好文哦),可以订阅:

 如果觉得本文对你有帮助,友友们可以点个赞,收个藏呀~


网站公告

今日签到

点亮在社区的每一天
去签到