第五章 作业
2、请阐述数据采集的三大要点。
答:数据采集主要包括全面性、多维性、高效性三个要点
①全面性。全面性是指数据最足够具有分析价值、数据面足够支撑分析需求。
②多维性。数据采集必须能够灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标要求。
③高效性。高效性包含技术执行的高效性、团队内部成员协同的高效性,以及数据分析需求和目标实现的高效性。也就是说,采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,采集数据还要考虑数据的及时性。
4、请阐述典型的数据采集方法有哪些?
答:典型的数据采集方法有4种。
①系统日志采集。系统日志采集是指对数据库、系统、服务器等运行状态,行为事件等数据抓取。
②分布式信息订阅发布。分布式消息订向分发也是种常见的数据采集方式,其中,Kanla 就是神具有代规性的产品。用户通过K海量日志、用户行为和网站运营统计等的数据处理框架。为了满足上述应用需求,数据处理框架就需要同时提供实时在线处理的低延迟和批量离线处理的高吞吐量等功能。
③ETL。在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。
④网络数据采集。网络数据采集是指通过网络爬虫或网站公开应用程序编程接口等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件的采集,文件与正文可以自动关联。网络数据采集的应用领域十分广泛,包括搜索引擎与垂直搜索平台的搭建与运营,综合门户与行业门户、地方门户、专业门户网站数据支撑与流量运营,电子政务与电子商务平台的运营,知识管理与知识共享领域,企业竞争情报系统的运营,商业智能系统,信息咨询与信息增值,信息安全和信息监控等。
5、请阐述什么是网络爬虫。
答:网络爬虫是自动抓取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。爬虫从一个或若干个初始网页的URL(也叫种子URL)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页而上提取新的URL加入任务队列,直到满足系统的特定停止条件。实际上,网络爬虫的行为和人们访问网站的行为是类似的。它的工作原理如图所示。
6、请阐述网络爬虫的类型。
答:网络爬虫可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫4种类型。
①通用网络爬虫。又称“全网爬虫”,该类爬虫主要为门户站点搜索引擎和大型Web服务提供商采集数据。通常采用深度优先策略和广度优先策略。
②聚焦网络爬虫。又称“主题网络爬虫”,是指选择性地抓去那些与预先预定好的主题相关的页面的网络爬虫,它只抓取与主题相关的页面,极大地节省了硬件和网络资源,还可以很好的满足一些特定人群对领域信息的需求。常用基于内容的抓取策略、基于链接结构评价的抓取策略、基于增强学习的抓取策略和基于语境图的抓取策略。
③增量式网络爬虫。它是指对已下载的页面采取增量式更新和只抓取新产生的或已经发生变化页面的爬虫,它能够在一定程度上保证所抓取页面尽可能是新的页面。
④深度网络爬虫。深度网络爬虫将Web页面按存在方式分为表层网页和深层网页。
9.请阐述数据清洗的主要内容。
答:数据清洗主要是对缺失值、异常值、数据类型有误的数据和重复值进行处理。
①缺失值处理。由于调查、编码和录人误差,数据中可能存在一些缺失值,需要给子适当的处理。常用的处理方法有:估算、整列删除、变量删除和成对删除。
②异常值处理。异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
③数据类型转换。数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,比如,来自A表的“学号”是字符型,而来自B表的“学号”是字符串型,在数据清洗的时候就需要对二者的数据类型进行统一处理。
④重复值处理。重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要删除重复值。
11.请阐述数据转换包括那些策略?
答:主要包括平滑处理、聚集处理、数据泛化处理、规范化处理、属性构造处理五方面。
①平滑处理:帮助除去数据中的噪声。常用的方法包括分箱、回归和聚类等。
②聚集处理:对数据进行汇总操作。例如,每天的数据经过汇总操作可以获得每月或每年的总额。这操作常用于构造数据立方体或对数据进行多粒度的分析。
③数据泛化处理:用更抽象(更高层次)的概念来取代低层次的数据对象。例如,街道属性可以泛化到更高层次的概念,如城市、国家,再比如年龄属性可以映射到更高层次的概念,如青年、中年和老年。
④规范化处理:将属性值按比例缩放,使之落人一个特定的区间,比如0.0~1.0。常用的新根规范化方法包括Min-Max规范化、Z-Score 规范化和小数定标规范化等。
⑤属性构造处理:根据已有属性集构造新的属性,后续数据处理直接使用新增的属性。例如根据已知的质量和体积属性,计算出新的属性密度。
12.请阐述数据规范化包含哪些方法。
答:常用的规范化处理方法包括Min-Max规范化、Z-Score规范化和小数定标规范化。
①Min-Max规范化方法对被转换数据进行一种线性转换,其转换公式如下:x=(待转换属性值-属性最小值)/(属性最大值-属性最小值)。Min-Max规范化比较简单,但是也存在一些缺陷,当有新的数据加入时,可能导致最大值和最小值的变化,需要重新定义属性最大值和最小值。
②Z-Score规范化。Z-Score规范化的主要目的是将不同量级的数据,统一用计算出的Z-Score值衡量,以保证数据之间的可比性。Z=(待转换属性值-属性平均值)/属性标准差。
Z-Score的优点是不需要知道数据集的最大值和最小值,对离群点规范化效果好。此外,Z-Score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。但是Z—Score也有一些缺陷。首先,Z—Score对于数据的分布有一定的要求,正态分布是最有利于Z—Score计算的。其次,Z-Score消除了数据具有的实际意义,A的Z—Score与B的Z-Score与他们各自的分数不再有关系,因此,Z—Score 的结果只能用于比较数据间的结果,探究数据的真实意义还需要还原数据。
③小数定标规范化。小数定标规范化通过移动属性值的小数位置来达到规范化的目的。所移动的小数位数取决于属性绝对值的最大值。其转换公式为:x=带转换属性值/10k.小数定标规范化的优点是直观简单,缺点是并没有消除属性间的权重差异。
13、请阐述数据脱敏的原则?
答:数据脱敏不仅需要执行“数据漂白",抹去数据中的敏感内容,同时需要保持原有的数据特征,业务规则和数据关联性,保证开发、测试以及大数据类业务不会受到脱敏的影响,达成脱敏前后的数据一致性和有效性,具体如下。
①保持原有数据特征。数据脱敏前必须保持原有的数据特征。
②保持数据间的一致性。数据之间有一定关联性,在脱敏前后应保持数据间的一致性。
③保持业务规则的关联性。保持数据业务规则的关联性是指数据脱敏时数据关联性和业务语义等保持不变,包括主外键关联性、关联字段的业务语义关联性等。
④多次脱敏之间的数据一致性。对相同的数据进行多次脱敏,或者在不同测试系统中进行脱敏,须保持每次脱敏钱的数据必须保持一致性。