大数据初识

发布于:2025-02-13 ⋅ 阅读:(14) ⋅ 点赞:(0)

一、大数据的概念

大数据(big data):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着数据量变大,数据在处理时间和处理方式上遇到的挑战,需要使用新技术来应对这些挑战。

大数据场景下面临的技术挑战:

  • 海量数据如何存储的问题
  • 海量数据如何计算的问题

二、大数据的特点5V

Volume:数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别起步

Variety:种类、来源多样化

  • 种类:结构化、半结构化、结构化
  • 来源:日志文件、图片、音频、视频

Value:低价值密度

  • 信息海量但是价值密度低
  • 深度复杂的挖掘分析需要机器学习参与

Velocity:速度快

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

Veracity:数据的质量

  • 数据的准确性
  • 数据的可信赖度

三、大数据的应用场景

电商领域

精准广告位、个性化推荐、大数据杀熟

传媒领域

精准营销、猜你喜欢、交互推荐

金融领域

信用评估、风险管控、客户细分、精细化营销

交通领域

拥堵预测、智能红绿灯、导航最优规划

电信领域

基站选址优化、舆情监控、客户用户画像

安防领域

犯罪预防、天网监控

医疗领域

智慧医疗、疾病预防、病源追踪

四、大数据业务分析基本步骤

大数据业务分析主要分为:明确分析目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写,以下从具体概念中理解各步骤

1. 明确分析目的和思路

目的是整个分析流程的起点:
为数据的收集、处理及分析提供清晰的指引方向
思路使分析框架体系化:
先分析什么、后分析什么,使各分析点之间具有逻辑联系
保证分析维度的完整性,分析结果的有效性以及正确性
数据分析方法论:营销管理相关理论
用户行为理论、PEST分析法、5W2H分析法等

2. 数据收集

数据从无到有的过程
比如传感器收集气象数据、埋点收集用户行为数据
数据传输搬运的过程
比如采集数据库数据到数据分析平台
- 业务数据:RDBMS
- 日志数据:服务器、应用日志
- 爬虫数据:爬虫数据库
- 互联网公开数据:行业、政府网站

3. 数据处理

对收集到的数据进行加工整理,形成适合数据分析的样式(注:保持数据的一致性和有效性)
主要包括数据清洗、数据转化、数据提取、数据计算

4. 数据分析

用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律

5. 数据展现

分析结果直观展示,人类是视觉动物
数据是通过表格和图形的方式来呈现,用图表说话

6. 报告撰写

数据分析报告是对整个数据分析过程的一个总结和呈现
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
需要有明确的结论、最好有建议或解决方案

总结:
分析步骤的核心:一切围绕着数据
通俗描述:数据从哪里来,数据到哪里去
核心步骤:采集、处理、分析、应用

五、大数据部门组织架构

在这里插入图片描述