数据科学与大数据(2)

发布于:2024-04-23 ⋅ 阅读:(18) ⋅ 点赞:(0)

数据分析,要从能解决问题,常常解决的问题有4个问题:1.是什么?2.为什么?3.怎么做?4.做多少?,然后第3点和第4点往往是三年以上的数据分析师来干的,刚进入的小白往往是从事第1类和第2类问题。第1类问题是用数据去量化企业当前的经营状现状或者业务事实,从业务的细节到数据再到图表,再到业务到底发生了什么?数据往往是数据库,图表是图和表以及看板。第2类问题为什么是指异常差距背后的原因要用分析的方法来进行拆解,得出原因,得出数据,得出相关性并且要验证。第3类问题是行动策略上,第4类问题是指找方向对抗未知的,在已有的方向上进行各种计算,从业务的目标,绩效的方案,业务模型等等来找出解决方案c46c100231df4c8198f61729df9f4ac4.jpg

 8e16cc1740704d96804467195b1d4972.jpg

 

第1种和第2种是什么、为什么。第1步往往是确定问题,确定你的目的背景和思路,我们可以用这样的语言来进行目的明确程度:因为加背景,我想加目的,现在加思路,最后加感谢。86862ca90080422bb60854e6b2c87900.jpg

 思考问题往往包括确定问题,拆解问题,量化问题,分析数据,又包括收集数据处理数据制作图表上传发布,输出结论又包括一句话加一幅图,很多复杂问题的本质非常简单,图片要易于理解,炫技不可取351fcc11fb164bcdbd1b85a46724aaf8.jpg

7d84ad24367d4b71ad82e6e096f1caee.jpg

 

 判断是否自己达标21937b6a49774ec1b929d6b6fb56f75a.jpg

 数据的格式往往有日期,字符串,数字。

统计口径:啥时候一个数据才算有效数据。

这里获取数据常用的爬虫主要有4个方面,一个是模拟操作,网页解析和数据抓包以及请求API,模拟操作是用程序替代了机械重复的工作,网页解析是解析网页的源码工具,常用的有八爪鱼后裔采集器或者是Python当中的爬虫包.数据抓标是指直接向网页请求数据提取想要的字段,一般用Python语言实现.但是近年来随着数据安全法的不断完善,爬虫基本上是面向监狱的编程.所以的话就出现了第4种正规的爬虫,也就是请求api的方式,是指约定规则后给了一个访问地址,在规则内获取对方允许的数据.a9bcb35a3eeb46aabfad075c75276d42.jpg

 

对于处理数据的话,我们是要把脏数据变成干净的,数据往往是由数据工程师来完成直接把干净的数据弄到数据库中。制作图表的话,常常用的是透视表和各种报表。对于一些非量化的部分,需要我们和数据放在一起来考虑,最常见的来测试的方法是ab测试,大多数的公司会考察这方面的知识,能体现一名分析师的专业积累。要记住分析师他的职能,不单单是分析往往,行百里者半90,真正的高级管理岗没有职能划分,都是分明各个业务线,所以的话如果在后面的工作机会中有去跟进具体的场景落地并得到及时的反馈的机会,一定要去大胆尝试,把你认同的东西推进下去永远是正确的,你想做个普薪执行层还是一个高薪管理层。f8fec75d522b4d89add33ec9a0c945c1.jpg

 在数据领域往往有5个理论基础一定不能忽略,分别是大数定律,罗卡定律,幸存者偏差,辛普森悖论和帕累托最优。大数定律是指。6e8d30ae7ee74087a0d3424f1c6abe22.jpg

 所以说当分析的样本小的时候,得出的结论会失效,这是客观的规律,不会因为人的抑制而发生转移,我们常常会采用这样的方式来解决。dd268ceba20940f787d191003af6961c.jpg

 罗卡定律是指凡有接触必有痕迹,去获取挖掘去挖掘更多的数据。

幸存者偏差:c8abf49f05df4a768de49e3dff11bea1.jpg

9d697b803e614ec981a2b92ff5e0f138.jpg 

 辛普森悖论一定要确保数据在同一量级和权重下再进行分析。

帕累托最优是资源分配的理想状态。15edea4e754b43c7865984887e26283e.jpg

 数据领域当中的分析,框架是MCE法则及相互独立,完全穷尽,一个个清晰有效又没有遗漏的单元。

4种拆解方法,第1个是时间流程法,第2个是模型框架法,第3个是量化公式法,第4个是穷尽要素法。第1个时间流程法,常见的是漏斗分析,经典的是AARRR模型,当然还有PDCA和精益创业模型aaa9eaee123440e98cc3eda998671555.jpg

15984d6c152c4f6989faf4a632daa526.jpg 

 而PDCA模型是指P是指计划D是指执行,C是指检查,A是指处理,精益创业的话它是用 idea来建造产品,产品用用来测试数据,数据又用来学习新的想法.

模型框架法常用的是SWOT和RFMe007c798f79f40cb809ea943f11992b1.jpg

 量化公式法也就是公式来进行量化数据.量化问题为数据,当中要注重属性、绝对值和转换率。属性是指描述分析对象有哪些特征,绝对值是指衡量一件事最后的结果,转换率是指衡量一个环节的完成度。72145a89680e46b182ebae99fedc68dd.jpg

0d81d7e15b2147c8bf39e8cd21c04d6a.jpg

穷尽要素法典型的是电商平台的八大人群,当然使用该方法一般是经验丰富的分析师.

往往在企业当中面对一个业务,我们要进行诊断,可以从这4个方面快速构造出诊断模型。11e474ac42194fd483053f0597db410c.jpg

 4670650cccac478e8c986edcf2e26828.jpg

32433f7140c24686b70b007a392b7fe7.jpg