目录
✨八、根据因素对预期工资是否达到平均工资的判断——决策树模型
✨九、影响因素对预期工资是否达到平均工资的重要性分析—随机森林模型
✨摘要
数据分析与词频分析:通过爬取家政从业者相关数据,进行量化处理,结合工作经历与培训评价的词频分析,预测了客户需求的倾向性。
因子分析与综合评分:通过因子分析,建立了家政从业者的综合评分公式,为评估家政从业者的综合素质提供依据。
回归模型验证:基于因子分析,使用回归模型进行验证,发现家政从业者的专业水平与其工资密切相关,说明专业素养和培训对工资的影响是显著的。
机器学习模型:通过建立BP神经网络模型、袋装树模型、决策树模型和随机森林模型,预测家政从业者是否能超过行业平均工资。最终,随机森林模型的准确率达到了90.5%,表明该模型能够准确预测家政从业者的预期工资。
✨一、绪论
市场前景
如今,人们对家政从业者的要求更加严格,从业者信息更加公开透明。家政行业的高端家政服务员前景广阔,低端家政从业者可能被人工智能家居替代,家政从业者需要提升个人能力
本文目标
从家政从业者微观角度出发,分析其服务质量和技能提升对行业发展的影响,提出推动家政行业高质量发展的策略建议。
✨二、研究内容与方法
研究内容:
- 家政服务从业人员数据:通过线上搜集家政从业人员的基本信息、就业情况、培训状况、求职意向、工作经历、客户评价等六大方面的数据。
- 家政服务需求人员调研:了解客户对家政服务的满意度、问题及建议。
- 家政服务中介机构调研:涉及机构的基本信息、雇佣状况、服务需求、培训方法等。
- 研究内容覆盖:工作ID、实名信息、求职意向、期望工资、年龄、学历、经验、工作状态、技能、证书等。
研究方法:
- 数据收集:使用Python软件的网络爬虫技术,通过家政平台爬取相关数据,包括家政从业人员的基本信息、客户评价等。
- 数据处理与分析:使用Excel进行数据量化处理,然后使用Python进行词频分析和词云图生成。使用Stata进行因子分析与回归分析,分析家政从业者的相关因素与需求。
- 建模与仿真:采用Matlab2018b对BP神经网络模型进行归一化处理与仿真模拟,使用DevC++和Matlab共同编程,筛选合适的随机森林模型并进行决策树和随机森林的编写与运行。
- 图表与可视化:使用Photoshop、Tableau、Visio等软件绘制词云图、因子分析树状图、流程图和神经网络图
✨三、数据处理
城市选取
城市选取考虑城市发展因素和城市地理因素
数据分析
对从业者年龄、实名与否、学历、求职意向、籍贯、预期工资进行分析。进行基本的统计分析和可视化展示,帮助理解数据的分布、规律和特征,为进一步的深入分析提供基础
✨四、客户对家政从业者的需求——基于词频分析和词云图
目的:更加了解家政求职人员的核心竞争力
数据集:各家 政求职人员的培训老师评价和工作经历
作用:揭示客户对家政服务的核心需求和偏好
词频分析:通过计算文本中每个词出现的次数来揭示文本的主题、关键词和关键趋势。
词云图:词云图(Word Cloud)是对词频分析结果的一种可视化展示方式。它将高频词汇通过不同的字体大小、颜色和排版方式呈现出来,频繁出现的词语通常显示得更大、更醒目,较少出现的词则较小。词云图帮助快速理解文本中的关键词和核心内容。
✨五、家政从业者综合评估因子分析
目的
通过分析多个变量(例如从业者的年龄、学历、工作经验、技能等)来综合评估家政从业者的整体素质
因子分析
帮助我们从众多复杂的因素中找出那些“隐藏在背后的、看不见的”潜在因素。
具体可以看我这篇---> 因子分析讲解
KMO
衡量变量间相关性的“强度”
KMO(Kaiser-Meyer-Olkin)检验的目的是衡量你选择的变量是否适合做因子分析。它通过计算每个变量和其他变量之间的相关性来帮助你判断数据的质量。
KMO检验的解释:
KMO值的范围是0到1,越接近1,说明变量之间的相关性越强,适合做因子分析;如果KMO值小于0.5,说明变量之间的相关性弱,可能不适合做因子分析。
KMO值越接近1,就意味着变量之间相关性强,可以将它们归为同一个因子;而如果KMO值接近0,表明变量之间的关系较弱,做因子分析可能没什么意义。
KMO值的判断标准:
- KMO > 0.9:非常适合做因子分析(变量之间高度相关)
- 0.8 < KMO < 0.9:适合做因子分析
- 0.7 < KMO < 0.8:中等适合做因子分析
- KMO < 0.5:不适合做因子分析
巴特利特检验
检查变量之间是否相关
**巴特利特球形度检验(Bartlett's Test of Sphericity)**是检验变量之间是否存在显著的相关性的检验。它是通过计算变量之间的协方差矩阵来检验这些变量是否足够相关,进而判断是否适合进行因子分析。
巴特利特检验的解释:
- 巴特利特检验的原假设是“变量之间是独立的,完全不相关”(即没有潜在的因子)。
- 如果巴特利特检验的结果是显著性p值小于0.05,说明拒绝原假设,变量之间存在相关性,适合做因子分析。
- 如果p值大于0.05,说明变量之间没有足够的相关性,不适合做因子分析
旋转载荷平方和表
在因子分析中,我们通过旋转因子,使得因子的解释变得更简单、更清晰。旋转载荷平方和表(通常叫做旋转后载荷平方和)就是用来衡量经过旋转后的因子,在每个原始变量上的贡献度。
首先,我们需要理解旋转载荷。因子分析的目的是将多个变量(比如“收入”、“学历”、“健康状况”)归纳为少数几个因子(例如:“经济状况”因子,“健康因子”)。旋转载荷就是每个因子与原始变量之间的“关联度”,即它能解释原始变量的程度。
假设:
- 因子1代表“经济状况”,它可能与“收入”和“支出”关系密切。
- 因子2代表“健康状况”,它可能与“锻炼频率”和“饮食健康”有关。
经过旋转后,旋转载荷会告诉你:每个因子与这些原始变量之间的关系有多强。例如,“经济状况”因子可能会对“收入”变量有很高的载荷,而对“健康状况”变量的载荷较低。
旋转载荷平方和表通过展示每个因子对原始变量的贡献比例,帮助我们判断哪些因子最能代表我们关心的主题,哪些因子不太有用。
✨六、人员专业水平与预期工资的关系——回归分析
目的
分析一个人的专业技能水平与预期工资之间的关系
R方
R方是回归分析中一个非常重要的统计指标,它用于衡量回归模型对数据的拟合程度。简单来说,R方值衡量的是模型解释因变量(比如“预期工资”)波动的比例。
总平方和(TSS):表示因变量(例如工资)和其平均值之间的总差异。换句话说,它衡量了所有数据点相对于平均值的偏离程度,Yi 是第 i个观测值(例如工资),_Y是所有观测值的平均值
残差平方和(RSS):表示模型的预测值与实际观察值之间的差异,也就是模型无法解释的部分。RSS越小,说明模型的预测越准确。Yi 是第 i 个观测值。^Yi 是第 i 个观测值的预测值(即模型预测的值)。
直观理解:
- R方 = 1:表示模型能够完美解释因变量的波动,模型的预测完全准确。
- R方 = 0:表示模型无法解释因变量的波动,模型没有预测能力。
- R方 = 0.609:表示模型能够解释因变量波动的60.9%,剩下的39.1%的波动无法通过模型解释。
ANOVA方差分析表
ANOVA(Analysis of Variance)即方差分析,是一种用于分析变量之间差异的统计方法,目的是通过比较不同组之间的方差来检验因变量是否有显著的变化。
简单来说,ANOVA方差分析表的目的是检验回归模型的整体有效性,即我们用这些自变量(例如:专业水平、工作经验等)来预测因变量(例如:预期工资)是否有显著效果
ANOVA方差分析表的组成部分
回归分析的ANOVA方差分析表通常包括以下几列:
来源(Source):
- 回归(Regression):表示回归模型解释的数据部分(因变量的波动部分)。
- 残差(Residual):表示回归模型无法解释的数据部分,或叫误差部分。
- 总计(Total):表示因变量的总波动(包括回归部分和残差部分)。
平方和(Sum of Squares):
- 回归平方和(Regression SS):表示回归模型对因变量波动的解释部分。简单来说,就是模型“解释”了多少因变量的变化。
- 残差平方和(Residual SS):表示模型无法解释的部分,反映了误差或者没有被模型捕捉到的波动。
- 总平方和(Total SS):总的波动,包括回归模型能解释的部分和模型不能解释的部分。
自由度(Degrees of Freedom):
- 自由度用来表示数据中的独立信息的数量。在回归分析中:
- 回归自由度:通常是回归模型中自变量的数量(例如,你有5个自变量,那么自由度就是5)。
- 残差自由度:等于样本总数减去回归自由度减去1。
- 总自由度:等于样本数减去1。
均方(Mean Square):
- 回归均方(MSR):回归平方和除以回归自由度,用来衡量回归模型解释数据波动的平均大小。
- 残差均方(MSE):残差平方和除以残差自由度,用来衡量模型未解释的误差的平均大小。
F值(F-Statistic):
- F值是回归均方(MSR)与残差均方(MSE)的比值。它衡量了回归模型是否显著优于随机模型(即只用常数来预测因变量)。
- F值越大,说明回归模型对因变量的解释能力越强,模型的显著性越高。
P值(P-Value):
- P值用于检验回归模型是否显著。一般来说:
- P值小于0.05(例如0.000),表示回归模型的效果是显著的。
- P值大于0.05,表示回归模型的效果不显著,可能并没有很好地解释因变量。
✨七、基于机器学习的预测——BP 神经网络
分析了使用BP神经网络模型来预测家政从业人员的工资水平,最终模型预测的准确性高达90%。
✨八、根据因素对预期工资是否达到平均工资的判断——决策树模型
通过构建决策树模型并对其进行优化,找到了最适合判断工资是否达到预期的模型,袋装树表现最佳。
✨九、影响因素对预期工资是否达到平均工资的重要性分析—随机森林模型
通过随机森林模型分析了影响工资是否达到预期的主要因素,最终得出影响工资的因素有经验、做饭口味等。