全文下载链接:http://tecdat.cn/?p=2175
最近我们被客户要求撰写关于LDA主题模型的研究报告,包括一些图形和统计输出。
研究人员对各大电商平台海量用户的评价数据进行分析,得出智能门锁剁手攻略
语义透镜
顾客满意度和关注点
我们对于评价数据进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。
我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的高频词取出。
图表1
根据各个主题的高频关键词,大概可以将顾客关注点分成5个部分:商家品牌、价格质量、客服师傅、使用便捷性和包装物流。从上图,我们发现用户关注的点主要集中在客服对商品问题的耐心解答,师傅对门锁安装的指导以及包装和物流上。
我们也发现不少顾客的评论反映出智能门锁的便捷性(e.g.不用带钥匙)和先进(e.g.指纹识别度高)。同时我们没有发现安全性相关的高频词汇。
顾客抱怨
质量、客服服务和物流
接下来,我们对不同价格和主题的顾客抱怨率进行比较。
图表2
从价格方面我们发现价格低于2000的智能门锁购买量最多,同时抱怨率也较高,根据关注点来看,顾客抱怨点主要集中在商品质量和客服的耐心程度。购买量位于第二的价格是高于4000的区间,整体抱怨率最低。购买量位于第三的是2000-3000区间,该区间顾客抱怨点主要集中在商家品牌与物流。最后是3000-4000区间,该区间顾客抱怨点主要集中在价格质量与物流。同时反映出顾客对智能门锁价格有较高心理预期,主要抱怨点在质量、客服服务和物流上。
自营非自营
价格和满意度
图表3
从左图可以看出自营和非自营商品在顾客满意度上相差不大,非自营商品的满意度要略高于自营商品。同时可以看到大于4000区间的顾客满意度最高,且都是非自营商品。
从右图中,我们可以看到满意度关于价格的回归预测结果。图中红线表示的是自营商品,在3000以下的区间,价格越高,满意度反而下降,高于3000的区间中,价格越高,满意度越高。在非自营商品中,3000以下的价格区间中,价格和满意度关系不明显,高于3000的价格区间中,价格越高,满意度越高。
从前文中,我们发现价格低于3000的商品抱怨率最低的点在于便捷和使用高效,因此给人的感觉性价高,满意度较高,而价格接近3000时,顾客对客服、物流、质量等预期更高,因此容易成为抱怨的重灾区。当价格接近和高于4000时,商品的品牌、质量往往又得到保证,因此满意度又上升。
点击文末 “阅读原文”
获取全文完整代码和数据资料。
本文选自《智能门锁“剁手”数据攻略》。
点击标题查阅往期内容
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析\
自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据\
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据\
NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据\
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集\
自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据\
R语言对NASA元数据进行文本挖掘的主题建模分析\
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据\
Python、R对小说进行文本挖掘和层次聚类可视化分析案例\
用于NLP的Python:使用Keras进行深度学习文本生成\
长短期记忆网络LSTM在时间序列预测和文本分类中的应用\
用Rapidminer做文本挖掘的应用:情感分析\
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究\
R语言对推特twitter数据进行文本情感分析\
Python使用神经网络进行简单文本分类\
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类\
R语言文本挖掘使用tf-idf分析NASA元数据的关键字\
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据\
Python使用神经网络进行简单文本分类\
R语言自然语言处理(NLP):情感分析新闻文本数据\
Python、R对小说进行文本挖掘和层次聚类可视化分析案例\
R语言对推特twitter数据进行文本情感分析\
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析\
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)R语言对NASA元数据进行文本挖掘的主题建模分析\
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据\
Python、R对小说进行文本挖掘和层次聚类可视化分析案例\
用于NLP的Python:使用Keras进行深度学习文本生成\
长短期记忆网络LSTM在时间序列预测和文本分类中的应用\
用Rapidminer做文本挖掘的应用:情感分析\
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究\
R语言对推特twitter数据进行文本情感分析\
Python使用神经网络进行简单文本分类\
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类\
R语言文本挖掘使用tf-idf分析NASA元数据的关键字\
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据\
Python使用神经网络进行简单文本分类\
R语言自然语言处理(NLP):情感分析新闻文本数据\
Python、R对小说进行文本挖掘和层次聚类可视化分析案例\
R语言对推特twitter数据进行文本情感分析\
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析\
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)