大家好,我是java1234_小锋老师,最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程,持续更新中,计划月底更新完,感谢支持。今天讲解 jieba库分词简介及使用
视频在线地址:
2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫) 视频教程 (火爆连载更新中..)_哔哩哔哩_bilibili
课程简介:
本课程采用主流的Python技术栈实现,Mysql8数据库,Flask后端,Pandas数据分析,前端可视化图表采用echarts,以及requests库,snowNLP进行情感分析,词频统计,包括大量的数据统计及分析技巧。
实现了,用户登录,注册,爬取微博帖子和评论信息,进行了热词统计以及舆情分析,以及基于echarts实现了数据可视化,包括微博文章分析,微博IP分析,微博评论分析,微博舆情分析。最后也基于wordcloud库实现了词云图,包括微博内容词云图,微博评论词云图,微博评论用户词云图等功能。
jieba库分词简介及使用
我们后面业务功能实现有一些词频统计功能需求,也就是把微博或者评论信息进行分词,然后统计出出现频率最高的一些词语,算作是舆情分析的关键要素需求功能。
我们使用jieba库进行分词。
jieba 是 Python 中一个功能强大的中文分词工具,具有高性能、易用性和扩展性等特点。它支持多种分词模式,是目前最流行的中文分词库之一。
安装jieba库:
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
三种分词模式
精确模式:最常用的模式,适合文本分析
全模式:所有可能的词语组合
搜索引擎模式:对长词再次切分,适合搜索引擎
分词示例:
import jieba
text = "自然语言处理是人工智能领域的重要方向"
# 精确模式(默认)
seg_list = jieba.cut(text)
print("精确模式: " + "/".join(seg_list))
# 全模式
seg_list_full = jieba.cut(text, cut_all=True)
print("全模式: " + "/".join(seg_list_full))
# 搜索引擎模式
seg_list_search = jieba.cut_for_search(text)
print("搜索引擎模式: " + "/".join(seg_list_search))
运行结果:
精确模式: 自然语言/处理/是/人工智能/领域/的/重要/方向
全模式: 自然/自然语言/语言/处理/是/人工/人工智能/智能/领域/的/重要/方向
搜索引擎模式: 自然/语言/自然语言/处理/是/人工/智能/人工智能/领域/的/重要/方向