边写代码零食不停口 盼盼麦香鸡味块 、卡乐比(Calbee)薯条三兄弟 独立小包、好时kisses多口味巧克力糖、老金磨方【黑金系列】黑芝麻丸
边写代码边贴面膜 事业美丽两不误 DR. YS 野森博士+【AOUFSE/澳芙雪特证】377专研美白淡斑面膜组合 优惠劵
别光顾写代码更要多喝茶水,提神有营养 六安瓜片茶叶茶香二级200g 2025年新茶雨前盒装自己喝
让AI成为我们的得力助手:《用Cursor玩转AI辅助编程——不写代码也能做软件开发》
jieba
(中文意为“结巴”)是最流行的中文分词工具,专为处理中文文本设计。它结合了基于规则与统计的分词方法,支持精确模式、全模式和搜索引擎模式三种分词策略,广泛应用于中文自然语言处理(NLP)任务。
核心功能
分词
- 精确模式:最常用,精准切分文本(默认模式)
import jieba words = jieba.cut("自然语言处理很有趣", cut_all=False) print("/".join(words)) # 输出: 自然语言/处理/很/有趣
- 全模式:扫描所有可能组合
words = jieba.cut("自然语言处理很有趣", cut_all=True) # 输出: 自然/自然语言/语言/处理/很/有趣
- 搜索引擎模式:对长词再切分,提高召回率
words = jieba.cut_for_search("自然语言处理很有趣") # 输出: 自然/语言/自然语言/处理/很/有趣
- 精确模式:最常用,精准切分文本(默认模式)
自定义词典
- 解决未登录词(如新词、专有名词)问题
jieba.load_userdict("user_dict.txt") # 文件格式: 词语 词频(可选) 词性(可选) jieba.add_word("区块链技术") # 动态添加单词
关键词提取
- 基于TF-IDF算法提取关键词
from jieba import analyse tags = analyse.extract_tags("自然语言处理是人工智能的重要方向", topK=3) # 输出: ['自然语言', '人工智能', '处理']
词性标注
- 标注词语的词性(如名词、动词)
import jieba.posseg as pseg words = pseg.cut("我爱Python编程") for word, flag in words: print(f"{word}({flag})", end=" ") # 输出: 我(r) 爱(v) Python(eng) 编程(vn)
安装方法
pip install jieba
应用场景
- 搜索引擎索引构建
- 情感分析预处理
- 文本分类与聚类
- 聊天机器人对话系统
- 关键词抽取(如自动摘要)
性能优化
- 并行分词(提高大规模文本处理速度)
jieba.enable_parallel(4) # 开启4线程
- 延迟加载机制:首次运行时初始化词典,后续调用速度更快
示例代码:完整工作流
import jieba
from jieba import analyse
# 1. 自定义词典
jieba.add_word("深度学习")
# 2. 分词
text = "深度学习在自然语言处理中的应用"
words = jieba.lcut(text) # 精确模式分词列表
print(words)
# 输出: ['深度学习', '在', '自然语言', '处理', '中', '的', '应用']
# 3. 提取关键词
analyse.set_stop_words("stopwords.txt") # 设置停用词
keywords = analyse.extract_tags(text, topK=2)
print(keywords) # 输出: ['深度学习', '自然语言']
注意事项
- 对于专业领域文本,务必添加领域词典提升准确率
- 处理短文本时建议关闭
HMM
隐马尔可夫模型(jieba.cut(..., HMM=False)
) - 官方GitHub仓库提供多语言版本和扩展工具:https://github.com/fxsjy/jieba
通过灵活运用jieba
的分词能力和扩展功能,可高效处理中文文本的复杂结构,为后续NLP任务奠定坚实基础。
Python 图书推荐
书名 | 出版社 | 推荐 |
---|---|---|
Python编程 从入门到实践 第3版(图灵出品) | 人民邮电出版社 | ★★★★★ |
Python数据科学手册(第2版)(图灵出品) | 人民邮电出版社 | ★★★★★ |
图形引擎开发入门:基于Python语言 | 电子工业出版社 | ★★★★★ |
科研论文配图绘制指南 基于Python(异步图书出品) | 人民邮电出版社 | ★★★★★ |
Effective Python:编写好Python的90个有效方法(第2版 英文版) | 人民邮电出版社 | ★★★★★ |
Python人工智能与机器学习(套装全5册) | 清华大学出版社 | ★★★★★ |
JAVA 图书推荐
书名 | 出版社 | 推荐 |
---|---|---|
Java核心技术 第12版:卷Ⅰ+卷Ⅱ | 机械工业出版社 | ★★★★★ |
Java核心技术 第11版 套装共2册 | 机械工业出版社 | ★★★★★ |
Java语言程序设计基础篇+进阶篇 原书第12版 套装共2册 | 机械工业出版社 | ★★★★★ |
Java 11官方参考手册(第11版) | 清华大学出版社 | ★★★★★ |
Offer来了:Java面试核心知识点精讲(第2版)(博文视点出品) | 电子工业出版社 | ★★★★★ |