Python jieba库简介

发布于:2025-06-05 ⋅ 阅读:(18) ⋅ 点赞:(0)

边写代码零食不停口 盼盼麦香鸡味块卡乐比(Calbee)薯条三兄弟 独立小包好时kisses多口味巧克力糖老金磨方【黑金系列】黑芝麻丸

边写代码边贴面膜 事业美丽两不误 DR. YS 野森博士+【AOUFSE/澳芙雪特证】377专研美白淡斑面膜组合 优惠劵

别光顾写代码更要多喝茶水,提神有营养 六安瓜片茶叶茶香二级200g 2025年新茶雨前盒装自己喝

让AI成为我们的得力助手:《用Cursor玩转AI辅助编程——不写代码也能做软件开发》


jieba(中文意为“结巴”)是最流行的中文分词工具,专为处理中文文本设计。它结合了基于规则与统计的分词方法,支持精确模式、全模式和搜索引擎模式三种分词策略,广泛应用于中文自然语言处理(NLP)任务。


核心功能
  1. 分词

    • 精确模式:最常用,精准切分文本(默认模式)
      import jieba
      words = jieba.cut("自然语言处理很有趣", cut_all=False)
      print("/".join(words))  # 输出: 自然语言/处理/很/有趣
      
    • 全模式:扫描所有可能组合
      words = jieba.cut("自然语言处理很有趣", cut_all=True)
      # 输出: 自然/自然语言/语言/处理/很/有趣
      
    • 搜索引擎模式:对长词再切分,提高召回率
      words = jieba.cut_for_search("自然语言处理很有趣")
      # 输出: 自然/语言/自然语言/处理/很/有趣
      
  2. 自定义词典

    • 解决未登录词(如新词、专有名词)问题
    jieba.load_userdict("user_dict.txt")  # 文件格式: 词语 词频(可选) 词性(可选)
    jieba.add_word("区块链技术")  # 动态添加单词
    
  3. 关键词提取

    • 基于TF-IDF算法提取关键词
    from jieba import analyse
    tags = analyse.extract_tags("自然语言处理是人工智能的重要方向", topK=3)
    # 输出: ['自然语言', '人工智能', '处理']
    
  4. 词性标注

    • 标注词语的词性(如名词、动词)
    import jieba.posseg as pseg
    words = pseg.cut("我爱Python编程")
    for word, flag in words:
        print(f"{word}({flag})", end=" ")
    # 输出: 我(r) 爱(v) Python(eng) 编程(vn)
    

安装方法
pip install jieba

应用场景
  • 搜索引擎索引构建
  • 情感分析预处理
  • 文本分类与聚类
  • 聊天机器人对话系统
  • 关键词抽取(如自动摘要)

性能优化
  • 并行分词(提高大规模文本处理速度)
    jieba.enable_parallel(4)  # 开启4线程
    
  • 延迟加载机制:首次运行时初始化词典,后续调用速度更快

示例代码:完整工作流
import jieba
from jieba import analyse

# 1. 自定义词典
jieba.add_word("深度学习")

# 2. 分词
text = "深度学习在自然语言处理中的应用"
words = jieba.lcut(text)  # 精确模式分词列表
print(words) 
# 输出: ['深度学习', '在', '自然语言', '处理', '中', '的', '应用']

# 3. 提取关键词
analyse.set_stop_words("stopwords.txt")  # 设置停用词
keywords = analyse.extract_tags(text, topK=2)
print(keywords)  # 输出: ['深度学习', '自然语言']

注意事项
  • 对于专业领域文本,务必添加领域词典提升准确率
  • 处理短文本时建议关闭HMM隐马尔可夫模型(jieba.cut(..., HMM=False)
  • 官方GitHub仓库提供多语言版本和扩展工具:https://github.com/fxsjy/jieba

通过灵活运用jieba的分词能力和扩展功能,可高效处理中文文本的复杂结构,为后续NLP任务奠定坚实基础。


Python 图书推荐

书名 出版社 推荐
Python编程 从入门到实践 第3版(图灵出品) 人民邮电出版社 ★★★★★
Python数据科学手册(第2版)(图灵出品) 人民邮电出版社 ★★★★★
图形引擎开发入门:基于Python语言 电子工业出版社 ★★★★★
科研论文配图绘制指南 基于Python(异步图书出品) 人民邮电出版社 ★★★★★
Effective Python:编写好Python的90个有效方法(第2版 英文版) 人民邮电出版社 ★★★★★
Python人工智能与机器学习(套装全5册) 清华大学出版社 ★★★★★

JAVA 图书推荐

书名 出版社 推荐
Java核心技术 第12版:卷Ⅰ+卷Ⅱ 机械工业出版社 ★★★★★
Java核心技术 第11版 套装共2册 机械工业出版社 ★★★★★
Java语言程序设计基础篇+进阶篇 原书第12版 套装共2册 机械工业出版社 ★★★★★
Java 11官方参考手册(第11版) 清华大学出版社 ★★★★★
Offer来了:Java面试核心知识点精讲(第2版)(博文视点出品) 电子工业出版社 ★★★★★

网站公告

今日签到

点亮在社区的每一天
去签到