如何使用python对中文txt文件分词

时间2023-06-03 13:20:03发布访客分类Python浏览764

导读：如何使用python对中文txt文件分词？安装pip install jieba特点精确模式：试图将句子最精确地切开，适合文本分析.全模式：把所有的可以成词的词语都扫描处理，速度非常快，但是不能解决歧义.搜索引擎模式：在精确模式的基础上，对...

如何使用python对中文txt文件分词？

安装

pip install jieba

特点

精确模式：试图将句子最精确地切开，适合文本分析.全模式：把所有的可以成词的词语都扫描处理，速度非常快，但是不能解决歧义.搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于引擎分词.支持繁体分词.支持自定义词典.MIT授权协议.

样例分享

样例要求

对如上文本文件实现中文分词，并且分词结果中不包含字母、标点、中英文停词（如，an、and、another、一定、一方面、一旦等）等内容，同时支持特定含义词组的切分（如“牛仔很忙”、"青花瓷"，不能分切分成"牛仔"，"很忙"，"青花”，"瓷"），分词结果输出至txt格式文件中。

要求解析：

1）分词结果中不包含字母、标点、中英文停词：

需要使用结巴模块的精确分词模式（适应文本分词），cut()进行分词处理。jieba.cut(content)需要中英文停词表（网上可查下载）。if (len(word) != 0 and not stopwords.__contains__(word)):

需要通过正则过滤非中文数字内容，需要import re模块使用findall()方法。

re.findall(u'[\u4e00-\u9fa5]|[0-9]+', word)

2）支持特定含义词组的切分：

利用jieba支持导入自定义字典的特性，增加自定义字典。jieba.load_userdict("Custom_dictionary.dic")

源码分享

分词结果

转载请说明出处：https://www.toutiao.com/i6624498386617762318/

若对你有帮助，点赞支持哦。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！