如何用 Python 从海量文本抽取主题

2025-04-14 10:41:15
推荐回答(1个)
回答1:

可以利用python的jieba分词,得到文本中出现次数较多的词。

首先pip安装一下jieba,这个可以分词

然后用计数器Counter()统计一下得到的分词中各词的数量

最后most_common(5),是打印出排名前五位的词(包括特殊符号)


#encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


import jieba
from collections import Counter

str1 = open('tips.txt').read()

wordlist_after_jieba = jieba.cut(str1, cut_all = True)

list_wl = Counter(wordlist_after_jieba)
for i in list_wl.most_common(5):
print i[0],i[1]