失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python文本词频统计是字典吗_【python】文章 文本内容做词频统计(使用jieba分词 添

python文本词频统计是字典吗_【python】文章 文本内容做词频统计(使用jieba分词 添

时间:2020-04-14 08:14:15

相关推荐

python文本词频统计是字典吗_【python】文章 文本内容做词频统计(使用jieba分词 添

使用python可以轻松统计词频,做文章的词频统计也是轻而易举的事情。

1、添加自定义字典(如:超级赛亚人、奥里给等)

2、jieba分词

PS:直接将文章丢进 tf.txt 文件里,将自定义字典丢进 dict.txt 文件里就OK了

import jieba

txt = open("tf.txt", encoding="utf-8").read()

jieba.load_userdict("dict.txt")

words = jieba.lcut(txt)

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(100):

word, count = items[i]

#print (word)

#print(count)

print ("{0:<10}{1:>5}".format(word, count))

print('\n')

for i in range(100):

word, count = items[i]

#print(count/35323)

#print ("{0:<10}{1:>5}".format(word, count / 35323))

示例图:

python文本词频统计是字典吗_【python】文章 文本内容做词频统计(使用jieba分词 添加自定义字典)...

如果觉得《python文本词频统计是字典吗_【python】文章 文本内容做词频统计(使用jieba分词 添》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。