推荐专题：

失眠网 > python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）

python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）

时间：2019-05-07 22:14:32

相关推荐

python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）

在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了：

1. 下面是英文文本的词频统计，统计了作者的一篇英文论文

#文本词频统计：英文文本

def gettext():

#从文件中获取文本

text = open("target.txt","r").read()

#将文本中的所有大写字母转换为小写字母

text = text.lower()

#替换文本中的所有特殊符号为空格

for c in '!"#$%^&*()_+-=@[]{}|\?/<>,.:;~·`、“”‘’':

text = text.replace(c," ")

#返回文本

return text

#获取处理好的文本

txt = gettext()

#将处理好的文本切分成列表

words = txt.split()

#定义空字典

count = {}

#遍历列表，统计词出现的次数

for word in words:

count[word] = count.get(word,0)+1

#将统计好的字典转换成列表类型，以便进行排序

items = list(count.items())

#将列表按照count中键值的从大到小的顺序进行排序

items.sort(key = lambda x:x[1], reverse = True)

#输出结果，前十位最高频词汇

for i in range(10):

#从items[i]中一次返回单词和单词的词频

word, count = items[i]

print("#{0:<10}{1:>5}".format(word,count))

#输出：

#the 39

#to 38

#conflict 27

#and 27

#of 20

#it 19

#a 15

#is 15

#we 14

#in 13

可见作者的英文水平仅限于助词、介词和连词了【雾】

2. 下面是中文文本的词频统计，统计了作者的一篇中文论文

#文本词频统计：中文文本

import jieba

#定义文件读取函数

def gettext():

text = open("目标文件.txt","r").read()

text = text.lower()

for ch in '~！@#￥%……&*()——+=-·{}【】、‘；：“|？>

text.replace(ch, " ")

return text

#使用jieba分词处理得到词库

words = jieba.lcut(gettext())

counts = {}

for word in words:

#不统计单字词汇

if len(word)==1:

continue

else:

counts[word] = counts.get(word,0)+1

#转换为列表类型

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(10):

word, count = items[i]

a = 20 - len(word)*2

b = str(count)

a = a - len(b)

ch = " "*a

print("#{0}{1}{2}".format(word, ch, count))

#输出：

#自己 128

#职业 120

#工作 79

#企业 78

#人力 76

#资源管理 74

#个人 62

#就业 60

#管理 54

#能够 54

最后需要注意的是，文本文件要放在项目的源文件夹中才能读取到

如果觉得《python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python词频统计完整步骤_Python中文文本分词词频统计词云绘制

2018-08-24

python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)

2019-10-09

python英文文本词频统计_python实现简单的英文词频统计

2024-05-26

python英文词频统计代码_python词频统计_英文

2020-02-11

最近发布

失眠困扰如何治疗：心药医疗心病

2024-08-12

解决晚上失眠的60秒快速入睡小窍门

2024-08-12

失眠心理辅导该怎么做

2024-08-12

失眠者的救星：提高睡眠质量的实用妙招

2024-08-12

失眠睡不着怎么办？

2024-08-12

一个小动作打通这条经络失眠心烦耳鸣全没了

2024-08-12

患了失眠会有什么后果

2024-08-12

调理失眠应该怎么做

2024-08-12

改善孕妇失眠的有效调理方法

2024-08-12

所谓失眠肝失条达是主因！老大夫：做好几点让你一觉到天亮

2024-08-12

推荐专题

喝pm失眠南怀瑾治疗失眠失眠多梦还易醒的原因是失眠医院排名失眠出汗27岁长期失眠甲状腺癌服用金水宝失眠初中生长时间失眠怎么治疗失眠情节告别心烦失眠上海治失眠去什么医院好同仁堂黄连上清丸治失眠失眠了忧伤的说说心情无常性失眠成都哪家治失眠医院好