失眠网 > Python——jieba分词并统计词频

Python——jieba分词并统计词频

时间：2023-03-02 10:05:34

1、连接数据库：本文数据库为MySql数据库，利用Python的MySqldb连接；

2、读取数据表evalute_info表中的评论内容；

3、利用jieba对评论内容进行分词，并统计词频；

4、将结果保存为csv文件。

注：两个关键点：

分词：jieba.cut()；词频：Counter(data) （利用collections包的Counter进行词频统计）

# -*- coding: utf-8 -*-import MySQLdbimport pandas as pd import jiebafrom collections import Counter conn = MySQLdb.connect("192.163.45.519", "asd", "sdhdfh", "srfe", charset='utf8' )curs = conn.cursor()sql1='''select content from evaluate_info''' #sql语句curs.execute (sql1)row=curs.fetchall() #读取数据表内容，返回元祖类型,元祖的每个元素还是为元祖data=[]for i in row:i=list(i) #将元祖的每个元素转换为列表new=str(i[0]) #将列表转换为字符串xx = ' '.join(jieba.cut(new)) #每一段字符串进行分词yy = xx.split(' ')for j in yy:data.append(j) #追加写入data列表，得到的数据格式为：a=['我爱学习我喜欢北京']result= dict(Counter(data))print(result)dict = pd.DataFrame(pd.Series(result),columns=['num'])dict = dict.reset_index().rename(columns={'index':'id'})dict.to_csv('out1.csv',encoding = 'utf-8',header = True)

如果觉得《Python——jieba分词并统计词频》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。