失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Python——jieba分词并统计词频

Python——jieba分词并统计词频

时间:2023-03-02 10:05:34

相关推荐

Python——jieba分词并统计词频

1、连接数据库:本文数据库为MySql数据库,利用Python的MySqldb连接;

2、读取数据表evalute_info表中的评论内容;

3、利用jieba对评论内容进行分词,并统计词频;

4、将结果保存为csv文件。

注:两个关键点:

分词:jieba.cut();词频:Counter(data) (利用collections包的Counter进行词频统计)

# -*- coding: utf-8 -*-import MySQLdbimport pandas as pd import jiebafrom collections import Counter conn = MySQLdb.connect("192.163.45.519", "asd", "sdhdfh", "srfe", charset='utf8' )curs = conn.cursor()sql1='''select content from evaluate_info''' #sql语句curs.execute (sql1)row=curs.fetchall() #读取数据表内容,返回元祖类型,元祖的每个元素还是为元祖data=[]for i in row:i=list(i) #将元祖的每个元素转换为列表new=str(i[0]) #将列表转换为字符串xx = ' '.join(jieba.cut(new)) #每一段字符串进行分词yy = xx.split(' ')for j in yy:data.append(j) #追加写入data列表,得到的数据格式为:a=['我 爱 学习 我 喜欢 北京']result= dict(Counter(data))print(result)dict = pd.DataFrame(pd.Series(result),columns=['num'])dict = dict.reset_index().rename(columns={'index':'id'})dict.to_csv('out1.csv',encoding = 'utf-8',header = True)

如果觉得《Python——jieba分词并统计词频》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。