失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 基于Python爬虫和K-means算法的校园微博热点话题发现系统

基于Python爬虫和K-means算法的校园微博热点话题发现系统

时间:2023-12-09 04:13:45

相关推荐

基于Python爬虫和K-means算法的校园微博热点话题发现系统

微博由于其“短平快”的信息生产能力和快速传播能力,已经广泛流行于高校学生的日常生活中。但微博上的负面舆情信息给社会、学校和个人带来巨大的危害。由于微博的多而快特点,无法依赖人工对相关信息进行收集、筛选和发掘热点话题。因此研究并开发校园微博热点话题发现系统,对高校舆情工作有重要的意义。

本文从微博独有的短文本特征及国内外相关微博研究出发,通过对校园微博进行分类处理后使用K-means聚类算法对校园微博短文本聚类,并改进热度计算公式,通过话题热度提取校园微博热点话题,实现对校园微博热点话题的监控。本文通过几个模块设计并实现了校园微博热点话题发现系统,包括微博数据爬取模块、微博数据预处理模块、微博热点话题分析模块、微博热点话题展示模块等模块。最后以广州中医药大学的生活类微博—广中医I栋为研究对象,对校园微博各模块功能及相关技术进行介绍,并对相关模块进行测试验证,分析校园微博热点话题特点,总结系统的优点和不足,提出下一步改进的设想。

关键词:校园微博K-means热点话题

ABSTRACT

ABSTRACT

Becauseofits"shortandfast"informationproductioncapabilityandrapiddisseminationcapability,MicroBloghasbecomewidelypopularinthedailylifeofcollegestudentsHowever,thenegativepublicsentimentinformationonmicrobloghasbroughtgreatharmtosociety,schoolsandindividualsDuetothemultipleandfastcharacteristicsofmicroblog,itisimpossibletorelyonmanualcollectionofrelevantinformationtoscreenandexplorehottopicsTherefore,researchinganddevelopinghotspotdiscoverysystemoncampusmicroblogsisofgreatsignificancetothepublicopinionworkincollegesanduniversities

ThisarticlestartswiththeuniqueshorttextfeatureofmicroblogandrelatedmicroblogstudiesathomeandabroadAfterclassifyingcampusmicroblogs,weuseK-meansclusteringalgorithmtoclustershorttextsoncampusmicroblogsandimproveheatcalculationformulasThroughthehottopicofcampusmicrobloghottopicextraction,toachievethemonitoringofcampusmicroblogginghottopicsThispaperdesignsandimplementsacampusmicrobloghottopicdiscoverysystemthroughseveralmodules,includingmicroblogdatacrawlingmodule,microblogdatapreprocessingmodule,microbloghottopicanalysismodule,andmicrobloghottopicdisplaymoduleTheUniversityofMedicine'sLifeMicroblog–GuangzhongyiIdongisthesubjectofthestudyItintroducesthefunctionsandrelatedtechnologiesofthecampusmicroblogmodules,testsandverifiestherelevantmodules,analyzesthecharacteristicsofthecampusmicroblogginghottopics,andsummarizestheadvantagesanddisadvantagesofthesystemPutforwardtheideaoffurtherimprovement

Keyword:CampusMicro-BlogK-meansHottopicdetection

目录

摘要I

ABSTRACTIII

第1章绪论1

11国内外研究现状与意义1

12本文创新点2

13论文写作思路2

第2章相关技术介绍5

21网络爬虫技术5

22中文分词技术5

23特征选择及权重计算6

231特征选择6

232特征权重计算7

24文本表示8

241布尔模型8

242概率模型9

243向量空间模型9

25文本聚类算法9

251距离算法10

252K-means聚类算法10

253二分K-means聚类算法11

第3章校园微博热点话题发现系统设计与实现13

31系统设计目标及要求13

311系统设计目标13

312系统设计要求14

32系统详细架构设计14

33系统功能模块设计与实现15

331微博数据获取模块15

332微博文本预处理模块18

332校园微博热点话题发现模块21

第4章系统功能测试25

41系统运行环境和参数25

42实验数据及处理25

43系统可视化界面27

431数据获取界面27

432热点话题排行榜27

433热点话题热度直方图28

434敏感词展示28

总结与展望31

参考文献33

致谢35

附录37

如果觉得《基于Python爬虫和K-means算法的校园微博热点话题发现系统》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。