最近,因为工作需要,需要获取天猫某一商品的全部评论数据。于是,写了一个python脚本,自动爬取所有评论。做个记录。
一、准备阶段
获取评论数据来源
天猫的评论数据一般会放在JS文件里,故我们只需要打开商品页,快捷键Fn+F12,选择NetWork,筛选JS文件,找到名称为“rate.tmall....”开头的文件。
复制JS文件的链接,在新的页面打开访问。
bingo!就是我们需要的评论数据。
二、python代码
导入需要的第三方库
2.生成链接列表
3.获取评论数据的函数
4.将爬下来的数据写入到txt文件中
5.主函数,开始运行
6.最终得到一个txt文件, 打开后有完整的数据,如果有需要可以导入到csv或者excel文件里。
三、遇到的坑及解决方案
一定要加头文件,头文件里一定要有cookie,否则获取不到正确的js
商品评论中有emoji表情包,而gbk编码方式无法识别表情包。有两种解决方式,一个是转换为UTF-8之后使用ignore参数再转换为gbk编码,这样会忽略掉无法识别的emoji表情包;另一个办法是直接将数据存为txt文件,会默认忽略掉非文本数据,简单粗暴。
天猫会有反爬虫机制,大批量的访问会导致IP受限。这时候就要用到IP池了。
四、后续操作
因为淘宝天猫取消了差评的筛选,所以我们是无法直接分类出哪些评论是差评。但是通过一些中文文本挖掘库进行购物评论文本情感分析,可以对评论进行语义分析。时间有限,后续再说。
获取源码
如何获取源代码:
关注微信公众号“无知红”,后台回复 “评论数据” ,即可获取下载地址
如果觉得《python爬虫爬取淘宝天猫商品评论数据教程(附源码)》对你有帮助,请点赞、收藏,并留下你的观点哦!