失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【京东】抓取京东详情 评论_8.17

【京东】抓取京东详情 评论_8.17

时间:2018-12-07 05:06:54

相关推荐

【京东】抓取京东详情 评论_8.17

一、确定需求

抓取京东详情页上的图书(打开搜索页面,输入出版社,点击按销量排、只看有货)确定抓取元素:(共12个)

ID / 书名 / 价格 / 作者 / 出版日期 / 出版社 / 总评论数 / 书店名 /

ISBN /类型新建表打开docker,运行splash

docker run -p 8050:8050 scrapinghub/splash

二、流程

(一) 创建项目、爬虫

scrapy startproject jd_list

scrapy genspider name

(二) 修改 Items

建字典,包含10个键

ID = scrapy.Field()name = scrapy.Field()price = scrapy.Field()author = scrapy.Field()pub_time = scrapy.Field()publisher = scrapy.Field()comment_num = scrapy.Field()store = scrapy.Field()ISBN = scrapy.Field()book_type = scrapy.Field()

新建数据库表

(三) 修改 spider

访问url,解析页面,返回数据确定url

/?key=+出版社名 +

&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&psort=3%5E&stock=1&click=1翻页<li class="next"><a href="/?key=%E6%B9%96%E5%8D%97%E6%96%87%E8%89%BA%E5%87%BA%E7%89%88%E7%A4%BE&amp;act=input&amp;sort_type=sort_sale_amt_desc&amp;filter=0%7C0%7C1%7C0%7C0%7C0%7C0%7C0%7C0%7C0%7C0%7C0%7C0%7C0%7C&amp;page_index=2" title="下一页">下一页</a></li>注意事项:

a. 注意导入Items模块

b. 判断是否需要用上Splash

c. 用SplashRequest 代替ScrapyRequest

(四) 修改 pipelines

存入数据库,修改存入的表

(五) 修改 middleware

开启代理

(五) 修改 setting

修改user-agent开启splash端口

docker run -p 8050:8050 scrapinghub/splash

http://localhost:8050连接数据库开启代理

如果觉得《【京东】抓取京东详情 评论_8.17》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。