我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来,
都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟????,这也是我第一次写博客,代码有哪里写的不好的地方,需要改进的地方希
望大家也可以帮我指出。
用到的包有requests - BeautSoup
我爬的是天涯论坛的财经论坛:‘/list.jsp?item=develop’
它里面的其中的一个帖子的URL:‘/post-develop-2279340-1.shtml’
第一步:定义了三个函数跟一个main函数
defgetHtmlText(url):pass
defgetHtmlList(list,url,main_url):pass
defgetHtmlInfo(list,fpath):pass
defmain():pass
第一个函数是获取一个url,通过requests.get()方法,获取页面的信息,这是一个获取url资源的模块
第二个函数是获取一个url,调用第一个函数解析财经论坛页面,获取到其中的子帖子的url,存放在list中
第三个函数是把list中的url通过for循环一个一个解析页面,获取其中我们想要的内容,然后把得到的内容存放在指定的电脑的位置里
main函数里就是调用这几个函数
第二步:代码的具体实现
# encoding:utf8
importrequestsfrom bs4 importBeautifulSoup
#获取一个ur
如果觉得《python爬取论坛付费内容_python 网络爬虫(一)爬取天涯论坛评论》对你有帮助,请点赞、收藏,并留下你的观点哦!