失眠网 > python爬取论坛付费内容_python 网络爬虫（一）爬取天涯论坛评论

python爬取论坛付费内容_python 网络爬虫（一）爬取天涯论坛评论

时间：2023-11-09 14:03:18

我是一个大二的学生，也是刚接触python，接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛，中途碰到了很多问题，就想把这些问题分享出来，

都是些简单的问题，希望大佬们以宽容的眼光来看一个小菜鸟????，这也是我第一次写博客，代码有哪里写的不好的地方，需要改进的地方希

望大家也可以帮我指出。

用到的包有requests - BeautSoup

我爬的是天涯论坛的财经论坛：‘/list.jsp?item=develop’

它里面的其中的一个帖子的URL：‘/post-develop-2279340-1.shtml’

第一步：定义了三个函数跟一个main函数

defgetHtmlText(url):pass

defgetHtmlList(list,url,main_url):pass

defgetHtmlInfo(list,fpath):pass

defmain():pass

第一个函数是获取一个url，通过requests.get()方法，获取页面的信息，这是一个获取url资源的模块

第二个函数是获取一个url，调用第一个函数解析财经论坛页面，获取到其中的子帖子的url，存放在list中

第三个函数是把list中的url通过for循环一个一个解析页面，获取其中我们想要的内容，然后把得到的内容存放在指定的电脑的位置里

main函数里就是调用这几个函数

第二步：代码的具体实现

# encoding:utf8

importrequestsfrom bs4 importBeautifulSoup

#获取一个ur

如果觉得《python爬取论坛付费内容_python 网络爬虫（一）爬取天涯论坛评论》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。