失眠网 > 爬虫爬取实时新闻标题时间及新闻内容并保存

爬虫爬取实时新闻标题时间及新闻内容并保存

时间：2021-03-06 06:17:17

一、概述

本文主要利用selenium控制谷歌浏览器爬取百度新闻资讯及新闻资讯的内容。并保存在本地。在爬取文章内容的时候我用到了正则表达式去匹配文字内容，这里在文章中会有一些杂质出现（后续会想解决方法）。

二、软件及应用模块

1、anaconda、pycharm

anaconda里面集成了许多python的第三方库，使用起来非常方便。

在pycharm里面配置anaconda的环境具体方法可以百度，本人用的mac系统，所以win系统配置会有些许的不同。

2、requests库、openpyxl库、re模块、selenium

requests库，这个库的介绍 (https://2.python-//zh_CN/latest/user/advanced.html) （这里面讲解的非常详细）

openpyxl库是用来将数据存储到excel表格中的（如果觉得没必要可以去掉）

re模块，正则表达式主要是为了匹配我的中文字符（其实在网络爬虫中我们也可以用来定位元素的位置，但是大多数是用的xpath）

selenium 这个库其实就是自动化的模块，主要是为了实现手动翻页功能

三、代码

from selenium import webdriverfrom time import sleepimport requestsfrom openpyxl import workbookfrom openpyxl import load_workbookimport reclass Baidu():def __init__(self):#这里设置的初始网址是按照资讯内容的时间排序的，也可以按照热点或这焦点排序来爬取新闻self.start_url = '/s?tn=news&rtt=4&bsst=1&cl=2&wd={}'self.headers = {"User-Agent": "这里设置你自己浏览器的user-agent"}#标题列表、时间列表、新闻内容的url列表self.title_list = []self.time_list = []self.content_url_list = []self.driver = webdriver.Chrome()def get_content_list(self,start,page):#定位新闻内容的元素位置div_list = self.driver.find_elements_by_xpath('//div[@id="content_left"]')#for循环遍历主要是为了得到不同的文章标题、时间及内容url地址for div in div_list:for i in range(start,page):#获取标题title = div.find_element_by_xpath("//div[@id={}]/h3[@class='c-title']/a".format(str(i+1))).text#获取时间time = div.find_element_by_xpath("//div[@id={}]//p".format(str(i+1))).text#获取新闻内容的url地址content_url = div.find_element_by_xpath("//div[@id={}]/h3[@class='c-title']/a".format(str(i+1))).get_attribute('href')time = time.split(' ')[1]self.title_list.append(title)self.time_list.append(time)self.content_url_list.append(content_url)#得到下一页的元素（这里一定要注意，因为如果没有后面的下一页的话会定位失败）element = self.driver.find_element_by_xpath("//p[@id='page']//a[@class='n'][text()='下一页>']")return title, time, content_url, element, (start+10), (page+10)#存储文章内容def save_content(self, title_list, time_list, content_url_list):wb = workbook.Workbook()ws = wb.activews.append(['新闻标题', '新闻时间', '新闻内容链接'])for i in range(len(self.title_list)):ws.append([self.title_list[i], self.time_list[i], self.content_url_list[i]])wb.save('你自己的文件路径.xlsx')#请求网页，得到网页内容def get_html_text(self, url, headers):try:response = requests.get(url, headers = headers)response.raise_for_status()response.encoding = response.apparent_encodingreturn response.textexcept:return ""#解析不同的网页内容，用正则匹配中文字符def parse_html(self, html_text):try:news_text = re.findall('[\u4e00-\u9fa5]|[，。?]',html_text)news_content = ''.join(news_text)return news_contentexcept:pass#得到文件内容，存储新闻内容def get_news_content(self, news_url_list, title_list):for i in range(len(news_url_list)):html_text = self.get_html_text(str(news_url_list[i]), self.headers)news_content = self.parse_html(html_text)#这里需要修改成你自己的新闻内容保存路径(/Users/yupei/Desktop/news_content/)with open('你自己想要保存的路径位置' + title_list[i][:10] + '.txt', 'w') as f:f.write(news_content)f.close()def run(self):#1、请求百度网页，输入想要查询的股票内容name = input("请输入你想要查找新闻名称:")start, page = 0, 10self.start_url = self.start_url.format(name)self.driver.get(self.start_url)sleep(2)# 注：这里每一页的定位元素的id不断变化，所以需要去获取每一页的页数#2、请求完成后自动点击资讯内容，选择按时间排序,爬取股票资讯内容及时间点并获取网页内容的url地址,将资讯和时间存到excel中,url保存在list中title, time, content_url, element, start, page = self.get_content_list(start, page)#3、点击下一页继续爬取内容try:while element is not None:element.click()sleep(2)title, time, content_url, element, start, page = self.get_content_list(start, page)except:print("网页到头啦!!!")#4、存储相应的新闻标题、新闻时间、新闻内容url信息，输出为excel表格self.save_content(self.title_list, self.time_list, self.content_url_list)#5、爬取到的url_list，遍历得到相应的内容self.get_news_content(self.content_url_list, self.title_list)if __name__ == '__main__':Auto_Baidu = Baidu()Auto_Baidu.run()

四、总结

整体代码感觉写的有点繁琐，还有一些需要改进和学习的地方。其实可以加一些多线程去节约运行时间（后期再改进啦～）

看到这篇文章的人如果有一些爬虫的小项目可以共同交流和进步，也可以帮一些有需求的人写小型的爬虫项目（免费），但是不做那种特别着急的爬虫项目。（如果需要的话评论区留下邮箱我会发微信到你邮箱，谢谢支持！）

如果觉得《爬虫爬取实时新闻标题时间及新闻内容并保存》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。