失眠网 > pandas.read_html()读取网页表格类数据

pandas.read_html()读取网页表格类数据

时间：2021-12-02 21:41:14

目标网站

/lishi/wanzhou/month/01.html

表格类数据格式样子

大致网络结构

<table class="..." id="..." ...>...<tbody><tr><td>...</td></tr><tr>...</tr><tr>...</tr><tr>...</tr><tr>...</tr>...<tr>...</tr><tr>...</tr> </tbody></table>

<table></table> 表示整体表格<tr>...</tr>表示一行<td>...</td>表示某一格的数据

代码

从HTML文件读取数据

如上所示，Pandas可以直接用DataFrame生成HTML表格，同样可以读取HTML文件。read_html()函数解析HTML页面，寻找HTML表格。如果找到，就将其转换为可以直接用于数据分析的DataFrame对象。

即使只有一个表格，read_html()函数也会返回一个DataFrame列表

import pandas as pddates=[01,02,03,04,05,06,07,08,09,10,11,12]print(dates)# 构造出日期序列便于之后构造urlfor i in range(len(dates)):df = pd.read_html(f'/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]print(df)if i == 0:df.to_csv('万州天气预报数据.csv', mode='a+', index=False)# mode='a+'追加写入i += 1else:df.to_csv('万州天气预报数据.csv', mode='a+', index=False, header=False)print('结束')

换一个网站

/hsgt/top10.html

import pandas as pddf = pd.read_html(f'/hsgt/top10.html', encoding='gbk')[0]print(df)

一些复杂网站无法读取。

能读取就读，不能读就尝试爬虫吧

如果觉得《pandas.read_html()读取网页表格类数据》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。