失眠网 > python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...

python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...

时间：2023-04-20 20:46:14

Python爬虫包 BeautifulSoup 递归抓取实例详解

概要：

爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容，然后分析页面内容并找到另一个URL，然后获得这个URL的页面内容，不断重复这一个过程。

让我们以维基百科为一个例子。

我们想要将维基百科中凯文·贝肯词条里所有指向别的词条的链接提取出来。

# -*- coding: utf-8 -*-

# @Author: HaonanWu

# @Date: -12-25 10:35:00

# @Last Modified by: HaonanWu

# @Last Modified time: -12-25 10:52:26

from urllib2 import urlopen

from bs4 import BeautifulSoup

html = urlopen('/wiki/Kevin_Bacon')

bsObj = BeautifulSoup(html, "html.parser")

for link in bsObj.findAll("a"):

if 'href' in link.attrs:

print link.attrs['href']

上面这个代码能够将页面上的所有超链接都提取出来。

/wiki/Wikipedia:Protection_policy#semi

#mw-head

#p-search

/wiki/Kevin_Bacon_(disambiguation)

/wiki/File:Kevin_Bacon_SDCC_.jpg

/wiki/San_Diego_Comic-Con

/wiki/Philadelphia

/wiki/Pennsylvania

/wiki/Kyra_Sedgwick

首先，提取出来的URL可能会有一些重复的

其次，有一些URL是我们不需要的，如侧边栏、页眉、页脚、目录栏链接等等。

所以通过观察，我们可以发现所有指向词条页面的链接都有三个特点：

它们都在id是bodyContent的div标签里

URL链接不包含冒号

URL链接都是以/wiki/开头的相对路径(也会爬到完整的有http开头的绝对路径)

from urllib2 import urlopen

from bs4 import BeautifulSoup

import datetime

import random

import re

pages = set()

random.seed(datetime.datetime.now())

def getLinks(articleUrl):

html = urlopen(""+articleUrl)

bsObj = BeautifulSoup(html, "html.parser")

return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=pile("^(/wiki/)((?!:).)*$"))

links = getLinks("/wiki/Kevin_Bacon")

while len(links) > 0:

newArticle = links[random.randint(0, len(links)-1)].attrs["href"]

if newArticle not in pages:

print(newArticle)

pages.add(newArticle)

links = getLinks(newArticle)

其中getLinks的参数是/wiki/，并通过和维基百科的绝对路径合并得到页面的URL。通过正则表达式捕获所有指向其他词条的URL，并返回给主函数。

主函数则通过调用递归getlinks并随机访问一条没有访问过的URL，直到没有了词条或者主动停止为止。

这份代码可以将整个维基百科都抓取下来

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

pages = set()

def getLinks(pageUrl):

global pages

html = urlopen(""+pageUrl)

bsObj = BeautifulSoup(html, "html.parser")

try:

print(bsObj.h1.get_text())

print(bsObj.find(id ="mw-content-text").findAll("p")[0])

print(bsObj.find(id="ca-edit").find("span").find("a").attrs['href'])

except AttributeError:

print("This page is missing something! No worries though!")

for link in bsObj.findAll("a", href=pile("^(/wiki/)")):

if 'href' in link.attrs:

if link.attrs['href'] not in pages:

#We have encountered a new page

newPage = link.attrs['href']

print("----------------\n"+newPage)

pages.add(newPage)

getLinks(newPage)

getLinks("")

一般来说Python的递归限制是1000次，所以需要人为地设置一个较大的递归计数器，或者用其他手段让代码在迭代1000次之后还能运行。

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

如果觉得《python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。