爬虫学习--9.三大数据解析方式对比

以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比：

XPath

优点：XPath可以通过路径表达式指定元素的位置，也可以通过属性和文本内容等信息来筛选元素，定位精确。XPath支持多种操作符和函数，可以进行各种条件过滤、排序、分组等操作。
缺点：XPath的语法相对复杂，需要学习XPath语法和节点结构；XPath不支持CSS选择器等其他选择器。
应用场景：XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况，例如从XML文件中抽取特定信息。

BeautifulSoup4

优点：BeautifulSoup4可以将HTML和XML等文档解析成树形结构，提供了各种方法来搜索和遍历文档树，使用起来比较灵活和方便。BeautifulSoup4支持CSS选择器和正则表达式等多种选择器来定位节点，可以根据需要选择不同的方式。
缺点：BeautifulSoup4对文档结构要求不高，对于复杂的文档结构可能无法处理；BeautifulSoup4的性能相对较低。
应用场景：BeautifulSoup4适用于需要处理HTML文档、对文档结构要求不高的情况，例如从网页中抽取信息。

正则表达式

优点：正则表达式可以进行多种文本匹配和替换操作，例如查找、替换、分割、提取等。正则表达式能够支持更复杂的模式匹配和替换操作。
缺点：正则表达式的语法相对复杂，需要学习正则表达式的规则和语法；正则表达式对于复杂的文本处理可能无法处理。
应用场景：正则表达式适用于需要进行高级模式匹配和替换的情况，例如从文本中提取特定的信息。

综上所述，XPath、BeautifulSoup4和正则表达式各有优缺点和适用场景，可以根据具体需求选择不同的方式。XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况；BeautifulSoup4适用于处理HTML文档、对文档结构要求不高的情况；正则表达式适用于需要进行高级模式匹配和替换的情况。

数据解析总结案例

import requests
from lxml import etree
import re # 内置库不用我们下载
from urllib.request import urlretrieve
for i in range(1,100):
url = f'http://www.godoutu.com/face/hot/page/{i}.html'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
}
html = requests.get(url,headers=headers).text
element = etree.HTML(html)
alldiv = element.xpath('//div[@class="ui segment imghover"]/div[@class="tagbqppdiv"]')
print(len(alldiv))
for i in alldiv:
everyhref = i.xpath('./a/img/@data-original')[0]
# print(everyhref,type(everyhref))
# print(str(everyhref).endswith('jpg'))
title = i.xpath('./a/img/@title')[0]
# print(title)
newtitle = re.sub('[\/:*?<>|]','',title)
# print(newtitle)
if str(everyhref).endswith('jpg'):
urlretrieve(everyhref,f'images/{newtitle}.jpg')
print(f'{newtitle}.jpg下载成功')
else:
urlretrieve(everyhref, f'images/{newtitle}.gif')
print(f'{newtitle}.gif下载成功')