以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比:
-
XPath
-
优点:XPath可以通过路径表达式指定元素的位置,也可以通过属性和文本内容等信息来筛选元素,定位精确。XPath支持多种操作符和函数,可以进行各种条件过滤、排序、分组等操作。
-
缺点:XPath的语法相对复杂,需要学习XPath语法和节点结构;XPath不支持CSS选择器等其他选择器。
-
应用场景:XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况,例如从XML文件中抽取特定信息。
-
BeautifulSoup4
-
优点:BeautifulSoup4可以将HTML和XML等文档解析成树形结构,提供了各种方法来搜索和遍历文档树,使用起来比较灵活和方便。BeautifulSoup4支持CSS选择器和正则表达式等多种选择器来定位节点,可以根据需要选择不同的方式。
-
缺点:BeautifulSoup4对文档结构要求不高,对于复杂的文档结构可能无法处理;BeautifulSoup4的性能相对较低。
-
应用场景:BeautifulSoup4适用于需要处理HTML文档、对文档结构要求不高的情况,例如从网页中抽取信息。
-
正则表达式
-
优点:正则表达式可以进行多种文本匹配和替换操作,例如查找、替换、分割、提取等。正则表达式能够支持更复杂的模式匹配和替换操作。
-
缺点:正则表达式的语法相对复杂,需要学习正则表达式的规则和语法;正则表达式对于复杂的文本处理可能无法处理。
-
应用场景:正则表达式适用于需要进行高级模式匹配和替换的情况,例如从文本中提取特定的信息。
综上所述,XPath、BeautifulSoup4和正则表达式各有优缺点和适用场景,可以根据具体需求选择不同的方式。XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况;BeautifulSoup4适用于处理HTML文档、对文档结构要求不高的情况;正则表达式适用于需要进行高级模式匹配和替换的情况。
数据解析总结案例
import requests
from lxml import etree
import re # 内置库 不用我们下载
from urllib.request import urlretrieve
for i in range(1,100):
url = f'http://www.godoutu.com/face/hot/page/{i}.html'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
}
html = requests.get(url,headers=headers).text
element = etree.HTML(html)
alldiv = element.xpath('//div[@class="ui segment imghover"]/div[@class="tagbqppdiv"]')
print(len(alldiv))
for i in alldiv:
everyhref = i.xpath('./a/img/@data-original')[0]
# print(everyhref,type(everyhref))
# print(str(everyhref).endswith('jpg'))
title = i.xpath('./a/img/@title')[0]
# print(title)
newtitle = re.sub('[\/:*?<>|]','',title)
# print(newtitle)
if str(everyhref).endswith('jpg'):
urlretrieve(everyhref,f'images/{newtitle}.jpg')
print(f'{newtitle}.jpg下载成功')
else:
urlretrieve(everyhref, f'images/{newtitle}.gif')
print(f'{newtitle}.gif下载成功')