python如何使用xpath

小编 Python (280) 2023-06-20 11:08:50

一、简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

二、安装

pip3installlxml

三、使用

1、导入

fromlxmlimportetree

2、基本使用

fromlxmlimportetree

wb_data="""
<div>
<ul>
<li><ahref="link1.html">firstitem</a></li>
<li><ahref="link2.html">seconditem</a></li>
<li><ahref="link3.html">thirditem</a></li>
<li><ahref="link4.html">fourthitem</a></li>
<li><ahref="link5.html">fifthitem</a>
</ul>
</div>
"""
html=etree.HTML(wb_data)
print(html)
result=etree.tostring(html)
print(result.decode("utf-8"))

从下面的结果来看，我们打印机html其实就是一个python对象，etree.tostring(html)则是不全里html的基本写法，补全了缺胳膊少腿的标签。

<Elementhtmlat0x39e58f0>
<html><body><div>
<ul>
<li><ahref="link1.html">firstitem</a></li>
<li><ahref="link2.html">seconditem</a></li>
<li><ahref="link3.html">thirditem</a></li>
<li><ahref="link4.html">fourthitem</a></li>
<li><ahref="link5.html">fifthitem</a>
</li></ul>
</div>
</body></html>

3、获取某个标签的内容(基本使用)，注意，获取a标签的所有内容，a后面就不用再加正斜杠，否则报错。

写法一

html=etree.HTML(wb_data)
html_data=html.xpath('/html/body/div/ul/li/a')
print(html)
foriinhtml_data:
print(i.text)


<Elementhtmlat0x12fe4b8>
firstitem
seconditem
thirditem
fourthitem
fifthitem

写法二（直接在需要查找内容的标签后面加一个/text()就行）

html=etree.HTML(wb_data)
html_data=html.xpath('/html/body/div/ul/li/a/text()')
print(html)
foriinhtml_data:
print(i)

<Elementhtmlat0x138e4b8>
firstitem
seconditem
thirditem
fourthitem
fifthitem

4、打开读取html文件

#使用parse打开html的文件
html=etree.parse('test.html')
html_data=html.xpath('//*')<br>#打印是一个列表，需要遍历
print(html_data)
foriinhtml_data:
print(i.text)

html=etree.parse('test.html')
html_data=etree.tostring(html,pretty_print=True)
res=html_data.decode('utf-8')
print(res)

打印：
<div>
<ul>
<li><ahref="link1.html">firstitem</a></li>
<li><ahref="link2.html">seconditem</a></li>
<li><ahref="link3.html">thirditem</a></li>
<li><ahref="link4.html">fourthitem</a></li>
<li><ahref="link5.html">fifthitem</a></li>
</ul>
</div>

5、打印指定路径下a标签的属性（可以通过遍历拿到某个属性的值，查找标签的内容）

html=etree.HTML(wb_data)
html_data=html.xpath('/html/body/div/ul/li/a/@href')
foriinhtml_data:
print(i)

打印：
link1.html
link2.html
link3.html
link4.html
link5.html

6、我们知道我们使用xpath拿到得都是一个个的ElementTree对象，所以如果需要查找内容的话，还需要遍历拿到数据的列表。

查到绝对路径下a标签属性等于link2.html的内容。

html=etree.HTML(wb_data)
html_data=html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
foriinhtml_data:
print(i)

打印：
['seconditem']
seconditem

7、上面我们找到全部都是绝对路径（每一个都是从根开始查找），下面我们查找相对路径，例如，查找所有li标签下的a标签内容。

html=etree.HTML(wb_data)
html_data=html.xpath('//li/a/text()')
print(html_data)
foriinhtml_data:
print(i)

打印：
['firstitem','seconditem','thirditem','fourthitem','fifthitem']
firstitem
seconditem
thirditem
fourthitem
fifthitem

8、上面我们使用绝对路径，查找了所有a标签的属性等于href属性值，利用的是/---绝对路径，下面我们使用相对路径，查找一下l相对路径下li标签下的a标签下的href属性的值，注意，a标签后面需要双//。

html=etree.HTML(wb_data)
html_data=html.xpath('//li/a//@href')
print(html_data)
foriinhtml_data:
print(i)

打印：
['link1.html','link2.html','link3.html','link4.html','link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html

9、相对路径下跟绝对路径下查特定属性的方法类似，也可以说相同。

html=etree.HTML(wb_data)
html_data=html.xpath('//li/a[@href="link2.html"]')
print(html_data)
foriinhtml_data:
print(i.text)

打印：
[<Elementaat0x216e468>]
seconditem

10、查找最后一个li标签里的a标签的href属性

html=etree.HTML(wb_data)
html_data=html.xpath('//li[last()]/a/text()')
print(html_data)
foriinhtml_data:
print(i)

打印：
['fifthitem']
fifthitem

11、查找倒数第二个li标签里的a标签的href属性

html=etree.HTML(wb_data)
html_data=html.xpath('//li[last()-1]/a/text()')
print(html_data)
foriinhtml_data:
print(i)

打印：
['fourthitem']
fourthitem

12、如果在提取某个页面的某个标签的xpath路径的话，可以如下图：

//*[@id="kw"]

解释：使用相对路径查找所有的标签，属性id等于kw的标签。

#!/usr/bin/envpython
#-*-coding:utf-8-*-
fromscrapy.selectorimportSelector,HtmlXPathSelector
fromscrapy.httpimportHtmlResponse
html="""<!DOCTYPEhtml>
<html>
<head>
<metacharset="UTF-8">
<title></title>
</head>
<body>
<ul>
<li><aid='i1'href="link.html">firstitem</a></li>
<li><aid='i2'href="llink.html">firstitem</a></li>
<li><ahref="llink2.html">seconditem<span>vv</span></a></li>
</ul>
<div><ahref="llink2.html">seconditem</a></div>
</body>
</html>
"""
response=HtmlResponse(url='http://example.com',body=html,encoding='utf-8')
#hxs=HtmlXPathSelector(response)
#print(hxs)
#hxs=Selector(response=response).xpath('//a')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[2]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[@id]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[@id="i1"]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[@href="link.html"][@id="i1"]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[contains(@href,"link")]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[starts-with(@href,"link")]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[re:test(@id,"i\d+")]')
#print(hxs)
#hxs=Selector(response=response).xpath('//a[re:test(@id,"i\d+")]/text()').extract()
#print(hxs)
#hxs=Selector(response=response).xpath('//a[re:test(@id,"i\d+")]/@href').extract()
#print(hxs)
#hxs=Selector(response=response).xpath('/html/body/ul/li/a/@href').extract()
#print(hxs)
#hxs=Selector(response=response).xpath('//body/ul/li/a/@href').extract_first()
#print(hxs)

#ul_list=Selector(response=response).xpath('//body/ul/li')
#foriteminul_list:
#v=item.xpath('./a/span')
##或
##v=item.xpath('a/span')
##或
##v=item.xpath('*/a/span')
#print(v)

python学习网，大量的免费python视频教程，欢迎在线学习！

THE END

发表回复取消回复

请先登录账户再评论哦

python中yield的使用注意

python如何追加字符串

python如何使用xpath

发表回复取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

python如何使用xpath

发表回复 取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

发表回复取消回复