如何使用python中beautifulsoup库?

Python (176) 2023-04-17 03:08:54

之前教过大家去解析页面的方式,受到很多小伙伴们的喜欢,有不少小伙伴咨询小编要怎么要学习了解能够解析的基于库,这边让小编,想到了requests库的亲兄弟,beautifulsoup库,他可以做到提取页面信息,并且是提取到有用的信息,现在也是人们常作为使用的一种库,大家可以看看理解理解。

老规矩,先学会安装:

纯文本
复制到剪贴板
在新窗口中打开代码
EnlighterJS 3 Syntax Highlighter
方式:pipinstallbeautifulsoup4
方式:pipinstallbeautifulsoup4
方式:pipinstallbeautifulsoup4

测试是否安装成功

纯文本
复制到剪贴板
在新窗口中打开代码
EnlighterJS 3 Syntax Highlighter
importrequests
r=requests.get("链接")
demo=r.text
formbs4importBeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
importrequests r=requests.get("链接") demo=r.text formbs4importBeautifulSoup soup=BeautifulSoup(demo,"html.parser")
importrequests
r=requests.get("链接")
demo=r.text
formbs4importBeautifulSoup
soup=BeautifulSoup(demo,"html.parser")

实例案例演示:

纯文本
复制到剪贴板
在新窗口中打开代码
EnlighterJS 3 Syntax Highlighter
html=bs4.BeautifulSoup(response.text,features='lxml')
note_list=html.find_all('ul',class_='note-list',limit=1)[0]
forainnote_list.select('li>div.content>a.title'):
title=a.contents[0]
link=f'链接{a["href"]}'
print(f'《{title}》,{link}')
html=bs4.BeautifulSoup(response.text,features='lxml') note_list=html.find_all('ul',class_='note-list',limit=1)[0] forainnote_list.select('li>div.content>a.title'): title=a.contents[0] link=f'链接{a["href"]}' print(f'《{title}》,{link}')
html=bs4.BeautifulSoup(response.text,features='lxml')
note_list=html.find_all('ul',class_='note-list',limit=1)[0]
forainnote_list.select('li>div.content>a.title'):
title=a.contents[0]
link=f'链接{a["href"]}'
print(f'《{title}》,{link}')

虽然BeautifulSoup也有中文文档,也有一些比较落后的小版本,但是影响不是很大,足够大家在需要解析页面的时候调用了,相信通过上述描述,大家也知道这个库的好用之处了吧,多多学习了解吧~

THE END

发表回复