看kindle网站电子书用Python爬取下载

小编 Python (272) 2023-04-15 10:36:26

一个下载看kindle(kankindle.com)的所有电子书的python脚本，程序会自动下载首页部分13页的所有电子书，下载到ebook目录下，程序会检测是否下载过。

#!/usr/bin/envpython
#coding=utf-8
frombs4importBeautifulSoup
importurllib2
importsocket
importre
importunicodedata
importos
fromurwid.text_layoutimporttrim_line
defdownload(url):
print'startingdownload%s'%url
response=urllib2.urlopen(url,timeout=30)
html_data=response.read()

soup=BeautifulSoup(html_data)
print'starttoanalayse---------------'


title_soup=soup.find_all(class_='yanshi_xiazai')
name_soup=soup.find_all('h1')
tag_a=title_soup[0].a.attrs['href']
tag_name=title_soup[0].a.contents
link_name=name_soup[0]
link_name=str(link_name).replace("<h1>","").replace("</h1>","")
#printtag_name[0]
#printlink_name


filename=link_name+".mobi"
filename="ebook/"+filename
print'filenameis:%s'%filename

print"downloadingwithurllib2%s"%tag_a
ifos.path.exists(filename):
print'alreadydonwload,ignore'
else:
try:
f=urllib2.urlopen(tag_a,timeout=60)
data=f.read()
#print'thedatais%s'%data
withopen(filename,"wb")ascode:
code.write(data)
exceptException,e:
printe
defget_all_link(url):
print'Startinggetallthelist'
response=urllib2.urlopen(url,timeout=30)
html_data=response.read()
#printhtml_data

soup=BeautifulSoup(html_data)
link_soup=soup.find_all('a')
#printlink_soup

foreach_linkinlink_soup:
ifre.search('view',str(each_link)):
#printeach_link
printeach_link
printeach_link.attrs['href']
download(each_link.attrs['href'])
if__name__=='__main__':
forpageinrange(1,13):
url="http://kankindle.com/simple/page/3"+str(page)
url=url.strip()
printurl
get_all_link(url)

THE END

发表回复取消回复

请先登录账户再评论哦

python如何将字典内容写入json文件

python中如何使用np.delete()方法？

看kindle网站电子书用Python爬取下载

发表回复取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

看kindle网站电子书用Python爬取下载

发表回复 取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

发表回复取消回复