#实战演练(爬取沐の空间上面的文章cover图) defuseful(): from re import split import requests as r from bs4 import BeautifulSoup as bs import shutil,os,bs4 #新建img目录以便于存放爬取后的图片 os.system('md img') imgdir=os.path.dirname(os.path.abspath(__file__))+'\img' #获取html文件 web=r.get('https://muspace.top/index.html') #对数据进行处理 text=web.text tree=bs(text,'lxml') data=tree.find_all('img') #寻找带有img标签的语句 #遍历所有结果并对其进行处理 for img in data: a=img['src'] #获取下载链接 try: #适用于:https://cdn.jsdelivr.net/gh/WhitemuTeam/web-img/img/xxx.jpg name=a.split('/img/') #分块并获取名字 name=name[1] except: try: #适用于:https://cdn.jsdelivr.net/gh/WhitemuTeam/web-img/xxx.jpg name=a.split('/web-img/') name=name[1] except: #其他的都不爬取 continue try: #尝试下载,如果报错就是存在重复图片 get=r.get(a) open(name,'wb').write(get.content) print('已保存图片',name) shutil.move(name,imgdir) #剪切文件 except: continue print('爬取已完成')
if __name__=='__main__': useful()
get传递参数
1 2 3 4
import requests as r payload = {'key1': 'value1', 'key2': 'value2'} r = r.get("http://httpbin.org/get", params=payload) #get的网址实际为:http://httpbin.org/get?key1=value1&key2=value2
# -*- coding:UTF-8 -*- import requests as r from bs4 import BeautifulSoup as bs
#指定UA headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'}
#爬取目录 defgeturl(): global text url='https://www.bqkan8.com/25_25963/'#目录链接 html=r.get(url,headers=headers) #开始爬取 html.encoding='gbk'#网站使用gbk编码 html=html.text tree=bs(html,'lxml') #将html转化为树形结构 title=tree.find_all('a') #寻找带有a标签的语句 num=0#统计title数量 for i in title: num=num+1 text=open('page.txt','w',encoding='utf-8') #创建txt文件以用于存放小说 for i inrange(num): #循环获取每章节的链接 purl=title[i+41] purl='https://www.bqkan8.com/'+purl['href'] page(purl) text.close() #保存退出 input('爬取完毕')