通过Beautiful定位标签,获取图片链接,仅限于图片直接内嵌于网页源代码中,有的网站图片链接藏在js文件,无法爬取

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
#爬取umei.cc中的图片

import requests
from bs4 import BeautifulSoup

domain = "https://umei.cc/katongdongman/dongmantupian/" #网站地址
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}
res = requests.get(domain, headers=headers)
res.encoding = 'utf-8' #防止中文乱码
content = res.text #获取源代码

mainPage = BeautifulSoup(content, "html.parser") #创建Beautiful对象,说明其使用的语言
img_list = mainPage.find("div", class_="TypeList").find_all("img") #找到class="TypeList"的div标签包裹的所有img标签

for img in img_list: #遍历这些img标签
img_scr = img.get("src") #获取其中的src属性值
# print(img_name)
imgName = "img/{}".format(img_scr.split('/')[-1]) #获取图片名称
with open(imgName, mode="wb") as f: #打开文件
f.write(requests.get(img_scr).content) #写入二进制码
f.close()
print("over")

print("all over!")