0x01 安装beautifulsoup4库
pip3 install beautifulsoup4
0x02 初始化操作
通过BeautifulSoup初始化要操作的字符串
from bs4 import BeautifulSoup
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sp=BeautifulSoup(str,'lxml')
print(sp)
0x03 获取电影名字
1、右击要获取的字符串,选择审查元素
2、匹诺曹在h2标签下
3、代码实现
from bs4 import BeautifulSoup
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sp=BeautifulSoup(str,'lxml')
print(sp.h2.string)
0x04 获取该页面的所有电影名
from bs4 import BeautifulSoup
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sp=BeautifulSoup(str,'lxml')
for h2 in sp.find_all(name='h2'):
print(h2.string)
运行结果: 匹诺曹
心弦为君而鸣
我的爸爸
犬部!
孩子不想理解
独自生活的人们
欧比旺:绝地归来
欢快的鬼魂
雷神4:爱与雷霆
致命邮件:2001 美国炭疽攻击事件
布朗克斯大战吸血鬼
嚎笑捉鬼队
旅馆闹鬼
闲山:龙的出现
非常宣言
鬼影实录:血亲
小犬与女孩
小鹿乱撞爱上你
单向逃离
防线-秘密护送
爱的透视图
坏种2
婚头转向
海豹自卫队
1、sp.find_all(name='h2'):获取标签h2的所有内容,这是一个列表
2、通过循环输出出来
3、通过string获取里面的字符串
0x05 声明
仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。
欢迎关注编程者吧
文章评论