文章列表 - Python 爬虫练习网站

Spiderbuf

H03 - 网页滚动加载的原理及爬取(JavaScript加密混淆逆向基础)

发布日期：1718095255 阅读数：1537

coding=utf-8 import os.path import requests from lxml import etree import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraping-scroll-load’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...

H02 - 高分电影列表复杂页面的解析（仿豆瓣电影）-xpath高级用法

发布日期：1718095227 阅读数：1316

coding=utf-8 import os.path import requests from lxml import etree import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraping-douban-movies-xpath-advanced’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,...

N03 - 限制访问频率不低于1秒

发布日期：1718095193 阅读数：1339

coding=utf-8 import requests from lxml import etree import time base_url = ‘https://spiderbuf.cn/web-scraping-practice/scraper-bypass-request-limit/%d’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/9...

N02 - 使用Base64编码的图片爬取与解码还原

发布日期：1718095161 阅读数：1012

coding=utf-8 import requests from lxml import etree import base64 url = ‘https://spiderbuf.cn/web-scraping-practice/scraping-images-base64’ myheaders = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164...

H01 - CSS样式偏移混淆文本内容的解析与爬取

发布日期：1718095102 阅读数：1049

coding=utf-8 import requests from lxml import etree url = ‘https://spiderbuf.cn/web-scraping-practice/scraping-css-confuse-offset’ myheaders = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24