文章列表 - Python 爬虫练习网站

Spiderbuf

C02 - Python爬虫练习通关提示

发布日期：1734279012 阅读数：1743

方法有多种，例如：模拟浏览器、JavaScript代码调试等。建议同时掌握多种解法，训练自己对网页爬虫的直觉。小知识：普通人的手是无法使用鼠标划出一条完美的直线的，但机器人可以。。。...

高性能代码编辑器Zed能否取代VS Code ？

发布日期：1732546196 阅读数：952

Zed is a next-generation code editor designed for high-performance collaboration with humans and AI. Zed是由原Atom代码编辑器的作者Nathan Sobo另起炉灶开发的一款代码编辑器。他们的目标是创建一个快速、简单且用户友好的代码编辑器。 Zed使用编译性开发语言Rust开发，这在本质上就决定了它的性能比较好，更何况还使用了GPU加速。开源以来已经在GitHub上获得了50K+的Star，可见Zed的受欢迎程度。甚至在YouTube上有人放出了Zed "kills" VS Code这样的标...

Python爬虫实战E04被屏蔽IP后使用代理服务器爬取页面案例解析

发布日期：1732463151 阅读数：1325

打开Python爬虫实战练习页面被屏蔽IP后使用代理服务器爬取页面_E04_Spiderbuf，可以看到页面并不复杂，留意页面右下角有翻面数字。在网页上点击右键 > 显示网页源代码，可以看到网页结构也并不复杂。往下滚动查看源码，第193 - 199行是翻页的源码，但与页面显示的页面数量显示不符。仔细对比各个翻页的链接，可以看到页数为6的链接样式类名多出一个“trap”，回到页面对比，发现页面上没有显示这个页数为6的链接。查找CSS样式类名为trap的样式代码，在第55行可以看到display: none;这样的CSS代码，这个代码就是不显示的意思。通常页面放了一个不显示的链接在代码...

Python爬虫实战N07随机CSS样式类名，无Element ID案例解析

发布日期：1732023966 阅读数：1480

打开Python爬虫练习页面随机CSS样式类名，无Element ID_N07_Spiderbuf，可以看到页面数据并不复杂。在网页上点击右键 > 显示网页源代码，可以看到网页结构也并不复杂。源码第16 - 29行有CSS样式代码，根据提示应该就是这里会变化，直接在源码的页面上刷新，可以看到CSS的类名发生了变化，而且每刷新一次都会变。往下翻看源码，可以看到源码第70 - 1436行就是我们需要爬取的内容，div对应的CSS类名也会随刷新页面变化。因为CSS类名每次都是随机的，就很难像之前那样直接使用XPath定位到需要获取的内容进行解析了，这时候有两种方法：一个就是request...

VSCode利用tasks.json实现交叉编译

发布日期：1731912970 阅读数：928

平时写代码使用VSCode居多，写Python以及前端代码时基本不用过多地配置即可开始编写代码、运行，也算是开箱即用的程度。但涉及到Golang这样需要编译调试的开发语言就需要进行一些配置了，尤其是需要跨平台运行时就要用到交叉编译。先科普一下交叉编译的概念：交叉编译是在一个平台上生成另一个平台上的可执行代码。同一个体系结构可以运行不同的操作系统；同样，同一个操作系统也可以在不同的体系结构上运行。开发环境使用Windows以及macOS居多，但编译出来的程序往往是在Linux上运行，如果直接在服务器上进行编译就比较麻烦，所以就需要用到交叉编译。交叉编译也可以用命令行进行，但每次都复制...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24