文章列表 - Python 爬虫练习网站

Spiderbuf

HTMX实现无表单提交的妙招：解锁更简洁高效的交互方式

发布日期：1736266449 阅读数：656

通常网页要向后台提交数据都通过表单的方式进行，但有时候为了兼顾网页的布局美观，很难把所有的用户输入控件都放在同一个 <form> 表单标签里面。以往要解决这样的问题只能通过编写JavaScript代码来实现。 htmx拥有强大的交互能力，能够在跨表单甚至无表单的情况下对数据进行提交，而且只需要设置一个属性值即可实现，无须编写大量JavaScript代码。下面我们就使用 Python + flask + htmx 来演示一下htmx的无表单提交功能。先建一个演示的项目，使用Python + flask + htmx作为示例，项目总共两个子文件夹：templates、stat...

HTMX 不生效？探索 JavaScript 动态 HTML 加载的终极解决方案

发布日期：1736266393 阅读数：650

在使用htmx的过程中，遇到了通过JavaScript动态加载的HTML内容包含的htmx行为不生效的问题。在把一些老的项目升级替换成htmx时，难免会为了兼容旧代码而使用javascript加载html片段，在这当中遇到了一个奇怪的问题：加载的html片段中包含的hx-get、hx-post等代码不生效，点击时完全没响应。但把这些代码放在单独的一个页面里面测试是没问题的，这其中的原因令人费解。虽然htmx在GitHub上的start已经有50多K，但网上的资料少之又少，特别是中文资料更是凤毛麟角。htmx官方上的示例也只是一笔带过，很多在实际应用当中是断层的，这让刚刚接触htmx这个...

Python爬虫实战S01requests库及lxml库入门案例解析

发布日期：1735731473 阅读数：2382

打开Python爬虫实战练习页面requests库及lxml库入门_S01_Spiderbuf，看到页面上的内容是一个很简单的表格。在页面上右键 -> 显示网页源代码，发现HTML源码也很简单。我们就使用Python的requests库爬取网页，并使用lxml库来解析网页。这两个库都不是Python的标准库，所以我们需要通过pip命令进行安装。 pip install requests pip install lxml 在linux或者macOS环境中，因为区分了Python 2与3的版本，所以命令要带上版本号。 pip3 install requests pip3 install...

Python爬虫实战S02http请求分析及头构造使用案例解析

发布日期：1735731426 阅读数：1461

打开Python爬虫实战练习页面http请求分析及头构造使用_S02_Spiderbuf，看到页面上的内容跟前一个练习一模一样。在页面上右键 -> 显示网页源代码，发现HTML源码也基本一样。那我们就直接把上一个练习的Python代码改一下URL运行一下。 # coding=utf-8 import requests from lxml import etree url = 'http://www.spiderbuf.cn/playground/s02' html = requests.get(url).text print(html) 很不幸，返回了403，爬虫代码没有成功爬取到网页...

Python爬虫实战S03lxml库进阶语法及解析练习案例解析

发布日期：1735731371 阅读数：1339

打开Python爬虫实战练习页面lxml库进阶语法及解析练习_S03_Spiderbuf，看到页面上的内容比较简单，比之前的两个练习多了一些样式。在页面上右键 -> 显示网页源代码，翻到数据内容的HTML源码，发现跟之前的练习对比就多了一些样式的控制跟a标签的包裹。直接使用Python编写爬虫代码运行能够很顺利地把网页爬取下来，说明这次的练习重点在内容的解析上。同样的，我们还是使用lxml这个python库，构造xpath表达式对网页内容进行解析。这里先教大家一个利用浏览器快速获取到指定网页元素的xpath表达式的方法：打开浏览器开发者工具（F12），点击左上角的光标图标，然后把鼠...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24