文章列表 - Python 爬虫练习网站

Spiderbuf

PyCharm调试时报错：can't open file 'C:\\Program': [Errno 2] No such file or directory

发布日期：1727885426 阅读数：1705

C:\Python\python.exe: can't open file 'C:\\Program': [Errno 2] No such file or directory Process finished with exit code 2 最近在升级PyCharm时，一时忘记修改默认的安装路径，在写代码并且调试模式（Debug）运行时就报了以上的错误。隐约记得在网上也见过有网友遇过这样的问题并且发贴求助，所以就记录一下。先说解决方法：这个问题就是由于PyCharm安装路径带了空格导致的，重新安装PyCharm并在安装时选择不带空格及中文的路径即可。所以我在很多时候都会强调写...

Ubuntu 安装配置Playwright

发布日期：1727453223 阅读数：1254

Playwright 是一个由 Microsoft 开发的开源自动化库，它允许开发者以编程的方式控制 Chromium,Firefox和 WebKit 这样的现代浏览器。Playwright 能够执行跨浏览器的端到端测试，非常适合自动化测试、爬虫开发以及生成网页截图和 PDF。本文将指导你在 Ubuntu 系统上安装和配置Playwright。 #### Ubuntu环境配置先打开Ubuntu终端，执行以下命令安装Playwright的依赖库：...

Python常见报错及解决方法

发布日期：1725724925 阅读数：2104

Python 作为一门易学易用的编程语言，但也难免会遇到各种各样的错误。下面我们来盘点一下常见的 Python 报错类型，并给出相应的解决方法。...

Tensorflow机器学习入门“Hello, World”

发布日期：1724344831 阅读数：1046

在Google CodeLabs上看到一个Tensorflow机器学习入门的文章，该文章用一个很简单的机器学习Tensorflow神经网络训练的例子带大家开始入门Tensorflow机器学习。现在AI盛行，大家都对人工智能技术趋之若鹜，但很多人都苦于没有找到合适的教程入门。网上的很多教程要么就太专业、太复杂，不适合入门，要么就是直接给出一堆代码也没详细的讲解及解释，大家看得云里雾里的。难得看到这样一个简单直观而且代码能够直接运行成功的机器学习示例，所以就换个方式分享出来。其实这篇文章的代码也不是一次运行成功的，我在神经网络模型结果猜测那里做了一些小修改。这个机器学习例子的目的...

初识浏览器指纹：Selenium是如何被反爬的

发布日期：1722618774 阅读数：1548

Selenium是一个用于Web应用程序测试的工具，通常称为模拟浏览器。经常被用在网络爬虫当中，爬取一些Ajax等动态调用、动态渲染的网页尤其好用。但是selenium也不是万能的，很多人在使用selenium爬取网页时就会发现无法正常爬取网页内容，出现的现象有403 Forbidden、网页内容为空、网页内容凌乱等等。其实出现以上的情况就是因为目标网站发现你在用selenium或类似的模拟浏览器进行爬取，简单来说就是被识别为爬虫了。很多人不懂其中的原理，觉得selenium看起来就是一个浏览器，怎么就会被反爬了呢？这就要从浏览器的技术原来讲起，浏览器有很多属性值是可以通过javasc...

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24