2024-07-18阅读数:5
PyCharm是一个非常方便且有社区免费版的Python IDE,下载安装好之后就可以直接进行开发、调试等,不管是Python新手还是专业开发人员都是比较优秀的选择,但不少人在使用过程中会遇到很多看似莫名其妙的问题,ModuleNotFoundError算是比较有代表性的一个,很多人都遇到这个问题上网找解决方法的时候出来的答案大部分都是建议使用pip install安装提示中的库。但实际情况是其中的很多人已经安装过相关的库了,还是出现这个提示。 其中这跟PyCharm的机制有关,PyCharm有时候选中的编译环境是一个虚拟环境,并不是你电脑中安装Python的实际环境。 要解决这个问题只需
2024-07-09阅读数:37
前段时间综合了长期以来维护爬虫练习网站Spiderbuf、免费爬虫视频的粉丝留言等信息,打造了一个关于Python爬虫攻防的课程,主要是帮助对网络爬虫感兴趣的朋友拓展知识面,让大家了解更多的爬虫技术原理、辅助工具、反爬措施等。 本课程的目标:让大家知其然,也知其所以然! 授人以渔。大部分爬虫教程都是教一些基础或者是直接找一些案例讲解,已经入门但未熟练的人难以找到适合的课程及练习网站;只教人爬不教原理,以至于部分人学完还是知其然不知其所以然,无法灵活应用;而且很多课程掺杂了大量Python基础语法等内容充集数、知识点不连贯或者避重就轻等。 本课程以横向教学为主,介绍爬虫实际工作中用到的技术、
2024-06-11阅读数:26
# coding=utf-8 from selenium import webdriver if __name__ == '__main__': url = 'http://www.example.com' client = webdriver.Chrome() client.get(url) html = client.page_source print(html) client.quit()
2024-06-11阅读数:29
# coding=utf-8 import json if __name__ == '__main__': json_str = '{"website":"Spiderbuf", "url":"http://www.spiderbuf.cn","description":"Python爬虫练习网站"}' json_obj = json.loads(json_str) print(json_obj['website'])
2024-06-11阅读数:22
# coding=utf-8 import requests # 请求远程图片的函数,参数url为图片的完整链接,函数返回请求回来的二进制内容 def get_content(url): # 准备好User-Agent到变量myheaders myheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36'} response = requests
2024-06-11阅读数:18
# coding=utf-8 # 覆盖写入 def save_to_file(file_name, content): with open(file_name, 'w', encoding='utf-8') as f: f.write(content) if __name__ == '__main__': save_to_file('./test.txt', '这是要写入的内容') # 循环写入 with open('./test.txt', 'a', encoding='utf-8') as f: for i in range(0,10): f.write(str
2024-06-11阅读数:17
# coding=utf-8 import requests def post_payload(url, payload): myheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36'} response = requests.post(url, headers=myheaders, data=payload) status_code = response.s
2024-06-11阅读数:17
# coding=utf-8 import requests # 请求网页的函数,参数url为网页的完整链接,函数返回请求回来的HTML代码 def get_html(url): # 准备好User-Agent到变量myheaders myheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36'} response = requests.get(
2024-06-10阅读数:17
# coding=utf-8 import requests html = requests.get('http://www.spiderbuf.cn/list').text print(html) # 在Windows环境下,Python爬取网页出现乱码通过是因为Windows环境默认编码是GBK而大部分网页编码是UTF-8 # 此时可以利用requests库的content方法,它会自动根据网页编码进行转换 # requests避免乱码的爬虫代码修改如下: import requests html_bytes = requests.get('http://www.spiderbuf.c
2024-06-10阅读数:42
1. 这个网站是做什么的? 本网站是专门为学习Python爬虫及反爬知识而开发的实战靶场,在这里你可以自由练习爬虫技术,同时会提供由浅入深的Python爬虫实战环境及相应教程。 2. 哪些人需要练习爬虫技术? 爬虫工程师、数据分析师、安全工程师、自动化测试、自动化运维、RPA工程师等群体都应该熟练掌握Python爬虫技术。 3. 什么是爬虫与反爬虫? 爬虫是指以技术手段批量获取网站信息的技术实现。 反爬虫是指以技术手段阻止别人批量获取网站信息的技术实现。
  • 共1页
  • 1