打开Python爬虫实战练习页面lxml库进阶语法及解析练习_S03_Spiderbuf,看到页面上的内容比较简单,比之前的两个练习多了一些样式。 在页面上右键 -> 显示网页源代码,翻到数据内容的HTML源码,发现跟之前的练习对比就多了一些样式的控制跟a标签的包裹。直接使用Python编写爬虫代码运行能够很顺利地把网页爬取下来,说明这次的练习重点在内容的解析上。 同样的,我们还是使用lxml这个python库,构造xpath表达式对网页内容进行解析。这里先教大家一个利用浏览器快速获取到指定网页元素的xpath表达式的方法: 打开浏览器开发者工具(F12),点击左上角的光标图标,然后把鼠...
打开Python爬虫实战练习页面分页参数分析及翻页爬取_S04_Spiderbuf,看到页面上的内容比较简单,右下角有几个分页导航。 点击一下分页试试翻页,留意一下浏览器地址栏的变化,就会发现就是在原有的URL地址后面加上了pageno这个参数。连续点击不同的页面都一样,而且这个参数的值与页码一致。 这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。 在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这...
打开Python爬虫实战练习页面网页图片的爬取及本地保存_S05_Spiderbuf,看到页面上就只有几张图片。 这一个练习主要是让大家熟悉一下如何找到网页上图片的链接,并把网页的图片下载下来写到本地图片文件。 在页面上右键 -> 点击显示网页源代码,发现HTML源码里面是没有图片的,这个是正常的现象。网页本身就是一堆字符串,经过浏览器的渲染才变成了我们看到的样子,这一堆字符串就是告诉浏览器如何去渲染这个页面的。 在HTML里面,图片是通过img标签指向并加载的,链接是由src属性指定的。有些页面也会通过CSS样式或者JavaScript的方式指定图片的加载,所以当我们在HTMl源码里面...
打开Python爬虫实战练习页面带iframe的页面源码分析及数据爬取_S06_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键,留意一下,“显示网页源代码”正面多了一个“查看框架源代码”,这个菜单不是随机出现的,而是由你点击右键时的光标位置决定的。如果右键时光标位于框架内就会出现这个菜单。如果右键时没有这个菜单也没关系,我们点击显示网页源代码,发现数据并没有出现在HTML源码里面。 检查一下页面的HTML代码,对照页面上的内容,找到“设备信息”这里,页面上的内容是这几个字下面就是数据,但在HTML源码里面没有找到数据,紧跟着这几个字的内容出现了一个iframe标签。 ifra...
打开Python爬虫实战练习页面ajax动态加载数据的爬取_S07_Spiderbuf,看到页面上的数据已经很熟悉了。 在页面上右键 -> 显示网页源代码,发现数据并没有出现在HTML源码里面,但在HTML源码的最下方看到了一些JavaScript代码。 fetch("/playground/iplist").then(function (response) { return response.json(); }).then(function (data) { var dataContent = document.getElementById('mytable'); ...