频道导航

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

2019-01-03 Python 前端之家

前端之家收集整理的这篇文章主要介绍了bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

爬虫介绍

学习Python爬虫过程中，一般使用的库主要是：requests 和BeautifulSoup

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

。其中 requests用于将链接转化成html语言，而BeautifulSoup则用于查找需要的内容。具体爬虫原理，请参考文章：Python实战 | 只需 “4步” 入门网络爬虫（有福利哦）。这两个库是爬虫的主要武器，今天主要分析一下第二个利器BeautifulSoup.

BeautifulSoup介绍

Beautiful Soup最主要的功能是使用网页的树形结构和属性等特性来解析网页内容，安装方法如下：

进群：125240963 即可获取数十套·PDF哦！

`python`

pip install beautifulsoup4

在使用bs4解析网页的方法中，一般使用的是通过节点的属性或者过滤器findall()和find()方法。这两个方法都比较繁琐，不够灵活。今天主要是通过采用bs4中的选择器来进行页面解析。也就是通过网页中的CSS进行选择想要的内容，具体语法是 soup.select()方法。该语法的关键点在于：对于所需内容的精准定位，也就是通过括号（）内的语句来实现。

什么是css

CSS（Cascading Style Sheets)层叠样式表是一种用来表现HTML或XML等文件样式的计算机语言. 在使用CSS 时，标签名不加任何修饰，类名（class="className"引号内即为类名）前加点，id名（id="idName"引号前即为id名）前加 #。在爬虫中，我们也可以利用类似的方法来筛选元素，在python中的方法是 soup.select()，返回类型是 list，主要通过以下方法进行查找.

利用Chrome浏览器的检查功能查看网站的css样式。打开科技网页，鼠标放在网页上，右键，选择检查即可看到网页右边多了一个代码部分，具体如下图。

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

通过标签名查找

标签的话，可以直接寻找。直接在select方法中填写标签名字即可，比如a标签。select方法会返回所有a标签的内容。

使用 Chrom浏览器查看命名为a的标签，然后通过python的select方法选择其对应的内容具体如下：

tag = soup.select('a')

print("===============================")

print("通过标签查询信息：")

print(tag)

print("===============================")

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

通过类名查找

对于html内的内容，可以通过class来进行定位.一般形式为：.类名。

使用 Chrom浏览器查看命名为content的类名，然后通过python的select方法选择其对应的内容。

class_name = soup.select('.content')

print("===============================")

print("通过类名查询信息：")

print(class_name)

print("===============================")

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

通过id名查找

id在一个html中是唯一的，因此可以通过id来找寻唯一的内容.在select方法中，具有语法是“#id名字”. 使用 Chrom查看命名为wrapper的id，然后通过python的select方法选择其对应的内容。

css样式中的ID

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

代码以及结果如下

id_wrapper = soup.select('#wrapper')

print("===============================")

print("通过ID查询信息：")

print(id_wrapper)

print("===============================")

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

组合查找

组合查找是通过css中的标签名与类名、id名进行的组合。需要注意：空格隔空。

打开科技网站的图片标题信息，具体的css样式如下图所示。节点section的子几点h4里面有个a节点包括了title信息。

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

使用组合方法查找title信息，代码如下如：

#第二种方法：

titles2 = soup.select('section.content > h4 > a')

print('titles is :'.format(titles2))

结果如下：

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。具体如下

`python`

'''

print soup.select("head > title")

#[The Dormouse's story]

print soup.select('a[href="http://example.com/elsie"]')

#[]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select('p a[href="http://example.com/elsie"]')

#[]

介绍一个最简单的方法

以上的方法可能比较繁琐，因为需要记住id或者class名字等内容，但是Google浏览器给我们提供了一个非常方便的功能：copy slector，直接可以复制css样式。具体路径是：鼠标放在网页上右键->检查->elements->右键选择copy 找到copy selector

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

实战练习：打开knewone网站，发现很多科技产品，如下图

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

鼠标放在任何一个商品信息的图片上，然后右键，找到css样式，然后使用bs4中的select方法提取图片信息（把copy到的css样式直接复制到select的方法中即可），具体代码如下：

`python`

'''

使用copy获取图片

'''

#直接使用cope seletor

#wrapper > ul > li:nth-child(21) > article > header > a > img

imgs = soup.select('#wrapper > ul > li > article > header > a > img')

效果如下，可以看到select方法返回的是一个列表

bs4是非常牛逼的爬虫库！深度解析爬虫利器，轻松获得网站信息！

任何一个静态网页都可以使用上面的爬取利器爬取下来。是不是很好用，赶快试一下吧。

原文链接：https://www.f2er.com/python/58986.html

上一篇：利用Python来打造一款颜值检测打分下一篇：差点被辅导员暴揍！就因为我给他写

猜你在找的Python相关文章

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...

作者：努力的小雨时间：2024-09-28

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...

作者：努力的小雨时间：2024-09-28

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...

作者：努力的小雨时间：2024-09-28

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...

作者：努力的小雨时间：2024-09-28

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...

作者：努力的小雨时间：2024-09-28

使用Python的turtle模块绘制美丽的樱花树

通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...

作者：努力的小雨时间：2024-09-28

利用大型语言模型轻松打造浪漫时刻

在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...

作者：努力的小雨时间：2024-09-28

成为一个合格程序员所必备的三种常见LeetCode排序算法

排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...

作者：努力的小雨时间：2024-09-28

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...

作者：努力的小雨时间：2024-09-28

AI实用指南：5分钟搭建你自己的LLM聊天应用

本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...

作者：努力的小雨时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章