Python爬虫：使用Scrapy框架爬取豆瓣读书和评分

作者：da吃一鲸8862024.01.17 17:56浏览量：11

简介：本文将介绍如何使用Python的Scrapy框架来爬取豆瓣读书的书籍信息和评分。我们将通过实例展示如何设置爬虫、提取数据和处理反爬虫机制。

千帆应用开发平台“智能体Pro”全新上线限时免费体验

面向慢思考场景，支持低代码配置的方式创建“智能体Pro”应用

在开始之前，请确保你已经安装了Scrapy框架。如果尚未安装，可以通过以下命令进行安装：

pip install scrapy

首先，创建一个新的Scrapy项目，并进入项目目录：

scrapy startproject DoubanBookSpider
cd DoubanBookSpider

在DoubanBookSpider目录下，我们需要创建一个新的Spider来定义爬取豆瓣读书的逻辑。在spiders目录下创建一个名为douban_book.py的文件，并添加以下代码：

import scrapy
from douban.items import DoubanItem
class DoubanBookSpider(scrapy.Spider):
name = 'douban_book'
start_urls = ['https://book.douban.com/top250']  # 豆瓣读书TOP250列表页
def parse(self, response):
# 提取书籍列表
books = response.css('div.item')
for book in books:
item = DoubanItem()
item['title'] = book.css('div.info > h1.title::text').get()  # 提取书名
item['rating'] = book.css('div.bd > div.star > span.rating_num::text').get()  # 提取评分
yield item

在上面的代码中，我们定义了一个名为DoubanBookSpider的Spider，它从豆瓣读书的TOP250列表页开始爬取。在parse方法中，我们使用CSS选择器提取书籍的标题和评分，并将它们存储在一个名为DoubanItem的Item对象中。最后，我们使用yield语句返回该Item对象。
接下来，我们需要定义一个Item对象来存储爬取到的数据。在items.py文件中添加以下代码：

import scrapy
class DoubanItem(scrapy.Item):
title = scrapy.Field()  # 书名
rating = scrapy.Field()  # 评分

现在，我们已经完成了Spider的定义和Item对象的创建。接下来，我们需要配置Scrapy以运行我们的爬虫。在settings.py文件中添加以下配置：

BOT_NAME = 'DoubanBookSpider'
SPIDER_MODULES = ['DoubanBookSpider.spiders']
NEWSPIDER_MODULE = 'DoubanBookSpider.spiders'

现在，我们可以运行我们的爬虫了。在项目根目录下运行以下命令：

scrapy crawl douban_book -o books.csv -t csv

这将启动爬虫并输出结果到一个名为books.csv的CSV文件中。你可以根据需要修改输出文件的格式和名称。
以上就是使用Scrapy框架爬取豆瓣读书和评分的完整过程。请注意，由于网络环境和反爬虫机制的变化，你可能需要根据实际情况调整代码以适应新的情况。此外，在使用爬虫时应遵守相关法律法规和网站的使用协议，尊重网站的数据和隐私。

发表评论

开发者关注产品榜

最热文章

关于作者

da吃一鲸886

928906被阅读数
10被赞数
11被收藏数

开发者热搜

Python爬虫：使用Scrapy框架爬取豆瓣读书和评分

千帆应用开发平台“智能体Pro”全新上线限时免费体验

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

da吃一鲸886

Python爬虫：使用Scrapy框架爬取豆瓣读书和评分

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

da吃一鲸886

千帆应用开发平台“智能体Pro”全新上线限时免费体验