Python爬虫Scrapy入门案例

作者:Nicky2024.01.17 17:55浏览量:2

简介:通过一个简单的入门案例,带您了解如何使用Scrapy框架进行网页抓取。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

在上一篇文章中,我们介绍了Scrapy的基本概念和安装方法。接下来,我们将通过一个简单的入门案例来展示如何使用Scrapy进行网页抓取。
案例目标:
本案例的目标是抓取http://quotes.toscrape.com/的引语页面,并提取其中的引语。
步骤一:创建Scrapy项目
首先,我们需要创建一个新的Scrapy项目。打开终端或命令提示符,进入你想要创建项目的目录,然后运行以下命令:

  1. scrapy startproject quotescraper

这将在当前目录下创建一个名为quotescraper的新项目。
步骤二:创建Spider
在Scrapy项目中,Spider是用于抓取网页的类。我们可以在quotescraper/spiders目录下创建一个新的Spider。在命令提示符中运行以下命令:

  1. cd quotescraper/spiders
  2. touch quotescrape_spider.py

然后,打开quotescrape_spider.py文件,并添加以下代码:

  1. import scrapy
  2. from scrapy.selector import Selector
  3. from scrapy.http import Request
  4. class QuotescrapeSpider(scrapy.Spider):
  5. name = 'quotescrape'
  6. start_urls = ['http://quotes.toscrape.com/']
  7. def parse(self, response):
  8. quotes = Selector(response).css('div.quote')
  9. for quote in quotes:
  10. quote_text = quote.css('span.text::text').get()
  11. yield {
  12. 'quote': quote_text,
  13. }

这个Spider将从http://quotes.toscrape.com/开始抓取,并提取每个引语的内容。注意,我们使用了CSS选择器来定位和提取引语。
步骤三:运行Spider
现在,我们可以运行Spider来抓取网页了。回到Scrapy项目的根目录,然后在命令提示符中运行以下命令:

  1. scrapy crawl quotescrape -o quotes.csv -t csv

这将会执行quotescrape这个Spider,并将结果保存到一个名为quotes.csv的CSV文件中。你可以使用Excel或其他表格处理软件打开这个文件查看抓取到的引语。
这就是使用Scrapy进行网页抓取的基本流程。通过这个入门案例,你应该对如何使用Scrapy进行网页抓取有了基本的了解。你可以根据自己的需求修改Spider代码来抓取不同的网页和提取不同的数据。同时,Scrapy还提供了许多其他功能和工具,如设置请求头、处理动态网页等,你可以查阅Scrapy的官方文档来了解更多信息。

article bottom image

相关文章推荐

发表评论