Python爬虫Scrapy入门案例
2024.01.17 17:55浏览量:2简介:通过一个简单的入门案例,带您了解如何使用Scrapy框架进行网页抓取。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
在上一篇文章中,我们介绍了Scrapy的基本概念和安装方法。接下来,我们将通过一个简单的入门案例来展示如何使用Scrapy进行网页抓取。
案例目标:
本案例的目标是抓取http://quotes.toscrape.com/的引语页面,并提取其中的引语。
步骤一:创建Scrapy项目
首先,我们需要创建一个新的Scrapy项目。打开终端或命令提示符,进入你想要创建项目的目录,然后运行以下命令:
scrapy startproject quotescraper
这将在当前目录下创建一个名为quotescraper
的新项目。
步骤二:创建Spider
在Scrapy项目中,Spider是用于抓取网页的类。我们可以在quotescraper/spiders
目录下创建一个新的Spider。在命令提示符中运行以下命令:
cd quotescraper/spiders
touch quotescrape_spider.py
然后,打开quotescrape_spider.py
文件,并添加以下代码:
import scrapy
from scrapy.selector import Selector
from scrapy.http import Request
class QuotescrapeSpider(scrapy.Spider):
name = 'quotescrape'
start_urls = ['http://quotes.toscrape.com/']
def parse(self, response):
quotes = Selector(response).css('div.quote')
for quote in quotes:
quote_text = quote.css('span.text::text').get()
yield {
'quote': quote_text,
}
这个Spider将从http://quotes.toscrape.com/
开始抓取,并提取每个引语的内容。注意,我们使用了CSS选择器来定位和提取引语。
步骤三:运行Spider
现在,我们可以运行Spider来抓取网页了。回到Scrapy项目的根目录,然后在命令提示符中运行以下命令:
scrapy crawl quotescrape -o quotes.csv -t csv
这将会执行quotescrape
这个Spider,并将结果保存到一个名为quotes.csv
的CSV文件中。你可以使用Excel或其他表格处理软件打开这个文件查看抓取到的引语。
这就是使用Scrapy进行网页抓取的基本流程。通过这个入门案例,你应该对如何使用Scrapy进行网页抓取有了基本的了解。你可以根据自己的需求修改Spider代码来抓取不同的网页和提取不同的数据。同时,Scrapy还提供了许多其他功能和工具,如设置请求头、处理动态网页等,你可以查阅Scrapy的官方文档来了解更多信息。

发表评论
登录后可评论,请前往 登录 或 注册