从豆瓣电影排行榜Top250爬取数据并存储到Excel文件

作者：问答酱2024.01.18 05:15浏览量：11

简介：本文将介绍如何使用Python爬取豆瓣电影排行榜Top250的数据，并将这些数据存储到Excel文件中。我们将使用requests库发送HTTP请求，使用BeautifulSoup库解析HTML，并使用openpyxl库将数据写入Excel文件。

首先，我们需要安装必要的Python库。在命令行中输入以下命令来安装requests、beautifulsoup4和openpyxl库：

pip install requests beautifulsoup4 openpyxl

接下来，我们可以编写Python脚本来爬取豆瓣电影排行榜Top250的数据，并将这些数据存储到Excel文件中。以下是示例代码：

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# 定义要爬取的URL
url = 'https://movie.douban.com/top250'
# 发送HTTP请求并获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 创建Excel工作簿和工作表
workbook = Workbook()
worksheet = workbook.active
# 定义列标题
headers = ['排名', '电影名', '评分', '上映时间', '导演', '主演']
worksheet.append(headers)
# 查找并提取电影数据，存储到列表中
movies = []
for item in soup.find_all('div', class_='item'):
rank = item.find('em').text.strip()
title = item.find('a').text.strip()
rating = item.find('span', class_='rating_num').text.strip()
release_time = item.find('span', class_='pubdate').text.strip()[:-5]  # 去除最后五个字符（包括空格）
director = item.find('span', class_='director').text.strip()
stars = ', '.join([actor.text.strip() for actor in item.find_all('span', class_='star')])
movies.append([rank, title, rating, release_time, director, stars])
# 将电影数据写入Excel工作表中
for row in movies:
worksheet.append(row)
# 保存Excel文件
workbook.save('douban_top250.xlsx')

在上面的代码中，我们首先定义了要爬取的URL，然后使用requests库发送HTTP请求并获取网页内容。接下来，我们使用BeautifulSoup库解析网页内容，查找并提取电影数据。我们使用openpyxl库创建了一个Excel工作簿和工作表，并将电影数据写入工作表中。最后，我们保存Excel文件。
请注意，在爬取网页数据时，需要遵守网站的使用条款和法律法规。另外，由于网站结构可能会发生变化，因此在实际使用时需要检查代码是否仍然有效。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

从豆瓣电影排行榜Top250爬取数据并存储到Excel文件

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者