从豆瓣电影排行榜Top250爬取数据并存储到Excel文件
2024.01.18 05:15浏览量:11简介:本文将介绍如何使用Python爬取豆瓣电影排行榜Top250的数据,并将这些数据存储到Excel文件中。我们将使用requests库发送HTTP请求,使用BeautifulSoup库解析HTML,并使用openpyxl库将数据写入Excel文件。
首先,我们需要安装必要的Python库。在命令行中输入以下命令来安装requests、beautifulsoup4和openpyxl库:
pip install requests beautifulsoup4 openpyxl
接下来,我们可以编写Python脚本来爬取豆瓣电影排行榜Top250的数据,并将这些数据存储到Excel文件中。以下是示例代码:
import requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbook# 定义要爬取的URLurl = 'https://movie.douban.com/top250'# 发送HTTP请求并获取网页内容response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 创建Excel工作簿和工作表workbook = Workbook()worksheet = workbook.active# 定义列标题headers = ['排名', '电影名', '评分', '上映时间', '导演', '主演']worksheet.append(headers)# 查找并提取电影数据,存储到列表中movies = []for item in soup.find_all('div', class_='item'):rank = item.find('em').text.strip()title = item.find('a').text.strip()rating = item.find('span', class_='rating_num').text.strip()release_time = item.find('span', class_='pubdate').text.strip()[:-5] # 去除最后五个字符(包括空格)director = item.find('span', class_='director').text.strip()stars = ', '.join([actor.text.strip() for actor in item.find_all('span', class_='star')])movies.append([rank, title, rating, release_time, director, stars])# 将电影数据写入Excel工作表中for row in movies:worksheet.append(row)# 保存Excel文件workbook.save('douban_top250.xlsx')
在上面的代码中,我们首先定义了要爬取的URL,然后使用requests库发送HTTP请求并获取网页内容。接下来,我们使用BeautifulSoup库解析网页内容,查找并提取电影数据。我们使用openpyxl库创建了一个Excel工作簿和工作表,并将电影数据写入工作表中。最后,我们保存Excel文件。
请注意,在爬取网页数据时,需要遵守网站的使用条款和法律法规。另外,由于网站结构可能会发生变化,因此在实际使用时需要检查代码是否仍然有效。

发表评论
登录后可评论,请前往 登录 或 注册