使用Python结合Selenium、Requests和BeautifulSoup爬取12306火车票信息

作者：沙与沫2024.04.01 21:55浏览量：8

简介：本文将指导你如何使用Python的Selenium、Requests和BeautifulSoup库来爬取12306火车票信息。我们将从安装所需库开始，然后逐步讲解如何设置浏览器驱动、模拟登录、查询车票以及解析数据。

一、引言

火车票作为中国人出行的重要选择，其信息的获取一直是人们关注的焦点。然而，12306网站的反爬机制非常严格，使用普通的requests方法很难直接获取到数据。因此，我们需要结合Selenium来模拟浏览器操作，以及BeautifulSoup来解析HTML页面。

二、准备工作

安装Python：确保你的计算机上安装了Python。
安装Selenium：使用pip安装selenium库。
```
pip install selenium
```
安装BeautifulSoup：使用pip安装beautifulsoup4库。
```
pip install beautifulsoup4
```
下载浏览器驱动：根据你的浏览器类型下载对应的驱动，如Chrome浏览器需要下载ChromeDriver。

三、代码实现

导入库

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time
import requests

设置浏览器驱动

# 根据你的浏览器类型设置驱动
browser = webdriver.Chrome(executable_path='你的chromedriver路径')

模拟登录

登录12306网站并填写用户名和密码，这部分由于涉及敏感信息，建议自己手动填写或使用更安全的方式（如selenium的send_keys方法）。

查询车票

模拟在12306网站上选择出发地、目的地、出发日期等查询车票。

# 填写查询信息
browser.find_element(By.ID, 'fromStationText').send_keys('北京')
browser.find_element(By.ID, 'toStationText').send_keys('上海')
browser.find_element(By.ID, 'train_date').send_keys('2023-07-01')
# 点击查询按钮
browser.find_element(By.ID, 'query_ticket').click()
# 等待页面加载
time.sleep(3)

获取页面内容

使用BeautifulSoup解析页面上的火车票信息。

# 获取页面源码
page_source = browser.page_source
# 解析页面
soup = BeautifulSoup(page_source, 'html.parser')
# 查找火车票信息，此处需要根据实际页面结构来定位
tickets = soup.select('.btn72')
# 遍历并打印火车票信息
for ticket in tickets:
    print(ticket.text)

关闭浏览器
```
browser.quit()
```

四、注意事项

12306网站的反爬机制可能不断更新，本代码可能会失效，需要根据实际情况调整。
爬取火车票信息可能违反12306的使用协议，请确保你的行为符合法律法规。
使用爬虫时，尽量降低对目标网站的请求频率，以减轻其服务器压力。

五、结语

本文介绍了如何使用Python结合Selenium、Requests和BeautifulSoup来爬取12306火车票信息。虽然12306网站的反爬机制较为严格，但通过模拟浏览器操作，我们仍然可以获取到所需的信息。请注意，在编写爬虫时，一定要遵守相关法律法规和网站的使用协议。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

使用Python结合Selenium、Requests和BeautifulSoup爬取12306火车票信息

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者