使用 Python 和 OpenAI 的新 Whisper API 进行语音转文本

作者：梅琳marlin2024.01.22 11:49浏览量：17

简介：介绍如何使用 Python 和 OpenAI 的新 Whisper API 将语音转换为文本。我们将展示如何安装必要的库、设置 API 密钥、发送音频文件以及处理返回的文本结果。

在 Python 中使用 OpenAI 的新 Whisper API 进行语音转文本需要几个步骤。首先，你需要安装一些必要的库，然后设置你的 API 密钥。接下来，你可以上传音频文件，并处理返回的文本结果。下面是一个简单的示例：

安装库
首先，确保你已经安装了 requests 和 soundfile 这两个库。你可以使用以下命令来安装它们：
```
pip install requests soundfile
```
设置 API 密钥
你需要从 OpenAI 网站上获取一个 API 密钥，以便能够使用 Whisper API。你可以在 OpenAI 的开发者页面上创建一个新的应用程序，并获取 API 密钥。

上传音频文件
接下来，你需要将音频文件上传到 OpenAI 的服务器。你可以使用 soundfile 库来读取音频文件，并使用 requests 库来发送 POST 请求。以下是一个示例代码：

import soundfile as sf
import requests
# 音频文件路径
audio_file_path = 'path/to/audio/file.wav'
# 读取音频文件
data, samplerate = sf.read(audio_file_path)
# 设置 API 密钥和其他参数
headers = {
'Authorization': 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json',
}
params = {
'max_duration_ms': 10000,
'max_alternatives': 3,
}
# 发送 POST 请求
response = requests.post('https://api.openai.com/v2/engines/davinci/completions', headers=headers, json={'prompt': 'audio:{}'.format(data)}, params=params)
# 处理返回结果
result = response.json()['choices'][0]['text']
print(result)

在这个示例中，我们使用 soundfile 库读取了音频文件，并将其作为 JSON 格式的字符串发送到 OpenAI 的服务器。我们还设置了 max_duration_ms 和 max_alternatives 参数来限制转换的持续时间和返回的转录结果数量。最后，我们从返回的 JSON 响应中提取了转录结果并打印出来。

处理返回的文本结果
处理返回的文本结果可以根据你的具体需求而定。你可以将其保存到文件中、显示在界面上或者进行其他操作。在上面的示例中，我们将转录结果直接打印到了控制台上。
注意点
在使用 OpenAI 的 Whisper API 时，需要注意一些关键点。首先，确保你的音频文件格式是 .wav 或 .mp3，且采样率是 16kHz 或更高。其次，由于 API 是基于请求数量的计费，因此请确保你的应用程序能够有效地管理并发请求以避免不必要的费用。最后，请注意遵守 OpenAI 的使用条款和隐私政策。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

使用 Python 和 OpenAI 的新 Whisper API 进行语音转文本

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者