开始使用openai whisper ,初步使用

OpenAI Whisper介绍

OpenAI Whisper 是一个开源音频转文本模型。可将视频内的语音提取成文本。

本文假设你对python有一定的了解，并且能够基本的使用。

环境准备

python 3.9+ 安装方法请自行安装。

由于Whisper使用到了ffmpeg，所以需要安装ffmpeg。

下载地址：https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-full.7z

解压后将bin目录添加到环境变量中。

验证是否安装成功：

ffmpeg -version

如果出现版本信息，则安装成功。

新建一个python虚拟环境，然后安装whisper。

pip install -U openai-whisper

whisper Park.mp3 --model medium

默认情况下，Whisper使用CPU进行推理。如果你的电脑有NVIDIA显卡，可以使用GPU进行加速。

CUDA是NVIDIA的GPU加速库，可以大幅提升GPU的计算能力。

下载地址：https://developer.nvidia.com/cuda-downloads

安装方法请自行安装。

检测whisper使用的是GPU还是CPU：

whisper --help

列出的参数中如果有 default: cuda，则说明whisper使用的是GPU。

 --device DEVICE   device to use for PyTorch inference (default: cuda)

如果安装了CUDA，但是whisper使用的是CPU，则需要安装pytorch的CUDA版本。

打开pytorch的官网：https://pytorch.org/

找到以下内容：

复制安装命令，然后在命令行中执行。