开始使用openai whisper ,初步使用
OpenAI Whisper介绍
OpenAI Whisper 是一个开源音频转文本模型。可将视频内的语音提取成文本。
本文假设你对python有一定的了解,并且能够基本的使用。
环境准备
- python 3.9+
- ffmpeg
python 3.9+ 安装方法请自行安装。
由于Whisper使用到了ffmpeg,所以需要安装ffmpeg。
在windows上安装ffmpeg
下载地址:https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-full.7z
解压后将bin目录添加到环境变量中。
验证是否安装成功:
ffmpeg -version
如果出现版本信息,则安装成功。
安装Whisper
新建一个python虚拟环境,然后安装whisper。
pip install -U openai-whisper
使用Whisper
whisper Park.mp3 --model medium
使用GPU加速
默认情况下,Whisper使用CPU进行推理。如果你的电脑有NVIDIA显卡,可以使用GPU进行加速。
安装CUDA
CUDA是NVIDIA的GPU加速库,可以大幅提升GPU的计算能力。
下载地址:https://developer.nvidia.com/cuda-downloads
安装方法请自行安装。
检测whisper使用的是GPU还是CPU:
whisper --help
列出的参数中如果有 default: cuda,则说明whisper使用的是GPU。
--device DEVICE device to use for PyTorch inference (default: cuda)
如果安装了CUDA,但是whisper使用的是CPU,则需要安装pytorch的CUDA版本。
安装pytorch的CUDA版本
打开pytorch的官网:https://pytorch.org/
找到以下内容:
复制安装命令,然后在命令行中执行。