环境
- 系统:Mac OS 15.2 Beta (24C5089c)
- Python: 3.9.8 (asdf)
每个模型具体要求都在表里了,我试过前4个,对于中文识别,我的体会是,必须得medium,前3个中文识别有点差。medium足够用,虽然也会有错误的情况,但不多了。我推测large肯定会更上一层楼,然而large有点大且显存占得大就没下载。所以,medium性价比最高。
我个人是使用base,因为我的用途是重新创作,肯定是需要对文本进行后续的修改的,准确性的要求可以相对较低。
Whisper 加标点符号和简体繁体字的问题
我使用时,发现输出的文件里中文完全没有标点符号哎,这可咋整 ,找了半天程序里也没这参数啊。不断大海捞针地搜了搜,发现有篇文章写了个方法说要通过prompt,告诉程序个例子。于是通过测试,总结了一个成功的方法是这样的:运行时加这个参数 initial_prompt,它的值要写上对当前识别音频的内容总结(自己提前知道),最后还要加上句号,效果最佳。比如我要识别一段会议的录音,所以这个参数就这么写:
initial_prompt = "这是一段会议记录。
哦对了,我是在程序里调接口用,如果用命令号,就直接加 --initial_prompt "这是一段会议记录。" (应该是这么写,不对的话再调整调整格式),于是标点符号的问题解决了。标点符号问题解决了,结果有时候识别出来的内容突然有一段变成了繁体字,于是又开始一顿搜寻,最终解决方法还是要在initial_prompt里给出例子。
固定一个initial_prompt
的写法,就能解决这俩问题
- 就是要在prompt里加上这句:“以下是普通话的句子。”
- 注意,这里要全部用简体中文写
- 如果想输出繁体字,那这句话就用繁体写:“以下是普通話的句子。”
//后半句写语音的内容概括,并且一定要加上句号。如果想输出繁体字,上面内容就全用繁体字写。
initial_prompt = "**以下是普通话的句子,这是一段会议记录。**"