"采用先进的机器学习技术,OpenAI的耳语体验让用户只需轻轻一按,就能轻松掌握游戏中各种音效。从此,不再受制于他人声音的影响,让游戏更加真实有趣!"
速记员这个职业大家都很熟悉。他们能在各种场合高效快速地将发言翻译成会议纪要。如果把速记员变成软件,其核心功能是语音识别+转录。这类需求使用场景非常广泛,比如在线视频AI字幕、在线会议/在线课堂的速记、生肉漫画剧/电影/歌曲字幕的制作翻译、total recall等等。
速记的本质在于速度,速度是最重要的。但在很多场景下,无论是人力还是软件都无法达到超快的转录速度和准确度,满足专业用户高效转录需求的工具往往需要付费。比如某品牌的语音转录想象套餐订阅费为79元连续包月,599元/年;另外一个需要注册企业用户,然后问客服收费标准。据说标准版收费199元/年/用户,高级版收费299元/年/用户。
对于企业/专业用户来说,付费订阅软件一定是最好的选择。他们速度快,不需要高性能硬件成本(GPU),准确率高,支持手动精细校准,愿意花钱甚至得到一对一的专属客服支持。但是,如果他们只是偶尔使用,性价比并不是很高。
此外,这些订阅软件的AI服务通常需要用户将原始视频或音频文件上传到服务器并一直连接互联网,通过厂商的专业设备在云端运行。如果视频或音频文件包含个人隐私/商业等内容,显然是不适合的。
关于耳语
有没有一款完全免费开源,不需要联网,完全依靠本地硬件计算能力运行语音识别和转录,而且准确率不低的语音转录软件?或许喜欢关注AI领域的朋友已经有了答案,是OpenAI团队开发的Whisper。从官网介绍文章的日期不难看出,Whisper早在2022年9月就已经推出,但它仍然是当今最好的免费语音转录工具。
之所以最好用,有三个原因。首先,它支持广泛的语言(99种)。第二,速度极快。第三,识别准确率高,只需要高性能显卡就能做到。这几点我会在以后的体验中给大家详细分析。
首先给大家简单科普一下悄悄话,这是一个基于Transformer引擎的多模态语音识别模型。已经通过68万小时的语音数据训练,支持99种语言(包括中文)。它还支持语音活动检测(VAD)、声纹识别和说话人日记(speaker diary)。即检测一个多人对话场景中不同角色的说话时间)、语音翻译(翻译成英语)、语音对齐等能力,其英语识别准确率非常强。
上面提到的Transformer引擎恰好是NVIDIA在RTX 40系列显卡上推出了一个新的AI计算硬件功能。具体来说,RTX 40系列显卡增加了对FP8低精度浮点数的支持。基于Transformer引擎,与AI训练常用的FP16半精度浮点数相比,动态范围相当,在相同加速平台上的峰值性能明显优于后者。而FP8位数少,有利于减少空之间的占用,提高网络利用效率,让模型有更多的参数,从而使计算更快。
有趣的是,OpenAI迄今为止推出的大型号包括众所周知的GPT、黑脸田鸡。今天提到的,戴尔,Whisper,都是基于Transformer模型开发的。这些模型具有庞大的参数,并利用了变压器模型的可扩展性特征,可以不断叠加模型的参数和神经网络的数量,获得更加复杂和强大的AI能力。
此外,OpenAI团队还注意到了Transformer模型的自我注意机制,这使得它能够理解序列中任意两个单词之间的关系,并忽略距离,从而提高了输出的质量和一致性。自我关注也可以扩展为多头关注,让模型将数据信息切割提炼为矩阵(头),然后分别计算每个矩阵(头)的自我关注,最后合并输出。
在这两种机制下,变压器模型捕捉的信息类型更加全面,学习能力和表达能力更加突出。正是由于OpenAI以变形金刚模型为产品开发平台的策略,以及RTX 40系列显卡对FP8变形金刚引擎的支持,使得RTX 40显卡成为现阶段最适合普通消费者体验Whisper的硬件。
这就不得不提这次体验中用到的两个重要硬件。第一个是i9-14900K处理器,是最新一代消费市场的旗舰定位CPU。采用24核32线程的核心规格,最高睿频可达6GHz,不仅性能强劲,而且不会影响显卡性能。
主角是这款Galaxy GeForce RTX 4070 Ti超星曜OC显卡,基于AD103的核心,包含8448个CUDA核心,内存位宽提升至256bit,拥有16GB GDDR6X超大内存。
它搭载的第四代Tensor Cores core是专门为AI打造的。在全新FP8引擎的支持下,拥有高达1.32 petaflops的张量处理性能,可实现混合精度计算,动态调整计算能力。万亿级参数生成AI模型训练速度提升4倍,性能可达FP16的6倍,推理性能提升30倍,非常适合体验Whisper的性能。
外观方面,Galaxy GeForce RTX 4070 Ti超星Obsolete OC显卡也是设计感十足,纯白卡身装甲,自带亚克力“水晶”外壳,三个支持RGB光晕效果的风扇,独家定制的显卡支架,超值。是白色海景房的绝配。
好吧,既然是用来运行AI的,显卡驱动就得选择Studio驱动,不然跑出来的速度很可能不理想。目前英伟达官网提供的最新工作室驱动版本为555.99。
部署耳语
首先,Whisper是模型而不是软件。它是基于Python编程语言开发的。如果直接在GitHub上下载原始部署,需要通过命令行工具运行。好在现在有很多支持Whisper的GUI软件,其中Buzz和Whisper Desktop是比较好用的。
选择这两款GUI软件的原因也很简单。第一,两个软件都是免费的,体积都很小。最新版本的Buzz安装包只有197MB,完全安装后在空之间占用约1.21GB,而Whisper Desktop甚至可以单个文件和324kb的配置文件运行。
版本0.8.4 chidiwilliams/buzz GitHub
第二是两款软件的界面非常简单,上手简单容易。首先来看 Buzz,它主要是通过 CPU 来跑 Whisper,因此兼容性更强,而且支持 Windows、Linux 和 MacOS 系统平台,非常全面。Windows 和 MacOS 用户都可以通过 GitHub 进行下载,Mac App Store 里的版本要价 9.99 美元,不是专业用户完全不推荐。第二是两个软件的界面都非常简单易用。首先我们来看一下Buzz。主要通过CPU运行Whisper,所以兼容性更强,支持Windows、Linux、MacOS系统平台,非常全面。Windows和MacOS用户可以通过GitHub下载,Mac App Store中的版本售价9.99美元,专业用户不完全推荐。
点击“+”选择一个文件,会弹出上面的菜单窗口。你需要依次选择模型类型、模型大小、处理方式、识别语言,然后在底部的导出选项中选择字幕文件类型。点击右下角的“运行”按钮运行。在识别过程中,Buzz将给出当前的识别进度百分比,直到转录完成。当识别过程完成时,选择列表中的文件,单击“+”旁边的双箭头图标,将弹出识别结果预览窗口,其中记录了每个句子的开始时间和转录结果。再次点击右下角的下载按钮,选择要下载到电脑的导出文件类型。然后是Whisper桌面的界面和操作。打开后,我们需要先选择型号。Whisper Desktop不需要指定模型存储目录,只需要手动选择模型地址即可。
注意,Whisper Desktop的模型文件不是。pt后缀,但是。bin后缀,并将单词ggml-model添加到文件名中。显然,这是一个转换后的模型文件。
其实这个软件就是
ggml版的 Whisper。ggml[div]是机器学习的张量库,使用的模型文件是bin。第一次,我们来看看中文识别的效果。我们下载了当年锤子科技在鸟巢举行的新品发布会上老罗演示TNT功能的视频片段,然后转换成5分30秒的MP3音频文件,没有观众的声音。这个中文声音夹杂着中文、英文和数字,很考验Whisper的综合实力。在抄录排版上,Buzz和Whisper Desktop在不选择时间戳文本类型的TXT文件格式的情况下,势均力敌,基本可以根据一段完整的发言断行断句。但从识别结果的字数来看,两者其实并不相同。Buzz有910个音译单词,而Whisper Desktop有933个音译单词。识别准确率方面,Buzz识别27个错字/词,准确率97%,Whisper Desktop识别9个错字/词,准确率99%。为了不受偶然性的影响,我们连续测试了三次,基本都是这个比例。
从错误的类型来说,即使我只截掉了识别错误的那句话,不考虑上下文,大家也一眼就能看出错误在哪里,基本上是汉英混合/纯汉语发音识别错误。
另外,Buzz输出一些英文也会识别错误,而Whisper Desktop的英文和数字是完全没有错误的。至于为什么Whisper Desktop的识别结果是单词比较多,主要是因为当语音中有重复的单词时,Buzz只有一次转录相同单词的机会,而且Whisper Desktop的一些地方会有所润色,比如在最后加一句谢谢观看,相当贴心。
态度-布兰妮·李·小暖-5sing音乐(kugou.com)
第二轮对比,我们选择了一个阅读速度适中,吐字清晰的BGM舒缓英语小故事,音频时长1分31秒,模型选择了medium。
这次的转写速度差距也非常明显,Buzz 转写耗时 26 秒,而 Whisper Desktop 仅用时 3.8 秒便完成转写。这次转录的速度差异也很明显。Buzz转录需要26秒,而Whisper Desktop完成转录只需要3.8秒。
在抄录和排版方面,Whisper Desktop比Buzz略胜一筹,因为在选择时间戳文本方面存在Bug。但从识别准确率来说,两者完全打成平手,因为都是100%。毕竟Whisper的英语识别能力很强。
转写排版和前面的英文差不多,只是两者在一些语句的断句长度上有所不同。而准确性上,两者的很多错误都一样,识别准确率都是 96%。但是 Buzz 有些地方错成了假名,而 Whisper Desktop 相同位置则错成了英文,比如歌词原句为“燃やせ胸の火を”,中文大致意思是“胸中之火熊熊燃烧”。Buzz 的转写结果为“燃やせ胸のヒール”,中文变成了“燃烧胸前的高跟鞋”,Whisper Desktop 的转写结果为“燃やす胸の hero”,中文变成了“燃烧胸前的英雄”。错的结构基本都是这种,懂日语的小伙伴可以在评论区解释一下。音译和排版与之前的英语类似,只是在部分句子的断句长度上有所不同。从准确率来说,很多错误都是一样的,识别准确率96%。然而,Buzz在一些地方被错误地假设为假名,而Whisper Desktop的相同位置被错误地翻译成英文。比如歌词的原句是“燃烧的胸膛,燃烧的火焰”,中文大致意思是“胸中之火在燃烧”。Buzz的音译结果是“燃胸”,中文变成“胸前燃高跟鞋”,Whisper桌面音译结果是“燃胸”,中文变成“燃胸”。错误的结构基本就是这个,懂日语的朋友可以在评论区解释一下。
最后选了一个英文说唱视频,比较特别。首先,虽然是作者写的,但语音是艾配音的,有很浓的“花果山口音”。其次,语速很快,每句话都有大量的英语单词,发音也不是很清楚。属于略带“鬼魅”的作品。我们还将其转换为MP3格式,并采用了中等模式来查看这个音频耳语。
然而出乎意料的是,Whisper Desktop 仅用时 2.6 秒就完成了转写,这也太快了!Buzz 则花费了 1 分 03 秒完成。然而出乎意料的是,Whisper Desktop只用了2.6秒就完成了转录,太快了!Buzz用了1分03秒完成。
但是,这个转录的结果真的很可笑。Buzz似乎已经成功识别了整首歌的歌词,而Whisper Desktop则扑到街上,一个字也没听到。现在是高低判断。
别急,仔细看看Buzz的文档,我发现它的文案很多地方都像是“脑补”。和原视频相比,只能是一半对一半错,很多关键词中几个错别字的意思完全不对。显然,Whisper在AI配音+口音+BGM的场景下显得力不从心,所以你不能指望用它来转录口语、方言、鬼视频。
经过以上三组测试的比较,我们可以得出以下结论:
相比CPU,RTX 40系列显卡的AI性能绝对优于基于Transformer engine的多模态大型机型Whisper。
Galaxy GeForce RTX 4070 Ti超星曜OC显卡即使在超大最大音量模式下,也能把5分钟内的音频文件传输时间压缩到60秒以内,16GB大内存轻松控制大模式的负载。
Whisper对中文的识别准确率目前还不是很好,比日语和英语都难。日语和东亚语言的识别准确率明显比英语差。但从整个文本中错误数量的比例来看,Whisper仍然达到了90%以上的准确率。与收费软件相比,识别速度不一定优越,但比免费、离线、低门槛要好。整体性能在自由转录工具中表现突出。
因为口音重或者变声AI配音或者变声鬼畜转视频,不适合用耳语进行转录。
此外,还有两点需要特别注意。一个是对比i9-14900K,主要目的是给你一个速度识别的参考,并不是说RTX 40显卡的AI性能就一定比intel CPU好;第二,在你使用Whisper识别转录之前,最好通过三方软件将音视频中的人声和BGM分开,识别效果会更好。
摘要
在Whisper配合两个GUI软件的体验过程中,除了部署阶段涉及到大量外网模型资源的下载,操作体验没有任何问题,非常人性化。
对于有非商用、非海量语音识别+转写场景的用户,Whisper足以满足日常需求,而Galaxy GeForce RTX 4070 Ti超星曜OC显卡所拥有的Tensor Core、CUDA和16GB大内存,可以轻松应对Lager model赋予的AI计算负载压力,为用户带来显著的效率提升。
也许很多AI领域离我们的生活还很遥远,但不可否认的是,利用好AI一定会让我们的生活变得更美好。
最后,由于本文中的部分链接对网络环境要求较高,所以下面是本次测试使用的模型资源:
测试资源,提取代码l2fz