「 整合包+模型 」
软件基于OpenAI宣布开源的多语言语音识别系统Whisper,市面上应该没有第二个比它更准确的多语言语音识别系统了
我今天发布的这个软件就是基于它进行优化后的FastWhisper项目的GUI版本FasterWhisperGUI,本软件还支持基于Demucs的人声提取(你应该也找不出第二个比它好的人声提取项目了)以及基于whisperX的字幕处理功能
#您还可以:
#软件功能:
1.加载本地模型和在线下载模型以及一些小调整,如果你是英伟达显卡,处理设备记得选择cuda以加快速度,此外,国内下载模型速度很慢,推荐加载本地模型,文章末尾我会提供链接
2.支持调整VAD参数,这个功能可以筛选出没有声音的片段,减小工作量,还是很重要的
3.支持FastWhiper模型的详细参数调整,这个功能很有用,有的时候提取结果不理想,通过调整这个就能改善
4.支持Demucs人声提取,先提取人声,之后将提取出来的音频来进行转换为文本,不仅结果更加精准,效率也更高
5.批量提取音频中的文本,这个没什么好说的,添加文件点转换就行
6.基于whisperX的后字幕处理功能,处理完之后一定要记得导出
7.模型参数说明:
8.转写参数说明
转写执行效果
一个元组,包含:
的静音时间戳拆分(如果有的话),以防止过度切割。否则,它们将在 max_speech_duration_s
之前强制拆分。
,$1024$,$1536$ 样本。其他值可能会影响模型性能!
因为时间比较紧,只能这么简短介绍了
#总结:当你面对这么多模型无法选择的时候,我只能说效果最好的是large-v3 model float32,追求效率的可以选择medium,想体验一下的选择small
所以写的比较简单,目的是让更多人知道FasterWhisperGUI,不要再被国内的各种付费语音转文字网站忽悠了,说不定他们用的就是这个软件呢,或者效果还没这个好,哈哈注:目标语言设置为想要的语言就能自动翻译
登录可见下载资源信息, 现在去登录
共 0 条评论