基于 whisper large-v2 / large-v3 模型, 3500小时数据微调, 直出中文字幕
仅供个人AI学习使用, 请勿用于商业用途 ---
基本用法将需要翻译的文件或目录, 拖动到对应的bat上运行
希望使用CPU进行翻译时, 就拖动到 "运行(CPU).bat" 上
希望使用显卡 (仅限N卡, 至少GTX 9xx) 进行翻译时, 如果显存大于或等于6G, 就拖动到 "运行(GPU).bat" 上
如果显存只有4G, 就拖动到 "运行(GPU,低显存模式).bat" 上
建议先更新显卡驱动到最新版本
上面这几个bat文件, 默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc, 如果已经存在lrc则会跳过
如果需要翻译视频, 可以使用对应的翻译视频的bat, 这些bat默认会处理 mp4/mkv 文件, 并生成相应的srt, 如果已经存在srt则会跳过
(如果需要翻译别的扩展名的文件, 可以用记事本之类的工具编辑对应的bat文件, 把原来的扩展名列表改掉就行, 大部分音频视频格式都支持, 具体可以参考压缩包内的使用说明)
---
调整生成参数(一般来说不需要调整这个, 乱调的话可能会导致生成出来的字幕质量变差)
如果遇到了说话声音很小导致漏翻的问题, 或者遇到了轴不太对幻听的问题, 可以尝试调整一下
编辑文件 generation_config.json5 可以调整生成字幕的参数
这个链接里的函数入参都可以调整:
https://github.com/SYSTRAN/faster-whisper/blob/bced5f04c09967b91ced5d2d605e4c9853b2479e/faster_whisper/transcribe.py#L206---
(直接使用打包好的程序的话不需要看这一段)如果你希望直接使用模型(自己写脚本或者用别的前端)的话, 记得设置好参数:
task='translate', language='ja', vad_filter=True, condition_on_previous_text=True
注意这里task是
translate,不是默认的transcribe,选错了的话文本质量会下降
---
有想交流AI翻译的可以来这里 https://t.me/withourai群主提供了一个网页版,可以在线 转录/翻译 音频
https://asr.withour.ai/ 需要直出中文时, 上传完文件后, 先选择语言为Japanese, 然后在高级设置中选择 whisper-v2-large-zh(中文直出) 模型即可
---
下载地址此帖售价 0 SP币,已有 2173 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!
---
模型更新日志( loss / cer / wer 都是越低越好 )
whisper-large-v2-translate-zh-v0.1-lt-ct2 基于 large-v2, 3500小时数据训练, bf16
- Loss: 1.2581
- Cer: 0.5632
- Wer: 1.0009
whisper-large-v3-translate-zh-v0.1-lt-ct2 基于 large-v3, 3500小时数据训练, fp16
- Loss: 1.2891
- Cer: 0.6140
- Wer: 1.0549
---
推理脚本更新日志v0.7
新增输出字幕到其他目录的功能, 具体用法请查看 "使用说明.txt" , 不需要这个功能的话可以不升级
v0.6
调整了一下生成参数, 稍微缓解了一点时间轴向前偏移的问题
v0.5
修复一个程序路径里不能带空格的bug, 如果目前能运行的话可以不升级
v0.4
修复一个异常分支的bug, 不影响使用, 低版本可以不升级
v0.3
修复解析输入参数的小bug, 允许同时输出多种字幕格式
v0.2
支持翻译视频
---
TODO(只是记一下感觉可以做的, 不一定真的做, 懒癌发作中)
[ √ ] 初版 large-v3 fp16 微调模型
[ √ ] 基于 large-v2 bf16 训练
[ ] 优化时间轴精度
[ ] 基于 large-v3 bf16 训练
[ ] 扩充直出中文的数据集
[ ] 新增转录日文的数据集