9.png

海南鸡饭

whisper微调模型, 日语音频/视频直出中文字幕, 3500小时数据集 (更新large-v2版本)

基于 whisper large-v2 / large-v3 模型, 3500小时数据微调, 直出中文字幕  

仅供个人AI学习使用, 请勿用于商业用途  

---

基本用法

将需要翻译的文件或目录, 拖动到对应的bat上运行

希望使用CPU进行翻译时, 就拖动到 "运行(CPU).bat" 上  

希望使用显卡 (仅限N卡, 至少GTX 9xx) 进行翻译时, 如果显存大于或等于6G, 就拖动到 "运行(GPU).bat" 上  
如果显存只有4G, 就拖动到 "运行(GPU,低显存模式).bat" 上  
建议先更新显卡驱动到最新版本  

上面这几个bat文件, 默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc, 如果已经存在lrc则会跳过

如果需要翻译视频, 可以使用对应的翻译视频的bat, 这些bat默认会处理 mp4/mkv 文件, 并生成相应的srt, 如果已经存在srt则会跳过
(如果需要翻译别的扩展名的文件, 可以用记事本之类的工具编辑对应的bat文件, 把原来的扩展名列表改掉就行, 大部分音频视频格式都支持, 具体可以参考压缩包内的使用说明)

---

调整生成参数

(一般来说不需要调整这个, 乱调的话可能会导致生成出来的字幕质量变差)  
如果遇到了说话声音很小导致漏翻的问题, 或者遇到了轴不太对幻听的问题, 可以尝试调整一下

编辑文件 generation_config.json5 可以调整生成字幕的参数  
这个链接里的函数入参都可以调整: https://github.com/SYSTRAN/faster-whisper/blob/bced5f04c09967b91ced5d2d605e4c9853b2479e/faster_whisper/transcribe.py#L206

---

(直接使用打包好的程序的话不需要看这一段)

如果你希望直接使用模型(自己写脚本或者用别的前端)的话, 记得设置好参数:  
task='translate', language='ja', vad_filter=True, condition_on_previous_text=True  
注意这里task是translate,不是默认的transcribe,选错了的话文本质量会下降

---

有想交流AI翻译的可以来这里
https://t.me/withourai

群主提供了一个网页版,可以在线 转录/翻译 音频 https://asr.withour.ai/
需要直出中文时, 上传完文件后, 先选择语言为Japanese, 然后在高级设置中选择 whisper-v2-large-zh(中文直出) 模型即可

---

下载地址

此帖售价 0 SP币,已有 2173 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

---

模型更新日志
( loss / cer / wer 都是越低越好 )

whisper-large-v2-translate-zh-v0.1-lt-ct2  
基于 large-v2, 3500小时数据训练, bf16  
- Loss: 1.2581  
- Cer: 0.5632  
- Wer: 1.0009  

whisper-large-v3-translate-zh-v0.1-lt-ct2  
基于 large-v3, 3500小时数据训练, fp16  
- Loss: 1.2891  
- Cer: 0.6140  
- Wer: 1.0549  

---

推理脚本更新日志

v0.7
新增输出字幕到其他目录的功能, 具体用法请查看 "使用说明.txt" , 不需要这个功能的话可以不升级
v0.6
调整了一下生成参数, 稍微缓解了一点时间轴向前偏移的问题
v0.5
修复一个程序路径里不能带空格的bug, 如果目前能运行的话可以不升级
v0.4
修复一个异常分支的bug, 不影响使用, 低版本可以不升级
v0.3
修复解析输入参数的小bug, 允许同时输出多种字幕格式
v0.2
支持翻译视频

---

TODO
(只是记一下感觉可以做的, 不一定真的做, 懒癌发作中)

[ √ ] 初版 large-v3 fp16 微调模型
[ √ ] 基于 large-v2 bf16 训练
[    ] 优化时间轴精度
[    ] 基于 large-v3 bf16 训练
[    ] 扩充直出中文的数据集
[    ] 新增转录日文的数据集

a6.gif

白色伤痕

有新的了耶

none.gif

dv1583

十分感谢大佬

none.gif

尊贵的米偷游玩家

B3F  2024-06-22 11:56
(烧鸡尸块米偷游 忠犬护卫米孝子)
我草 好东西

3.gif

夜樱

真正的好东西,感谢分享

GQnH12LaUAAhtgX.jpg:large

绅士老司机

B5F  2024-06-22 12:08
(丰乳肥臀爱好者)
用large模型 生成速度是不是比较慢?

643848.jpg

98abwt

“默认会处理目录下的所有 wav/flac/mp3 文件, 并生成相应的lrc”
意思是不支持视频,想要翻译视频的话要先提取音频为mp3是吗?

7.gif

qwerty

woc,好东西!等了好久您的模型更新了!感谢!

none.gif

glass+:


1425871.png

orangesoup

B9F  2024-06-22 12:18
(唔。。。NTR真的是太棒了。)
求一个百度网盘

9.png

海南鸡饭

回 6楼(98abwt) 的帖子

已新增视频翻译DLC

none.gif

bit

B11F  2024-06-22 12:23
(网络无限宽广)
大佬,我更想要视频直出日文字幕并翻译中文
你懂的

9.png

海南鸡饭

回 5楼(绅士老司机) 的帖子

挂着跑呗,效果跟速度往往都是成反比的

none.gif

舔阴老头

这个配合音声也太爽了吧

643848.jpg

98abwt

回 10楼(海南鸡饭) 的帖子

编辑

none.gif

忘了账号

试了一次感觉准确率已经相当高了   谢谢大佬的分享

none.gif

48c6db00

我去居然有3500h的训练量了,大佬nb

1825199.jpg

MinakamiYuki

感谢大佬分享

none.gif

1f93b4da

牛啊,简直神器

a16.gif

7d981d2f

感謝大佬

none.gif

uueu

感觉好像还没之前的好,是我的错觉吗

0.gif

QIKUBI

B21F  2024-06-22 22:49
(好好回复挣点sp,求大哥手下留情)
真正的好东西,感谢分享

5.gif

OnTheRealms

   感谢大佬

8.gif

南+路人甲

这个是生成中文字幕吗?怎么设置让他生成日中双语字幕?

9.png

海南鸡饭

回 23楼(南+路人甲) 的帖子

只生成中文字幕,没有双语功能,需要双语的话可以考虑用原版whisper+其他翻译工具

2_1202529_8c8518a35504226.gif

看头像识SP

B25F  2024-06-23 13:40
(https://files.catbox.moe/2kwbqh.mp4)
whisper-large-v3-translate-zh-v0.1-lt-ct2-v0.2\infer.exe
报毒
Trojan:Win32/Wacatac.B!ml

9.png

海南鸡饭

回 25楼(看头像识SP) 的帖子

Wacatac.B!ml 基本都是WD的误报,另外我这边的WD没有报这个,建议检查一下WD的病毒库是不是更新到最新了

附一个最新微软官方扫描结果:https://www.microsoft.com/en-us/wdsi/submission/dab90982-df9d-458d-a9b1-15d4a20422f6

实在不放心的话可以用别的whisper前端,只用模型

记得设置好 task='translate', language='ja', vad_filter=True, condition_on_previous_text=True  

5.gif

神牛

好好好,插眼

1832325.jpg

左窗南向

大佬牛啊 和500h的比较了一下,确实提升不少。
首先是连续的两句话能够区别开了,之前连续的几句话容易连在一起。如果某一段音频没有声音,现在也能区分出来,直接输出空白。
其次感觉翻译质量也好了一点儿,不知道是识别到的日文更准确了还是翻译部分更强了。
左边是3500h新模型


none.gif

dv1583

更新好快,十分感谢

none.gif

5f48db14

感谢分享