这是一个视频翻译配音工具,能够将视频内容从一种语言自动翻译成指定语言的版本,并自动生成和添加该语言的字幕及配音。语音识别采用的是 faster-whisper 和 openai-whisper 的离线模型。文字翻译功能支持微软、谷歌、百度、腾讯、ch*tg*t、Azure、Gemini、DeepL、DeepLX 以及离线翻译OTT等多种平台。文字合成语音支持微软Edge TTS、OpenAI TTS-1、Elevenlabs TTS 自定义TTS服务器API,配合Clone-Voice技术可以实现原音色克隆配音。此外,还允许保留背景音乐等元素(基于uvr5)。
优化更新包括:AzureTTS配音现在一次可以批量合成200条字幕;视频末尾延长问题得到优化;字幕翻译也进行了改进。