2026年过半: 具身智能CEO们在聊什么?
2026-06-17
2026-06-18 0
逻辑智能 2026-06-17 18:00 广东
SE-Bridge-TTS 是一套面向低资源语言的语音合成方案,核心能力是:在真实语音数据稀缺的情况下,仍然生成稳定、自然、可克隆的多语言语音,可用于博客配音、视频翻译配音、跨语言内容本地化、数字人、语音助手和小语种内容生产。
逻辑智能邀请您体验免费配音,官网:https://luoji.cn/
开源项目 Video Translator:面向 AI 编程助手和 Agent 工作流,支持通过 Skill 方式快速接入,方便开发者在现有工具链中一键安装和使用,也可参考其实现扩展到更多国内外 AI 编程工具。
项目地址:https://github.com/InsiderX-Pro/video-translator
近一年,多语言 TTS 正在成为语音生成领域的主流方向。新的系统不断出现,目标也越来越统一:支持更多语言、更多说话人、更强的跨语言提示合成,以及 0-shot voice cloning。
但多语言覆盖并不等于低资源语言真的被解决了。对泰语、老挝语这类小语种来说,模型能“支持”某个语言,和模型能在这个语言上稳定、自然、像目标说话人一样生成语音,是两件不同的事。
SE-Bridge-TTS 的切入点正是在这里。它没有从头训练一个更大的多语言基础模型,而是基于 CosyVoice2 这样的开源底座,从数据层面重新拆解低资源 TTS:真实语音稀缺时,合成数据该如何使用?合成数据越多是否一定越好?当发音稳定性和语音表现力发生冲突时,训练流程应该如何修正?
这项工作已被 ICML 2026 接收。更关键的是,项目近期公开了 Thai / Lao 权重,并补充了 FLEURS Lao/Thai 多语言提示评测:在与 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期开放多语言 TTS 系统的对比中,SE-Bridge-TTS 在老挝语和泰语目标语言上达到与现有 SOTA 一致甚至更优的效果。
论文标题 | Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models |
项目名称 | SE-Bridge-TTS |
会议 | ICML 2026 |
关键词 | Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning |
论文链接 | https://arxiv.org/abs/2605.27383 |
项目主页 | https://insiderx-pro.github.io/SE-Bridge-TTS/ |
官方仓库 | https://github.com/InsiderX-Pro/SE-Bridge-TTS |
模型权重 | https://huggingface.co/isabeth/SE-Bridge-TTS |
开源项目地址 | https://github.com/InsiderX-Pro/video-translator |
项目企业官网 | https://luoji.cn/ |
低资源语言的 TTS 系统长期受限于真实标注语音不足。合成数据看似是最直接的扩容方案:它能提供稳定的文本-语音配对,帮助模型学会发音和读词。但论文系统性地证明,合成数据并不是简单的“越多越好”。
在泰语实验中,随着合成数据比例提高,词错误率(WER)持续下降,说明发音稳定性确实改善;但超过关键比例后,语音 token 熵、自然度 MOS、说话人相似度 MOS 都开始下降,重复率显著上升。论文将这种现象命名为 Synthetic Erosion:低熵、平坦的合成语音分布逐渐侵蚀模型从预训练骨干中继承的表现力。
围绕这一问题,论文提出“稳定性-表现力鸿沟”(Stability-Expressivity Gap),并给出两套自对齐框架:DGSA 用于有一定真实参考语音的场景,通过韵律-音色解耦自动构造偏好样本;TDSC 用于几乎没有真实语音锚点的极低资源场景,通过多温度采样、ASR 过滤和迭代偏好学习,让模型在纯合成训练下逐步自我修正。
起底智元机器人,谁在推动一个庞然大物向前
达闼科技陨落一周年:具身独角兽的消亡史

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
阅读原文