GAIR Paper 102 | 不靠真实语音堆料:低资源 TTS 也能 SOTA | ICML 2026 | Bes...

2026-06-18 0

逻辑智能 2026-06-17 18:00 广东

SE-Bridge-TTS 是一套面向低资源语言的语音合成方案，核心能力是：在真实语音数据稀缺的情况下，仍然生成稳定、自然、可克隆的多语言语音，可用于博客配音、视频翻译配音、跨语言内容本地化、数字人、语音助手和小语种内容生产。

逻辑智能邀请您体验免费配音，官网：https://luoji.cn/

开源项目 Video Translator：面向 AI 编程助手和 Agent 工作流，支持通过 Skill 方式快速接入，方便开发者在现有工具链中一键安装和使用，也可参考其实现扩展到更多国内外 AI 编程工具。

项目地址：https://github.com/InsiderX-Pro/video-translator

近一年，多语言 TTS 正在成为语音生成领域的主流方向。新的系统不断出现，目标也越来越统一：支持更多语言、更多说话人、更强的跨语言提示合成，以及 0-shot voice cloning。

但多语言覆盖并不等于低资源语言真的被解决了。对泰语、老挝语这类小语种来说，模型能“支持”某个语言，和模型能在这个语言上稳定、自然、像目标说话人一样生成语音，是两件不同的事。

SE-Bridge-TTS 的切入点正是在这里。它没有从头训练一个更大的多语言基础模型，而是基于 CosyVoice2 这样的开源底座，从数据层面重新拆解低资源 TTS：真实语音稀缺时，合成数据该如何使用？合成数据越多是否一定越好？当发音稳定性和语音表现力发生冲突时，训练流程应该如何修正？

这项工作已被 ICML 2026 接收。更关键的是，项目近期公开了 Thai / Lao 权重，并补充了 FLEURS Lao/Thai 多语言提示评测：在与 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期开放多语言 TTS 系统的对比中，SE-Bridge-TTS 在老挝语和泰语目标语言上达到与现有 SOTA 一致甚至更优的效果。

论文标题	Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models
项目名称	SE-Bridge-TTS
会议	ICML 2026
关键词	Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning
论文链接	https://arxiv.org/abs/2605.27383
项目主页	https://insiderx-pro.github.io/SE-Bridge-TTS/
官方仓库	https://github.com/InsiderX-Pro/SE-Bridge-TTS
模型权重	https://huggingface.co/isabeth/SE-Bridge-TTS
开源项目地址	https://github.com/InsiderX-Pro/video-translator
项目企业官网	https://luoji.cn/

低资源语言的 TTS 系统长期受限于真实标注语音不足。合成数据看似是最直接的扩容方案：它能提供稳定的文本-语音配对，帮助模型学会发音和读词。但论文系统性地证明，合成数据并不是简单的“越多越好”。

在泰语实验中，随着合成数据比例提高，词错误率（WER）持续下降，说明发音稳定性确实改善；但超过关键比例后，语音 token 熵、自然度 MOS、说话人相似度 MOS 都开始下降，重复率显著上升。论文将这种现象命名为 Synthetic Erosion：低熵、平坦的合成语音分布逐渐侵蚀模型从预训练骨干中继承的表现力。

围绕这一问题，论文提出“稳定性-表现力鸿沟”（Stability-Expressivity Gap），并给出两套自对齐框架：DGSA 用于有一定真实参考语音的场景，通过韵律-音色解耦自动构造偏好样本；TDSC 用于几乎没有真实语音锚点的极低资源场景，通过多温度采样、ASR 过滤和迭代偏好学习，让模型在纯合成训练下逐步自我修正。

起底智元机器人，谁在推动一个庞然大物向前

达闼科技陨落一周年：具身独角兽的消亡史

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

阅读原文

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

OpenRouter Fusion：由模型路由到复合智能栈

CVPR 2026 | 全新强化学习框架 BeautyGRPO：重铸真实人像

GAIR Paper 102 | 不靠真实语音堆料:低资源 TTS 也能 SOTA | ICML 2026 | Bes...

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。