极限竞速:地平线6轮胎磨损与碰撞物理系统赢得业界高度评价
2026-05-30
2026-06-04 0

2026年6月3日,京东正式发布JoyAI-Echo长音视频生成框架,旨在系统性攻克当前长视频生成领域普遍存在的三大技术瓶颈:角色形象持续性不足、语音特征不稳定、整体生成效率偏低。
该框架的全部源代码与预训练权重现已全面开源,项目主页及GitHub代码仓库同步上线,面向开发者与内容创作者开放体验与二次开发权限。
JoyAI-Echo集成跨模态音视频记忆机制,在多镜头连续生成过程中可动态保存并精准复用角色的视觉表征与说话人声纹特征。实测表明,在长达五分钟的视频生成任务中,人物身份、外貌细节及音色特质均保持高度统一,有效杜绝角色在不同镜头间发生突兀变化的现象。
为兼顾生成质量与推理效率,框架采用记忆驱动的后训练范式,融合监督微调(SFT)、跨模态基于人类反馈的强化学习(RLHF)以及分布匹配蒸馏(DMD)技术。其中,DMD技术单独贡献约7.5倍的推理加速效果,显著提升长视频端到端生成吞吐能力。
系统内置智能导演助理模块,支持以自然语言输入创作意图,自动完成剧本解析、角色设定、场景划分与镜头调度。若某一段落生成结果未达预期,用户可通过对话方式直接指定修改范围,系统仅重生成对应镜头,无需整段视频重新计算。
评估环节,研究团队构建了涵盖100个原创故事、3000个独立镜头的长音视频专项评测集,从跨镜头一致性、画面质量、文本-视频对齐度及语音内容准确率等多个维度展开系统验证。结果显示,JoyAI-Echo在各项核心指标上均居行业前列,其中语音内容准确率高达0.8646,处于当前同类模型领先水平。
配图由人工智能生成