别再只问一个AI了:多模型交叉验证的常见误区及避坑指南
2026-06-23
2026-06-24 0

新模型上线首月,订阅用户与 ARR 的环比增速均超 400%。 |
文 |
王欣逸
编辑 | 张雨忻
2026 年开年来,
3D
生成模型赛道相当热闹。
今年第一季度,影眸科技发布首个 3D 编辑模型 Rodin Gen-2 Edit,让 AI 3D 模型第一次可编辑;今年 6 月,
VAST
官宣了新一轮融资,
Meshy
也紧随其后,宣称自己发布了全球首款
3D AI Agent
。
近日,影眸科技
——
这
支
扎根学术圈、创业早、年轻的
3D
模型团队
,带着最新的技术研究成果,以及新一轮融资,
再添了一把火
。
这支团队创立于
2020
年,
创始人兼
CEO 吴迪、和联合创始人兼 CTO 张启煊以及另外两位联合创始人张龙文、曾初啸均来自上海科技大学
。
团队约
60
人,平均年龄不到
25
岁。
尽管看起来年轻,但在
B
端
市场
,影眸几乎站稳了头部地位,其
B
端客户数及收入比行业内其他公司加起来还要多,客户包括字节跳动、
Unity、
Figma、Canva
等企业,海外收入占总收入约
80%
。
提出定义主流
AI 3D
架构的原生
3D
生成方案
CLAY
、连续数年获得
计算机图形学顶级会议
SIGGRAPH
最佳论文及提名——
在学术成果上,影眸的科研履历也相当亮眼,在顶刊和各大会议上论文、奖项不断,
其算法团队每
2人中就有1人获得或提名过最佳论文
。
《智能涌现》独家获悉,
近日,影眸科技宣布完成
数亿元
新一轮融资,本轮融资由凯辉基金、上海国投先导领投,老股东持续跟投
。
此前,字节跳动、美团龙珠、红杉、蓝驰已相继押注。
伴随新一轮融资,影眸科技发布了最新一代
3D
生成模型
——Hyper3D Rodin Gen-2.5
,将语言模型
“
先思考再生成
”
的模式引入
3D
生成领域。面向不同的生产场景,
Gen-2.5
提供了可调节的精度模式,
该模型是全球首个千万面级
3D 生成模型,最快 4 秒可实现生成百万面模型,
并同步推出全球首个
12K 精度的原生 3D 贴图模型。
长期以来,影眸面向
B
端及
专业
C
端,提供平台订阅、
B
端
API
售卖、私有化部署、直接提供最终资产等服务,主要的应用场景包括电商、
3D
打印、游戏、工业设计
、
具
身
智能
等行业。
面对市场竞争,影眸的打法是,瞄准海外
市场、
C
端
专业用户以及让模型生成过程更为可控。
值得关注的是,在最新模型
Rodin Gen-2.5发布后
,
C
端
收入
正在
反超
B
端。
Rodin
Gen
-2.5
上线首月,订阅用户与
ARR
的环比增速均超
400%
。
C
端的发力,正击中了影眸想要解决的问题:
AI 3D
能否被用户真正使用。
“
从学术圈走出的人容易有惯性,认为自己的技术和论文很厉害,为什么市场不用。但实际上,实验室研发出来的东西和真正能被使用的东西之间,存在巨大的鸿沟。
”
吴迪告诉我们。
想要消弭这一鸿沟,核心在于,生成的模型要符合使用标准,用户能控制
3D
的生成结果。
为此,他们几乎最大程度上给予了用户参与编辑的自由。
在平台上,用户可以
通过影眸
自研的 3D ControlNet
,控制生成结果的长宽高和形状;实现
3D
编辑功能,平台生成的模型乃至第三方模型都可以实现二次编辑,支持自然语言局部修改模型;能对
3D
资产进行分件,支持分件后再分件。

△
影眸科技
3D
资产的分件能力,图源:企业官方
在影眸看来,看似复杂、需要用户反复确认及控制的流程,恰恰是用户选择他们的理由。
“
我们对
3D
生成的用户群体有预估,大部分愿意付费的用户,刚好是那些对「可控」有需求的群体,我们要先服务好真正会买单的人,
”
张启煊谈到,
“3D 生成的落地运用,已经从追求观赏质量,迈向了可控、效率与质量并重,更贴近实际生产的下半场。”
在预训练阶段就做好模型的可控性设计
在经历元宇宙
赛道
萎缩
、
2023
年
资金
困境
后,
2024
年,原生
3D
生成方案
CLAY
的研究和提出
,
完全改变了影眸科技乃至整个
3D 生成赛道的走向。
彼时,整个
AI
3
D
行业内的技术路径几乎都围绕
“
2D
升维
3D
”
的模式
——
先生成物体的多视角图像,再建模成
3D
资产。这一模式缺点明显:
这一模式存在不可逆的信息丢失,
生成的模型
难以真正应用于工业设计、游戏等相关领域。
但影眸觉得,生成的
3D
资产是否做到了
Production-Ready
(生产就绪)是更重要的。于是,他们做出了一个反共识的决定:用
3D
数据,从头开始训
3D
原生模型。
这条没人走过的路被他们走通了。
2024 年,影眸团队提出全球首个产品化的 3D 原生大模型框架 CLAY(《CLAY:用于创建高质量 3D 资产的可控大规模生成模型》),通过算法和框架层面的底层创新,将 3D 生成效果从不可用
变为
可用。该研究提名当年
SIGGRAPH 最佳论文。
同年年中,基于
CLAY 架构,影眸科技发布了全球首个 3D 原生模型 Rodin Gen-1。
这也让
行业主流选择
技术路线
发生变化,纷纷走向了
3D
生成原生路线。
影眸对他们的
3D
模型的两个最重要的要求是:可控性,以及质量。
其中,可控性,是影眸打出的一张明牌。
“
对专业创作者来说,可控性特别重要,这是他们选择我们的首要原因。
”
张启煊称。
“
实现可控性的关键在于,在预训练阶段就将相关设计放进去,和模型底层一起长出来。
”
从
Rodin
的第一个版本起,他们就引入了
3D ControlNet
等可控能力。
此后,
影眸
团队
也
持续增加
产品的
可控性,
包括
支持局部修改模型,
能自动拆分出不同部件,也能实现分件后继续分件,帮助用户减少抽卡次数,提高模型生成过程中的可控性。
Rodin Gen-2.5
首次在
3D 生成领域引入
类似
LLM
(
大语言
模型
)
的
Test-time Scaling
(
测试
时
缩放
)
策略,自适应的可调节
Thinking Effort
(
思考
力度
)
为未来实现与图像生成模型类似的、与
LLM 的深度结合提供了可能性。通过该策略
,
用户可选择
模型的思考时间和深度。它支持五档思考深度,耗时
4
秒至
80
秒不等,对应着从快速草稿到高精度资产。在
Extreme-High
模式下,模型能实现千万面数生成能力,能还原皮肤微结构、纹理、毛孔等特征。

△Rodin-2.5
的五档思考深度,图源:企业官方
不仅如此,影眸还同步推出了一个原生
3D
贴图模型,区别传统投影法生成材质,这一模型能解决传统方法存在的颜色断层、浸染等问题,清晰保留
Logo
、文字等信息。从几何生成到贴图,最快仅需
5
秒。
该贴图模型具备图像生成级别能力,可实现材质纹理无死角覆盖,文字效果提升显著,支持基于物理的
PBR 材质。配合同步推出的12K原生3D贴图模型,生成效果在几何精度与材质保真度上已可超越实景扫描,断代领先行业水平。
另一个关键点
——
质量,影眸用一系列研究成果对此做出了证明。
自
CLAY
后,他们相继推出了
CAST
、
BANG
等研究成果。前者能通过输入一张图片,便能生成包含物体和物体关系的完整
3D
场景;后者能实现对
3D
资产的分件。
其中,关于
CAST 的研究论文《CAST:基于单张 RGB 图像的组件对齐式 3D 场景重建》斩获
SIGGRAPH 2025 最佳论文奖。同期在该领域获得最佳论文的商业公司仅有谷歌、Meta 和影眸三家。
作为唯一连续多年获得
SIGGRAPH 最佳论文及提名的商业公司,
影眸
自
2020
年以来在顶级学术会议及期刊上共发表了
30
余篇论文,其中
70%
的科研成果走向了落地。
这具体表现在产品的迭代上,近两年来,影眸的模型实现了四次重要迭代,从
Rodin Gen-1
、
25
年
9
月发布的拥有拆件能力的
Rodin Gen-2
、
26
年
1
月发布的有局部编辑功能的
Rodin Gen-2 Edit
,再到今年
6
月,最新发布的
Rodin Gen-2.5
。
谈及
AI 3D
的未来,吴迪告诉我们,未来一至两年内,公司会继续做两件事情,一是精进底层模型的生成质量,二是拓展编辑、
Agent
化等能力,让模型在专业领域越来越好用。
服务最专业的用户,解决最真实的问题
AI 3D 的商业化路径仍在被行业验证,但在影眸看来,这是一份可持续的好生意。
单看模型训练的算力成本,对
Rodin
而言,整数倍版本模型的迭代需要千卡级的训练,但由于影眸自身在算法架构上的积累,
相比同行训练出一个同级别的模型,训练效率获得了极大提高。
过去一年,
企业级(
B 端)营收的质量与可持续性,正逐步取代消费级用户规模,成为衡量AI公司长期价值的核心维度
——以 Anthropic 为代表的企业级路线被广泛视为这一趋势的典型样本。
与此同时,在收入端,影眸正在走一条类似
Anthropic 的企业级路线,其积累的B端客户营收超过同赛道其他公司的总和。
从客户的一侧来看,影眸
的
B
端订单分布在游戏、电商、
工业设计、具身智能、空间计算
等多个
高价值
场景
,与此同时,
C
端画像主要为
Pro-C
(专业级消费者),如建模师、
3D
打印爱好者、产品设计师等。
在
影眸
团队
看来
,
未来
3-5
年,
3D
生成主要还是被专业用户使用。不管是语言模型、图像模型还是其他的模型,都很难从绝对效果上完全区分出高下。对于
3D
生成赛道而言,大众真正的关注点是,模型厂商能否满足下游行业的需求。
“
我们研发出来的东西需要要接入到后期的流程里面去使用,因此我们要做
Production-Ready
的东西,让其可以直接进入影视、游戏等场景的后期中直接使用。
”
吴迪告诉我们。
因此,影眸
将产品设计成生成过程中可逐步确认,满意后再付费的模式。
这一模式,源自于影眸对于自身模型可用性的底气。
在影眸的客户列表里,有不少具身智能公司,他们把影眸的
3D
资产,拿来作为训练数据和
生成
仿真环境
和资产
。
谈及赛道内正热的“世界模型”,
张
启煊告诉我们,撕开世界模型的标签,大家在做的主要是两件事:一是实时视频生成,如
的
Genie-3
;二是可仿真的环境,包括资产、模拟器等,以及做类似自动驾驶、机器人策略的执行器。
在世界模型版图里,影眸偏向于做可仿真资产。在平台上,他们有一个功能叫
Sim-Ready
,用户点击后,可以直接在英伟达的仿真环境里做物理仿真。
具身智能对
3D
生成模型的要求包括几个层面:一是物理反馈,如重量、碰撞体等,这些功能,影眸已经上线至产品中;二是可互动资产,如
3D
资产在分件后如何动起来,在这一内容上,影眸也做出了相关学术成果。
单纯用视频生成做世界模型,这可能会导致模型难以从视频中学习到真实物理世界的维度关系。这也正是
3D
的优势,能理解物品之间的位置关系、视角角度连续性好、能在模型中做物理模拟等。
吴迪认为:
“
未来的世界模型,需要让机器真正学到和真实世界一致的场景,其背后可能会是
3D
生成与视频生成混合的模式
。
”
“3D 生成的赛道正在收敛,而收敛意味着,最终只有少数真正解决了产业问题的团队能留在牌桌上。过去一年,市场习惯用用户规模和增长曲线来衡量一家 AI 公司的价值。3D 生成会是游戏、影视、工业设计乃至物理世界智能化都绕不开的底层能力,我们服务最专业的用户,解决最真实的生产问题,这个选择决定了我们今天的领先,也决定了我们未来要去定义、而不只是参与下一代 3D 生产工具的规则。
”
封面来源 | 企业提供
??
扫
码
加
入
「
智
涌
A
I
交
流
群
」
??



3 6 氪 旗 下 A I 公 众 号
?? 真 诚 推 荐 你 关 注 ??




