打通智能硬件生态全链路——标准定底座:创新闯前线:IOTE双轮驱动8月合流!
2026-06-22
2026-06-24 0

这项由NVIDIA与多伦多大学联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR 306论文集。论文编号为arXiv:2606.18231,感兴趣的读者可以通过该编号查询完整原文。
你有没有想过,当你在电影里看到一块布料随风飘动、一个沙发被人坐下去缓慢下陷,这些"真实感"究竟从何而来?答案是物理模拟。物理模拟的核心,是给每一块材料分配三个数字:杨氏模量(衡量材料有多硬)、泊松比(衡量材料被压时会向两侧扩多少)和密度(衡量材料有多重)。这三个数字就像材料的"身份证",决定了它在虚拟世界里的行为方式。
问题是,这张"身份证"大多数3D资产都没有。设计师们花几周时间建模一个沙发,却完全不知道它该用什么材质参数来模拟。更麻烦的是,现实中的物体从不是单一材料构成的——沙发有木头框架、泡沫填充、布料表面,每一部分都需要不同的参数,而且这些参数需要贯穿整个体积,不只是表面。
NVIDIA与多伦多大学的研究团队想要解决这个问题。他们开发了一套叫做ADAVOMP的系统,可以通过观察3D物体的外观,自动推断出它内部每个角落的物理材质参数。这项研究的突破在于,它达到的分辨率比此前最好的方法高出163倍,能捕捉到之前系统完全看不见的细小零件和材质边界。
一、为什么给3D物体"量体裁衣"这么难
以烤面包机为例来理解这个问题。面包机的外壳是金属,按钮是塑料,加热丝是陶瓷,弹簧是钢铁。如果你要在物理引擎里模拟这台面包机被人砸到地上的过程,你需要知道它每一个部分有多硬、有多重、被撞到时会怎么变形。这些信息不写在模型文件里,需要人工一一测量或标注——这对一两个物体或许可行,但对于现代游戏、影视、机器人训练所需要的数以万计的资产,根本无从操作。
此前也有一些方法尝试自动完成这件事,但都有各自的局限。有些方法从视频里反推材质,但这种方式过度依赖特定的模拟器,换个环境就不管用了。另一些方法只分析物体表面,对内部结构一无所知——这对于要做体积形变模拟的场景来说,等于什么都没做。还有方法虽然能预测体积材质,但分辨率极低,就像用马赛克图片来描述人脸细节,精细结构全部糊成一团。
这就是ADAVOMP要解决的核心矛盾:如何在不手动测量、不依赖特定模拟器的前提下,快速、准确、高分辨率地推断出3D物体内部的材质分布?
研究团队选择的路径是"看外表推内里"——通过物体的多视角照片,加上深度学习,让模型自己学会从颜色、纹理、形状等视觉特征推断材质。这个思路并不新鲜,人类其实也是这样做的:看到一个亮晶晶的东西,你会猜它是金属;看到一个蓬松的东西,你会猜它是泡沫。ADAVOMP只是把这套判断逻辑教给了机器,并且做得更精细、更系统。
二、把体积变成一棵会"生长"的树
ADAVOMP的核心发明是一种叫做SAV(稀疏自适应体素树)的数据结构。要理解这个概念,可以用城市地图来类比。
一张城市地图如果每个地方都用同样精细的比例尺来画,那么空旷的郊外田野和市中心的密集街道会占用完全相同的存储空间,非常浪费。聪明的地图会根据信息密度动态调整:郊外只需要粗略标注,市中心需要精确到每一条小巷。SAV对材质空间的处理方式与此一模一样。
对于一个沙发,扶手部分全是木头,材质完全均匀,不需要精细记录——SAV用一个大格子就搞定了整片区域。但是,在布料和海绵的交界处、在金属支架穿过木头的位置,材质在短短几毫米内就发生剧变,这里就需要把格子不断细分,一直细分到能够清晰捕捉这个边界为止。
这棵"树"从整个物体的粗略描述开始(一个大格子),然后根据材质变化程度决定是否继续细分。如果一个区域的材质很均匀,这片区域就保持为一个粗格子,存储该区域材质的平均值;如果材质变化复杂,就继续往下分,直到格子细到足以准确描述为止。最终生成的结构中,最细的格子对应的分辨率可以达到1024?——也就是1024×1024×1024个网格,而此前最好的方法VoMP只能处理64?的分辨率,差了整整163倍。
更重要的是,这棵树不是预先固定好结构再填数据,而是由神经网络一边"生长"一边填数。生长本身就是预测的一部分,模型需要同时决定"这里需不需要细分"和"这里的材质是什么"。这两个任务相互关联、协同训练,让整个系统更加高效。
三、眼睛怎么传递信息:从照片到3D特征树
有了存储材质的框架,下一个问题是:如何把关于物体外观的信息输入进来?
研究团队借助了一种叫做DINOv3的视觉特征提取模型——可以把它理解为一个经过大量训练的"眼睛",能从图片里提取出丰富的语义信息,比如"这里是金属光泽"、"这块区域纹理像木头"等。研究人员为每个3D物体渲染了150张不同角度的照片,然后让DINOv3从每张照片里提取特征,再把这些特征"投影"回3D空间,填充到体素网格里。
这个投影过程有一个精心设计的细节:距离相机较远的体素,特征会被赋予更低的可信度权重。这就好比你近距离看一块布料和隔了十几米远看,看到的细节精度完全不同——越近看越可信。传统方法对所有角度的观测一视同仁,而ADAVOMP的深度衰减加权策略避免了远处观测对特征的"稀释"。
提取到体素特征后,同样不是简单地把所有细格子保留下来,而是构建一棵"特征树"。方法与材质树类似:相邻体素如果特征非常相似(说明这块区域看起来差不多,材质可能均匀),就合并成一个粗格子;只有特征差异大的区域才保持精细划分。这棵特征树就是输入给后续神经网络的"素材",它已经做了第一轮智能压缩,把计算资源集中在信息密集的区域。
四、两个协同工作的"大脑"
ADAVOMP的神经网络部分由两个模块构成,可以把它们理解为侦探工作里的两个角色:一个负责"收集线索",一个负责"做出判断"。
负责收集线索的叫做"自适应几何变换器"(Adaptive Geometry Transformer,简称AGT)。它接收特征树里混合了不同分辨率的体素,把它们统一编码成一组"情报"。为了让模型知道不同大小的格子在空间里的位置关系,每个体素都被赋予了一套"统一坐标"——把不管多粗的格子都折算到同一个最细网格下的坐标系里表示。这样,粗格子和细格子可以在同一个框架内相互"对话",通过一种叫做稀疏窗口自注意力的机制,让每个位置的特征都能参考周围邻居的情况。
负责做出判断的叫做"自适应材质生成器"(Adaptive Material Generator,简称AMG)。它接收AGT输出的情报,然后从最粗的层级开始,一层一层地往下预测。在每一层,它对当前层的所有候选格子都做三个判断:这个格子是空的(物体内部没有材质)?还是可以保留为叶节点(这个格子够细了,可以直接记录材质)?还是需要继续细分(这个格子太粗了,里面还有更多细节)?
对于被判断为"继续细分"的格子,它的八个子格子会进入下一层的候选列表,继续接受同样的判断。这个过程从1个格子开始,逐层展开,直到达到最细层级为止。最终留下来的所有叶节点,就共同构成了这个物体的材质场。
每个格子在判断自己应该"保留"还是"细分"时,不仅看自己当前的情况,还会继承来自父格子的"记忆"——父格子的隐藏状态会传递给它的所有子格子。这种记忆传递确保了空间连贯性:即使某个区域的粗格子决定保留而不细分,它的空间信息依然会流向邻近的细分区域,不会出现"信息孤岛"。
五、训练时的三重保障
训练这个系统面临一个挑战:生成结构(树怎么长)和生成内容(格子里存什么)必须同步优化,而结构的生长路径会影响到内容的训练样本,反过来内容的质量又影响结构的判断。
研究团队采用了"教师强制"策略来稳定训练。具体来说,在训练阶段,模型的结构判断不依赖自己的预测结果,而是强制使用正确答案——即从标注数据中得到的真实材质树结构。这就好比让一个学生在练习解题时,每一步都参照标准答案来决定下一步走哪个分支,而不是完全靠自己的推断。这样可以确保训练早期不会因为结构判断失误而导致整个训练崩溃。
除此之外,训练还引入了对"空格子"的显式监督。此前的很多方法只关注有材质的区域,忽略了空格子的预测。但如果模型不知道什么地方应该是空的,它就可能在物体外部或内部的空洞里乱填材质。ADAVOMP专门让空格子参与训练,作为明确的负样本,帮助模型学会"物体的边界在哪里"。
还有一个叫做MatVAE的组件,它来自此前的VoMP研究,被作为"物理合理性约束器"嵌入系统。每当模型预测一个格子的材质时,它不是直接输出三个数字,而是先输出一个2维的潜在编码,再通过MatVAE解码成实际的杨氏模量、泊松比和密度值。MatVAE在训练时已经学到了"哪些材质组合是物理上合理的",所以这个约束相当于给模型装了一道"合理性过滤器",避免输出那些在现实中不可能存在的材质参数组合。
六、数据从哪里来:给3D资产自动贴"材质标签"
监督学习需要标注数据,而给3D资产标注体积材质参数是一件非常繁琐的事情。研究团队延续了此前VoMP研究的方法,使用大型视觉语言模型(VLM)自动完成标注。
具体过程是这样的:3D资产通常由多个零件组成,每个零件有其所属的材料类型(比如"橡木"、"铝合金"、"棉布")。研究人员让Qwen2.5-VL这个多模态模型看着这些零件的渲染图,判断每个零件是什么材质,然后从材质数据库里查找对应的物理参数范围,填入标注。
整个数据集叫做GVT(Geometry with Volumetric Trees),包含1725个高质量3D资产,涵盖55个语义类别,从家具、容器到植被、商业设备,种类相当丰富。训练数据共包含约1.5亿个输入词元和16.2亿个输出词元,前者是特征树节点,后者是材质树节点。
七、效果如何:数字说话
研究团队与五个现有方法进行了系统比较,包括NeRF2Physics、PUGS、Phys4DGen、Pixie和VoMP。评测指标包括绝对误差、相对误差以及以对数尺度衡量的误差(因为杨氏模量的数值范围可以跨越十几个数量级)。
在标准测试集上,无论是64?分辨率下还是1024?分辨率下,ADAVOMP在杨氏模量、泊松比、密度三项指标上都全面超越所有竞争方法。值得一提的是,即便ADAVOMP只在低分辨率(64?)下运行,其表现依然优于大多数竞争对手——这说明系统的优势不仅来自于更高的分辨率,模型本身的预测能力也更强。
研究团队还专门设计了一个"困难测试集"GVT-HARD,专门收录那些包含细小零件、在粗分辨率下完全被忽略的物体。在这个测试集上,所有方法的表现都明显下滑,但ADAVOMP与其他方法的差距反而更大——对于粗分辨率方法几乎等于放弃的细节,ADAVOMP依然能给出合理的预测。
在质量评估方面,研究人员还检验了预测材质的"物理合理性"——即预测值是否落在真实材料的测量范围内。结果显示ADAVOMP与VoMP旗鼓相当,说明虽然提高了分辨率,但没有因此牺牲物理合理性。
在一个独立的质量估算基准测试(ABO-500)上,ADAVOMP也取得了明显优于所有方法的成绩,进一步验证了其密度预测的准确性。
八、紧凑性:少用格子,多出细节
SAV结构的一个重要优势是它的紧凑性。研究团队统计了地面真值材质树的叶节点数量,与同等区域下密集64?网格所需的格子数量进行比较。结果显示,在标准测试集上,真值材质树只需要密集网格的7.24%的节点就能完整表示材质分布;在整个数据集上,这个比例也只有10.54%。换言之,超过90%的格子是冗余的,可以被合并。
模型生成的材质树与真值相比,节点数量多出了约26%——这是模型在不确定的区域选择"保守细分"的代价,但总体上依然远比密集网格高效,生成树只需要密集网格的9.14%节点。
从物理维度上看,SAV所表示的空间结构有效维度约为2.48,介于纯表面(维度2)和完全密集体积(维度3)之间。这意味着体积中的材质变化主要发生在类表面区域和边界层,而内部大多均匀——这与我们对现实物体的直觉完全吻合。
九、规模扩展:越大越好,越细越准
研究团队训练了六个不同大小的模型,从最小的2000万参数(S)到最大的5.73亿参数(H),并系统测试了训练数据量和推理分辨率的影响。
从结果来看,三个维度的扩展都有稳定的收益。训练更多数据(从5亿到3000亿词元),误差持续下降,且较大的模型在固定数据量下表现更好。提高推理分辨率(从64?到1024?),误差也持续改善,说明在更高分辨率下运行确实能发现更多有用的细节,而不只是在低分辨率答案上做无意义的上采样。模型规模提升同样带来稳定收益,且在推理分辨率较高时,大模型相对小模型的优势更加明显。
内存消耗随分辨率的增长呈亚二次方关系(大约是1.35次方),这意味着把分辨率提高到16倍时,内存消耗不会增加16的平方倍,而是一个更温和的增幅。这使得在标准的8块A100 GPU上就能运行1024?分辨率的推理。
计算成本则呈更陡峭的趋势(约2.32次方),这意味着分辨率是计算开销的主要驱动因素,而模型参数量的影响相对温和——增大十倍参数只带来约十倍计算量增加,而分辨率从128?提升到1024?则带来约两个数量级的计算量增加。
十、从参数到真实模拟
研究的最终目的不只是预测数字,而是让3D资产真的能被物理模拟。研究团队把ADAVOMP生成的材质场输入到多种模拟器中,包括有限元方法(FEM)、Simplicits简化阶模拟器,以及NVIDIA的Isaac Sim机器人模拟平台,并展示了一系列令人信服的结果。
沙发在重力下稳定地坐着、枕头被挤压后缓慢回弹、一台GPU被机械手臂触碰时按照金属和塑料各自的特性产生不同程度的形变。这些模拟完全使用ADAVOMP自动预测的材质,没有任何人工微调。研究人员还展示了将这套系统集成进RoboLab机器人训练平台的案例,让机器人在有物理真实感的环境里学习操作技能。
特别有意思的一个案例是:研究人员用手机上的商业应用扫描了一个真实世界的游戏手柄,得到一个高斯点云(Gaussian Splat)形式的3D模型,然后直接把它输入ADAVOMP,预测出材质,生成四面体网格,用FEM模拟手柄被扔到地上的过程。整个流程完全自动化,没有任何专业人员介入。
说到底,ADAVOMP做的事情可以用一句话来概括:它是一台"材质透视仪",通过观察3D物体的外表,推断出它从内到外每一个角落的物理属性。这台透视仪比此前所有同类工具都精细163倍,同时还做到了"聪明地分配精力"——在均匀区域只用极少的计算资源,在复杂区域重点深挖,整体效率远高于暴力全分辨率方案。
这项研究的意义远不止于学术指标的提升。当机器人训练、影视特效、游戏开发、数字孪生这些应用都需要大量物理真实的3D资产时,手动标注的方式根本无法满足需求。ADAVOMP提供了一条可以大规模部署的自动化路径,让原本需要材质工程师花费数小时工作的任务,变成几分钟内自动完成的流水线工序。
当然,这项研究也坦诚地列出了局限:目前只能处理静态资产,无法从视频中获取动态物理线索;只支持各向同性材质,无法处理那些在不同方向上刚度不同的材料(比如竹子);预测结果是针对特定物理模拟器意义下的"真实参数",在某些追求速度而非精度的实时模拟器里,这些参数可能还需要进一步调整。这些方向为未来研究留下了清晰的路标。
如果你对这套系统的技术细节有进一步的好奇,可以通过arXiv编号2606.18231获取完整论文,或访问研究团队在NVIDIA正式上提供的项目主页查看演示视频。
Q&A
Q1:ADAVOMP和此前的VoMP方法相比,主要提升了什么?
A:ADAVOMP最核心的提升是分辨率,从VoMP的64?提升到了1024?,高出163倍。这背后是用稀疏自适应体素树替换了固定均匀网格,让系统能在材质变化复杂的区域集中精力细化,而在均匀区域节省计算。除了分辨率,在预测精度上,ADAVOMP在所有评测指标和所有测试集上也全面优于VoMP,即便在低分辨率模式下运行,表现也不亚于VoMP。
Q2:ADAVOMP预测材质需要什么输入,普通3D模型都能用吗?
A:ADAVOMP的输入要求相当宽泛,只需要能被体素化(即转成三维网格形式)并且能从多个角度渲染出图片的3D资产即可。支持的格式包括传统网格模型、有符号距离场、高斯点云(3D Gaussian Splatting)以及神经辐射场(NeRF)。这意味着从建模软件导出的标准资产到手机扫描生成的点云,基本上都可以直接使用,不需要特殊预处理。
Q3:SAV稀疏自适应体素树实际能节省多少存储和计算?
A:在标准测试集上,SAV材质树只需要等效密集64?网格约7%到10%的节点数量就能完整表示材质分布。模型生成的树比理想真值多用了约26%的节点(保守细分),但总体仍只需密集网格约9%的节点。内存随分辨率的增长大约是1.35次方关系,远低于密集网格的三次方增长,使得1024?分辨率下的推理在8块A100 GPU上即可完成。