独家｜阿里达摩院推出世界模型版“奥运会”，蚂蚁灵波排第一、自家模型没上榜

资讯组小编 • 文章来源: 智能纪元AGI • 4天前 • 新闻

就在刚刚，阿里世界模型版“奥运会”来了！

智能纪元AGI 6月10日消息，独家获悉，阿里达摩院在今天联合浙江大学等多所高校研发出一套全新测评体系 WorldOlympiad。

这是一个用于判断世界模型性能的基准测试，涵盖物理真实性、几何一致性和交互真实性等方面。

WorldOlympiad评估分解为三个互补的维度，物理维度、使用对象分割和多模态大语言模型（MLLM）作为评判标准，来评估生成的视频是否遵循力学、热学现象和材料属性方面的可解释规则，几何维度使用高斯散射重建生成的视频，并评估结构一致性、跨视角连贯性和摄像机轨迹对齐情况。

据悉，根据WorldOlympiad排行榜显示，蚂蚁灵波LingBot-World模型排名第一，英伟达Cosmos世界模型排第二、混元世界模型排第六。

而阿里的世界模型Happy Oyster等多个自家模型都没有上榜。

事实上，早前，中科院与阿里巴巴联合推出的全球首个AI世界模型互动评测基准Omni-WorldBench，内含上千个测试案例，专门检验AI是否理解物理规律和因果关系。

不仅是Omni-WorldBench，最近一段时间，世界模型赛道有很多评测基准，比如WorldArena、WorldLens等，但这些基准测试榜单需要完善，本身模型无法下载或落地，外界评论不一。

然而，论文提到，现有的基准测试通常侧重于视觉质量、语义对齐或短期时间连贯性，但它们对于生成的视频是否遵循物理规则、保持连贯的 3D 结构以及在较长时间内维持可控交互的洞察力有限。

为了弥补这一不足，WorldOlympiad将世界模型评估分解为三个互补的维度：

物理维度、三维几何和长时序交互考试。

这些作为评判标准，来评估生成的视频是否遵循力学、热学现象和材料属性方面的可解释规则，几何维度使用高斯散射重建生成的视频，并评估结构一致性、跨视角连贯性和摄像机轨迹对齐情况。

WorldOlympiad整套测试分成三大考试科目，外加三大真实应用场景，相当于一场 “全能铁人三项”，全方位检验 AI 真实能力。

其中，物理规则考试。专门查 AI 懂不懂现实物理。细分力学（重力、碰撞、挤压、浮力）、热学（融化、蒸发、凝固等物态变化）、材料特性（颜料混色、溶解、软硬、燃烧）。比如：悬空的物体必须往下掉，不能凭空飘；火能烧可燃物，金属不会一捏就变形。AI 生成视频一旦违背这些常识，直接扣分。测评会先用图像技术框选出画面里的物体，再靠大模型逐一审判规则是否成立。

三维几何考试。重点考验 AI 的空间感知能力。我们肉眼看视频觉得正常，换个视角、重建 3D 模型后，很多 AI 都会露馅：墙体扭曲、物体凭空出现 / 消失、相机移动后场景错乱。研究团队用高斯泼溅技术重建视频 3D 画面，同时核对相机运动轨迹，检查跨视角结构、空间稳定性，但凡结构崩坏一律判弱。

长时序交互考试。针对 “边看指令边持续干活” 的场景。视频会被拆成多个片段，要求 AI 逐段执行动作指令，既要保证单段内容和要求匹配，还要做到片段之间过渡自然、场景 / 物体不突变、长时间运行不丢目标。简单讲：让 AI 连续完成一连串任务，看它会不会 “做着做着就忘初衷”。

在具体测试中，整套题库一共 1000 条高质量长视频，分三大真实场景，贴近落地使用：

机器人场景（400 条）：机械臂抓取、双手操作等，考验物理交互与精细动作；

游戏场景（400 条）：角色移动、战斗、视角切换，侧重长流程交互与状态延续；

通用显示世界（200 条）：日常户外、生活动态，考验开放环境的运动与空间逻辑。

同时团队做了严格的数据标注：把长视频拆分、配上动作描述，保证考题标准统一，所有模型都在同一张卷子比拼。

论文提出，现在的 AI 大多是 “平面选手”，还没真正建立立体空间思维。领域专精模型优势明显，但泛化能力有差距。

具体到排行，LingBot-World（游戏向）、Cosmos-Predict-2.5（机器人向）综合排名前二，针对性训练让它们在对应领域表现拔尖，而且学到的能力还能部分迁移到其他场景。

其中，今年1 月 29 日，继连续发布空间感知与VLA基座模型后，蚂蚁灵波科技再次刷新行业预期，开源发布世界模型 LingBot-World。该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美 Google Genie 3，旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

针对视频生成中最常见的“长时漂移”问题（生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象），LingBot-World 通过多阶段训练以及并行化加速，实现了近 10 分钟的连续稳定无损生成，为长序列、多步骤的复杂任务训练提供支撑。

交互性能上，LingBot-World 可实现约 16 FPS 的生成吞吐，并将端到端交互延迟控制在 1 秒以内。用户可通过键盘或鼠标实时控制角色与相机视角，画面随指令即时反馈。此外，用户可通过文本触发环境变化与世界事件，例如调整天气、改变画面风格或生成特定事件，并在保持场景几何关系相对一致的前提下完成变化。

随着“灵波”系列连续发布三款具身领域大模型，蚂蚁的AGI战略实现了从数字世界到物理感知的关键延伸。这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁正通过InclusionAI 社区将模型全部开源，和行业共建，探索AGI的边界。一个旨在深度融合开源开放并服务于真实场景的AGI生态，正加速成型。

目前，LingBot-World 模型权重及推理代码已面向社区开放。

对于评测，WorldOlympiad将捕捉了从交互式控制和具身操作到开放域运动和摄像机动力学等各种挑战。

“这些赛道和场景共同构成了一个可扩展且可解释的评估体系，揭示了除通用视频质量之外的故障模式。对最先进模型的实验表明，它们在物理推理、3D 一致性和长时程交互方面存在显著缺陷，这凸显了为生成式世界模型制定更结构化评估协议的必要性。”

论文提到，当下行业现状如今 AI 视频画面渲染早已成熟，但离真正的“世界模拟器”还差很远，物理细节、三维空间、长流程持续执行，是目前所有顶尖模型共同的天花板。

展望未来，研究重点团队接下来会重点研究内存机制（长视频里 AI 如何记住场景、状态）。现在很多模型内存设计不完善，才导致长时间运行后状态丢失、逻辑错乱。优化记忆能力，是提升长时序、复杂场景表现的关键。

简单来说，WorldOlympiad跳出“只看颜值”的旧思路，打造了一套直击本质的视频世界模型测评标准。

实测证明：现在的 AI 视频能做到“形似”，但离“理解并遵守真实世界运转逻辑”还有巨大差距；这套测评既能给现有模型精准“体检”，也为后续技术迭代指明了发力方向。

对于目前世界模型评测行业的发展，6月10日，智源研究院院长王仲远表示，现在的这些评测不代表真正未来世界模型的能力，所以大家千万不要觉得国产世界模型已经登顶。

“因为世界模型对于下一个物理状态的预测，依然没有达到一个完全令人满意的结果，虽然它能够展现出很多世界模型特性，但距离理解真实物理世界还需要很长时间。”

本文来自转载智能纪元AGI ，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。