过去一周,世界模型赛道的热度被推到新高。
DeepMind 刚发布的 Genie 3 展示了交互式、实时、长序列生成的能力,让“虚拟世界随时可玩、可控”从概念变成了可见的产品形态。不过,Genie 3 虽然惊艳,却并未开源,这让不少开发者只能停留在猜测其技术细节的阶段。
然而 DeepMind 没做到的事,昆仑万维做到了。8 月 12 日,在昆仑万维启动Skywork AI技术发布周的第二天,昆仑万维推出了自研 Matrix 系列的升级版,交互式世界模型 Matrix-Game 2.0。
和 Genie 3 相比,Matrix-Game 2.0 不仅同样实现了通用场景下的实时长序列交互生成,更大胆的是,它完整开源,成为了业内首个在通用场景落地这项能力的开源世界模型。这意味着,社区不仅能看到最终效果,还能复现、改进,甚至直接嵌入实际项目。
与更偏向技术演示的 Genie 3 不同,Matrix-Game 2.0 的定位更贴近产业化落地:它的目标是让这项能力可以即用即调,并直接服务于游戏引擎、具身智能、虚拟人交互等场景。
换句话说,昆仑万维是正在把世界模型从实验室,真正推向了生产线,昆仑万维过去两年大笔研发投入终于迎来了“开花结果”的阶段,技术成果持续转化为营收增长动能。
当技术飞轮和商业飞轮同频转动,昆仑万维率先拉开整个 AI 领域商业化的序幕。
虚拟世界的真实感
昆仑万维的 Matrix-Game 2.0,真正把“交互式世界模型”从纸面技术变成了可以直接上手的工具。用户只需要键盘和鼠标,就能在模型生成的世界里实时移动、转向、执行动作,画面以 25FPS 连续输出,并在分钟级长序列中保持物理逻辑和细节稳定。
在 GTA 场景中,白天的城市主干道上,车辆和行人川流不息。玩家驾驶着轿车在车流间穿梭,转向、加速与刹车都即时体现在画面中。25FPS 的实时生成让光影、路面反射与 NPC 动作都保持稳定一致。
在高速公路上的疾驰画面中,远处山体与天空细节清晰可见。玩家变道、提速等操作与场景变化自然衔接。模型保持了分钟级长序列的连贯性,光照切换与物理碰撞无延迟。
同样在 MC 的像素风方块世界中,远处是起伏的山丘与树木。玩家操控角色行走、跳跃,动作指令即时转化为生成画面。模型在低纹理细节下依然保持物体位置与交互逻辑准确。
在复杂的地形中进行攀爬,方块台阶与悬崖边缘依旧无缝衔接。25FPS 的生成速度确保了视角切换的流畅性,角色运动轨迹和地形碰撞保持物理一致。
除此之外,在神庙逃亡这款经典游戏的场景中,高速奔跑的赛道两侧是古老的石墙与悬崖。玩家连续执行转弯、跳跃、下蹲等操作,模型即时生成对应视角变化。动作与背景透视精准同步,完全没有拖影或卡顿。
而在 Wild 场景里,玩家沿小路缓慢前进并调整视角,光影变化和植被细节与操作步骤依旧同步变化。分钟级生成下,环境细节在长时序中无明显漂移。
分钟级长视频,实时可交互
Demo 之外,Matrix-Game 2.0 的技术报告也十分有看点。它的设计目标,是构建一个既可操控、又能实时响应的虚拟世界,并在长时间运行中保持流畅性与物理一致性。其技术方案可分为四个层次:核心理念、模型架构、生成机制,以及数据与任务设计。
与许多依赖文本提示的生成模型不同,Matrix-Game 2.0 完全绕过语言输入,将视觉作为唯一信号。这种方式避免了语言先验可能带来的语义偏差,让模型直接从画面中学习空间结构、物体关系和物理规律,从而生成更贴近真实的虚拟场景。
架构方面以图像为核心,由三大组件组成:3D Causal VAE 压缩结构在空间与时间两个维度对视频进行高效压缩,既保留关键信息,又降低计算成本。多模态扩散 Transformer(DiT)将视觉编码与用户的操作指令融合,逐帧生成符合物理规律的动态视频序列,再通过 3D VAE 解码成完整画面。动作控制模块借鉴 GameFactory 与 Genie 系列的交互框架,引入帧级键盘与鼠标输入,实现即时操控与世界生成的无缝衔接。
当然,Matrix-Game 2.0 也要面对长序列视频常会遇到延迟和误差累积的问题,不过它直接通过专有的三项机制应对:
因果扩散训练将双向扩散蒸馏为因果模型,仅依赖历史帧生成当前帧,减少等待、提升推理速度。
分布匹配蒸馏(DMD)在训练中最小化学生模型与原始模型的生成分布差异,保证长时间生成下的画面稳定性,减少漂移。
KV-Cache 缓存机制保存注意力上下文,实现滚动生成,避免重复计算,即便在单 GPU 环境下也能达到 25 FPS 的实时速度。
除此之外,为保证在多场景下的表现,研究团队还基于 Unreal Engine 和 GTA5 搭建了可扩展的数据生产管线,生成了上千小时的高质量交互视频,涵盖多风格、多任务场景。
并在此基础上,训练了多个子模型:Matrix-Game Uni 适合探索多种真实感静态场景;Matrix-Game TempleRun面向跑酷类游戏,具备精准的动作响应;Matrix-Game GTA 则可模拟动态城市与车辆运行,场景中的物体具备独立运动轨迹。
总的来说,结合架构与数据,Matrix-Game 2.0 在三方面表现尤为突出:高帧率长序列生成,支持分钟级的连续交互视频生成,动作流畅、响应及时;多场景泛化,无需重新训练即可适配多种风格和环境,从写实城市到艺术化场景均能生成;物理一致性增强,角色在复杂地形下的行为符合物理逻辑,显著提升沉浸感与可控性。
凭借这些特性,Matrix-Game 2.0 不仅可用于游戏内容创作,还能为具身智能训练、虚拟现实、影视制作及元宇宙内容生产提供稳定的技术支撑。雷峰网
飞轮在转,且转得更快
过去,AI 公司大多依赖出售单一模型能力,通过 API 调用费或订阅制获取收入,这种模式的优点是轻资产、上手快,但缺点也明显:客户黏性不足,易被替代,商业天花板较低。
而昆仑万维这次“技术周”释放出的信号也很明确:它正从“卖模型”转向“卖系统”,即用多模态能力构建一整套可直接嵌入客户工作流的行业解决方案。这样一来,客户不仅购买某个模型的使用权,而是将整个工作链条部分外包给昆仑万维的 AI 系统,从而形成更强的绑定关系和更稳定的收入来源。
总的来说,这种模式的变化可以看作是从点状能力变现升级成体系化能力变现的过程,也是卡位未来竞争高地的主动出击,这种体系化转型不仅改变了昆仑万维的业务重心,也踩在了行业发展的主旋律上:多模态闭环正在成为全球 AI 厂商的必争之地,谁能率先跑通并规模化落地,谁就可能在新一轮的产业洗牌中占据制高点。
昆仑万维 2025 年 Q1 财报数据显示,经营性现金流净额增长 58.3%,显然,2024 年 15.4 亿元的研发投入正持续转化为营收增长动能。这验证了 AI 技术商业化的可持续性,使昆仑万维成为国内首个跑通“研发投入——产品变现——现金流反哺”闭环的 AI 企业。
Matrix-Game 2.0 只是其中一个信号,本次技术发布周,昆仑万维还带来了视频生成模型(Skyreels)等模型、生图一体化模型、智能体,这些产品将在短视频、直播带货、具身智能、游戏等领域大放异彩,率先实现商业化。
昆仑万维将持续迎来营收增长,技术产品矩阵持续落地,真正迎来技术和商业的同时加速,这一切正在发生!雷峰网(公众号:雷峰网)
1、技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
2、项目主页:https://matrix-game-v2.github.io/
3、HuggingFace地址:https://huggingface.co/Skywork/Matrix-Game-2.0
4、GitHub地址:https://github.com/SkyworkAI/Matrix-Game
雷峰网原创文章,未经授权禁止转载。详情见转载须知。