AI 正重塑机器人的技术边界,而具身智能,是下一个战场。
AI 带来了新变量,也提出了新挑战。一旦实现足够的泛化能力,机器人将在家庭和工业等场景彻底改写体力劳动的边界,加速从“专用”迈向“通用”的跨越。而这背后,是基于大模型或 AI 驱动的技术壁垒重构。
具身智能也由此成为新热词。
2024 年,越来越多来自智能驾驶的人才加速涌入具身智能领域。车与机器人的高度相似性——都需要融合感知、决策与控制,都在走向端云协同与自学习系统——让不少人试图以智能驾驶的演进逻辑来推演机器人的发展路径。
地瓜机器人正是在这样的背景下,从地平线中拆分出来独立运营,转向这场新战役。
从十年沉浮的智能驾驶,迈向仍处原野的具身智能,地瓜机器人带着对闭环系统的理解与工程化经验,试图用一套更“知道怎么落地”的思路重构机器人技术堆栈。
6 月 11 日,地瓜机器人召开了一场媒体沟通会。会上,CEO 王丛、开发者生态副总裁胡春旭深入浅出地解释了他们如何判断下一波具身智能的爆发点——又将如何从芯片、系统到工具链,重建一整套属于机器人的基础设施。
复用的方法论
自 23 年下半年以来,一个高度收敛的行业共识开始形成:具身智能将是AI下一阶段最具想象力的落点,随之而来的是融资频率与估值水位的持续抬升。但现实是,机器人行业还处于非常早期的阶段——技术路线尚未收敛、行业标准缺乏、机器人形态高度异构、需求零碎且散。
一个不争的事实是,无论是清洁、配送还是巡检,每一类机器人都需要 AI,却又缺乏统一的系统性基础设施。
浓烈的市场期待,与技术落地的分散,一度形成喧嚣的错位。
但无论如何演化,有一点是清晰的,当一个新兴行业进入爆发前夜时,必须建立统一、可扩展的底层标准。越早搭建标准、建立生态壁垒,就越早抢占技术与平台的先机。历史上,Wintel 联盟、ARM+安卓体系已经验证了这一路径的确定性。
地瓜机器人选择自研底层基座,正是基于这样的判断:只有足够通用,才能够承载多样化的机器人形态,真正支撑起“平台级”的可能性。这不仅是产品决策,更是一场技术栈的长期布局。
如何在喧闹中找到真需求?过去十年驾驶的发展路径,或许能带来一些答案。一位业内人士告诉 AI 科技评论,从智能驾驶到机器人,更多是方法论复用,涵盖数据流、模型架构、仿真环境、模型接口等。
本质上,智能车也是一种具身智能体:同样由算力驱动,同样以模型和数据为核心资源。区别在于,汽车作为工业成熟度极高的载体,早期数据积累路径更清晰,场景更可控。因此今天的智能车已进入比拼系统工程能力的阶段,硬件已不再是核心难题。
这同样启发了具身机器人行业:电机的扭矩控制、关节灵巧度、负载能力等虽然仍有技术提升空间,但现阶段最大的挑战,或许不再是硬件本身,而是系统整合、数据闭环与算法工程化的协同效率。
目前来看,机器人硬件架构与 AI 模型的演进仍处于多路径探索中。
具身智能的典型能力模型是“感知—决策—行动”三位一体。在此之上,行业逐渐分化出两条技术路线:一是分层架构,强调模块化和工程可控性;二是端到端路径,追求算法的极致泛化与协同。前者对数据的依赖较低,部署门槛较低,但难以适配复杂场景;后者虽然具备更强的通用性和任务适应力,但前提是需要海量高质量数据支撑。
目前分层与端到端两条技术路线在机器人领域尚未定论,但在汽车场景中,这两条路线已有所验证:
早期,智能驾驶主要采用传统的分层架构,端到端的技术理念虽有兴起,但影响有限。自 2018 年起,差异逐渐明确。一面是以特斯拉为代表的企业在端到端上不断做探索,另一面则是传统车企和科技公司仍然坚持分层架构。2024 年,技术路线进一步分化。理想、小鹏、蔚来等新势力纷纷宣布转向端到端架构,同时分层架构也在引入新技术与算法,如华为乾崑 ADS 3.0 引入端到端大模型架构,但仍采用感知 + 决策分层的 GOD + PDP 架构。
可以看到,在智能驾驶中,分层路线已经大规模落地,而端到端方式迅速崛起后正逐步落地。
以汽车类比,当下机器人发展阶段大概与 L2 与 L3 的汽车阶段相似,那落地最快的方式正是分层架构。分层架构虽然泛化性存在不足,但整个稳定性和数据需求相对没有那么苛刻。而端到端架构,是围绕一个数据飞轮来构建全流程。
胡春旭指出,未来机器人从“专用”到“通用”,必然会以端到端方式为主导;但在当下,如何更快落地、找准场景,是更为紧迫的现实需求,因而大小脑的分层架构落地会更快。
相比智能驾驶,机器人当前面临的最大挑战并非算法或模型,而是高质量数据的严重匮乏。
汽车场景天然更具结构化:道路规则明确、环境相对稳定,且车足够多,数据采集效率高,成本也相对可控。以特斯拉为例,截至 2024 年,全球已有超过 600 万辆车在路上奔跑,形成了庞大的真实驾驶数据池,也为模型训练提供了坚实基础。
而机器人的世界复杂得多。机器人不仅要解决动态环境下的物理交互难题,还要在家庭等私密空间中获取数据,面临更高的数据采集门槛。同时,不同形态的机器人带来系统异构,数据格式不统一,进一步加剧了训练难度。数据稀缺、分布不足,机器人正深陷“数据饥渴”,这也成为具身智能迈向规模化应用的核心瓶颈。
面对数据难题,业界主要采用两条路径:
一是生产数据,通过仿真、生成、合成等手段搭建数据金字塔,提升长尾场景的覆盖率;
二是优化算法模型,提升效率与性能。例如 DeepSeek 采用稀疏 MoE 架构,仅激活 5%-10% 参数推理,配合 FP8 混合精度训练,显存降 30%,训练提速翻倍;
对此,地瓜机器人也给出了自己的解法,两端发力。第一步,是打造具身智能工具链云平台,覆盖业内最大规模的并行化训练场与最完整的训练工具链,旨在提升数据生产效率,加快模型训练闭环。
“目前行业普遍缺乏统一 benchmark 和标准数据集,导致算法难以横向比较和持续迭代。”多位行业专家曾向 AI 科技评论指出。这种分裂的状态,已成为科研到工程转化过程中的一大痛点。
地瓜机器人平台内置专用 3D 数据库,并通过高度并行的物理仿真环境生成各类长尾场景,辅助模型完成对复杂动作的模拟与验证。与此同时,还支持模型在仿真和实机之间的快速迁移,加速具身智能模型迭代周期。
第二步,在算法侧,地瓜机器人也在构建开放协作生态。CEO 王丛透露,团队已在 CVPR、ICRA 等国际会议上发布多项具身智能相关成果,并与国内多所高校建立合作机制,围绕 Manipulation、导航等关键任务优化模型,并逐步开源部分算法代码和训练脚本,便于行业开发者快速复现与集成。
重回焦点
数据是具身智能的突破口,一旦打开,将催生大量机器人模型,走向真正部署。但数据难题并非一蹴而就的工程,而是一个典型的闭环过程,必须在持续迭代中形成正循环。
如前所述,端到端架构需分阶段实现,大小脑分层架构是当下更快落地的方案。而大小脑的核心是大小模型的深度融合,需要兼顾低功耗和多样化算力组合的单 SoC 计算平台。
随着具身智能从人工设计算法向数据驱动模型演进,其对底层计算能力提出新要求:不仅追求 TOPS,还需要低延迟响应与控制闭环能力,并能承载更复杂的多模态模型。传统的 CPU、GPU、MCU 架构分散,灵活度有限,而市面上也缺乏能统一调度多种计算单元、兼顾决策与控制需求的 SoC 产品。
6 月 11 日,地瓜机器人推出 RDK S100 算控一体化机器人开发套件,采用异构架构设计,在单一 SoC 上整合了机器人所需的几乎所有处理单元,包括用于通信和逻辑决策的 CPU、用于模型推理的 BPU、用于底层高频控制的 MCU,可同时兼顾感知推理和实时运动控制的计算需求,并减少系统的体积和复杂度。
CPU+BPU+MCU 的异构设计,是 RDK S100 的灵魂。它以单芯片实现对大模型感知推理与底层实时控制的协同调度:
大脑:由 6 个 Cortex-A78AE 高性能 CPU 核与新一代 BPU 纳什(Nash)架构组成,具备高达 100K DMIPS 算力,支持 Transformer 等模型的高效推理与复杂任务规划;
小脑:由四核心 Arm Cortex R52+ 实时 MCU 构成,提供 6K DMIPS 的运控能力,满足低延迟、高频次的底层控制需求。
据胡春旭介绍,与之配套的 BPU 纳什架构,是地平线继“伯努利”“贝叶斯”之后的又一代进化产品——前者针对 CNN 进行了结构级优化,后者则专注于 Transformer 的高效加速。如今,纳什架构在算力与功耗之间找到更优平衡,并支持 80、120TOPS 灵活配置,适配不同形态的机器人应用。
为什么偏偏选择百 TOPS 算力级别?这是出于对当前落地场景的判断。
胡春旭表示,这一级别算力最适配的落地场景包括商业化清洁、园区或户外的低速物流车,以及执行巡检任务的四足机器人等。这类场景普遍具备环境结构化、任务可控的特点,对算力的需求也相对温和,有助于在成本、功耗与功能之间找到平衡点,更容易在短期内实现规模化产品落地。
从市场和技术的反推角度看,先落地、再演进,是更为现实的路径。
在产品战略上,地瓜机器人正形成“有梯度”的算力组合:从 10 TOPS 的 RDK X5 到百 TOPS 级的 RDK S100,分别对应对控制强实时性与对模型强感知性的场景需求。
为了支撑具身智能的大模型部署,RDK S100 也支持多模型高效协同运行,从轻量级视觉模型到 LLM 等高语义层任务,打通多模态输入与多样化运动执行之间的链路——最终构建“感知-决策-控制”闭环体系,推动机器人在认知能力与交互能力上同时升级。
更进一步,围绕该芯片平台,地瓜机器人构建了完整的软硬件协同栈,涵盖深度适配的 ROS 操作系统、算法工具链、模型仓库与云端训练平台,从芯片级能力到开发者生态形成闭环,构建属于机器人的“端-云协同基础设施”。
王丛表示,“从底层芯片出发,我们搭建了一整套面向具身机器人的基础设施。它不仅要通用,还要够用、好用,为行业提供真正能落地的‘地基’。”
在未来具身智能时代,“通用机器人”将不再是遥远愿景,而是在数据与算法双轮驱动下,以“小步快跑”的方式逐步实现。而落地的关键,始终是算力与数据两端的闭环联动。
结语
2024年,机器人与大模型开启相互渗透、快速发展阶段。
地瓜机器人选择从“卖铲子”做起,从芯片到操作系统、从算法仓库到数据云平台,搭建具身智能的底座,是一场关于标准、生态与工程化能力的持久战。它既延续地平线在车载智能领域的技术脉络,也主动切换至机器人这一新战场,将经验转化为判断,将判断转化为产品。
这是一条从趋势中反推产品、从应用中反推架构的路径。是面对“数据饥渴”与“需求碎片化”困局时,不盲目卷模型参数,而是在算力、能效与生态适配间,寻找更实际的解法。
正如地瓜机器人所说:“要先找准能落地的场景。”
在巨大的智能化想象力背后,真正需要回答的问题,是哪类机器人可以率先规模化落地?哪类计算架构更适配当下的数据与工程现实?以及,谁来为这类场景提供标准化、可复制的底层技术栈。
这是技术公司在下一盘比模型更深的棋。
雷峰网雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。