首页 / 雷锋网 / 正文

Gemini 3 登场后,哈萨比斯要「改造」Google 全系产品

雷锋网 2025-11-21 19:33:06

在人工智能竞争全面升温的当下,Gemini 3 的登场无疑再次把 Google 推上了聚光灯的中心。

这一代模型上线后也是迅速引发技术圈热议,无论是推理、多模态处理,还是工具调用的稳定性,都展现出显著的提升,被许多人视为 Google 近年最稳健、最成熟的一次升级。

在热度持续攀升的同时,Google DeepMind CEO 德米斯·哈萨比斯接受了一场访谈,系统谈起了 Gemini 3 背后的研发过程,并谈到团队正在推进的能力、内部仍处于原型阶段的方向,以及 Google 心中下一代智能体的样貌。

随着访谈逐步展开,话题从模型能力的强化延伸到更具前瞻性的主题,包括记忆与个性化系统、工具级代理的应用方式、Antigravity 在开发生态中的定位、内部高成本模型的试验现状,以及多模态在医学与科研领域的潜在价值等,细节中透露着 Google 内部对模型演进的真实判断。

对此,AI 科技评论将访谈内容做了不改变原意的编译:

Gemini 3 登场后,哈萨比斯要「改造」Google 全系产品

播客地址:https://podcasts.apple.com/us/podcast/the-state-of-ai-with-rowan-cheung/id1689006106

Gemini 3 的核心进步

主持人:Dennis,非常感谢你在百忙之中抽出时间来和我们对谈。今天我们想把焦点放在 Gemini 3,也就是 Google 目前最先进的旗舰模型上。如果只能用一句话概括,你认为这次发布的意义究竟体现在哪里?

哈萨比斯:如果只能说一句话,我会认为它的重要性在于,它延续并进一步强化了过去几年 Gemini 一直坚持的技术发展方向。这一代模型在整体表现上的进步让我们非常振奋。

我相信用户在实际使用时也会相当意外,因为从各种基准测试到不同类别的任务,我们几乎在每一方面都看到全面提升,包括推理能力、工具使用的稳定性与可靠性、语言表达的准确度与创造力等,每个维度的加强都十分显著。

主持人:假如我们把时间拨回到 Gemini 2.5 发布的那一刻,再和现在的 Gemini 3 相比,这段时间里出现了什么关键突破,使得模型在基准测试中达到了如今的水平?

哈萨比斯:我们在许多层面投入了巨大的努力。2.5 作为前一代模型已经非常成熟,不论是在开发者生态,还是在各类 Gemini 应用中的表现都相当令人满意。不过我们并不满足于此,在许多核心能力上仍希望继续前进。

例如工具调用的准确度、使用过程的一致性与稳健性,这些都是用户极为依赖的部分。对编程和技术工作者而言,这类能力直接决定体验质量,同时对一般推理任务和日常用户的使用也有极强的影响。

除此之外,我们也花了很多时间去优化模型的风格、表达方式以及人格特质。我们希望它的对话风格能更加直接、更加清晰,也更专注于用户真正的需求,同时又能让人感到自然可信。

根据内部的广泛测试,新版本的模型在交流体验上比以往更轻松愉快,许多测试者表示愿意与它保持更长时间的互动,因为新的表达方式更贴近真人交流。

主持人:在编程和推理方面的提升确实很突出。但对那些并非开发者的普通用户来说,他们已经习惯了以往的 Gemini,用了新的版本后他们会突然发现哪些今天还无法做到的事情呢?

哈萨比斯:这要看每位用户的具体使用方式,不过在我们覆盖不同领域的测试中,几乎所有类型的体验都出现质的跃升。举例来说,如果你用它进行头脑风暴,它会提供更加多样、更加精准,也更符合语境的建议。

在编写代码时,它能更迅速掌握你的意图,也能更可靠地处理复杂逻辑,从而减少来回沟通。在创意写作、文本润色、材料总结和日常辅助等常见任务里,新的模型不仅在准确度上明显提高,语言的自然度和流畅度也大幅增强,整体给人一种智慧水平明显上升的感觉。

在交流风格上,新的模型更加自然,回应的节奏更像人与人之间的真实对话。在工具使用方面,你会感觉它在后台处理的步骤更多也更细致,对于搜索等工具的运用更加恰到好处,而随着工具调用的稳定度与可靠性显著提升,呈现给用户的最终内容也更加准确可信。

总的来说,如果你是一般的 Gemini 用户,你会很直观地感受到它在各个方面都变得更强、更聪明、更好用,也会更愿意让人持续与它保持对话,因为它带来的整体体验更顺畅,也更令人信赖。

主持人:我注意到这次的发布信息中并没有特别提到记忆功能,这一点让我格外好奇。Google 在跨产品生态上的优势非常明显,从 Gmail 到 YouTube,再到地图和其他服务,你们拥有海量用户数据和极大潜力的整合空间。

坦白说,如果要找一个最能吸引我持续使用 ChatGPT 的理由,那就是它近期加入的小型记忆功能,这对我个人体验的提升非常显著。那在 Gemini 的长期规划里,你们对于类似能力的推进是如何思考的?

哈萨比斯:我们目前在个性化、记忆能力以及长期上下文理解这几个方向上都投入得非常深入。我认为这会是我们进入 Gemini 3 时代之后的核心主题之一,换句话说,我们正集中力量强化这些能力,并会在接下来逐步展示更多实际进展。随着 Gemini 3 系列进一步完善,你会看到我们在这些领域展开更多讨论与揭示。

当然,现在亮相的还只是模型家族的一部分,未来还会继续扩展。我们已经在模型内部预置了许多能力与潜在结构,会在之后逐步向用户和开发者开放,让他们能够在实际产品和开发接口中真正用到这些增强功能。

这些方向的推进将包括更深入的个性化体验,使模型能够逐渐理解用户的长期偏好与习惯。同时,它也会更紧密地连接到 Google 的各项服务,例如 Gmail、日历等。事实上,你现在已经可以看到一些初步的整合效果,不过那只是整体规划中极小的一部分,未来的蓝图要比现阶段呈现的丰富得多。

Gemini 3  的能力基础已经足以承担这一系列大规模推进的任务,而模型在工具调用与工具使用方面的稳定性和可靠度,也将成为它能够安全连接外部服务的根本条件。

主持人:从基准测试和整体表现来看,它显然实力非常强。我只是觉得它似乎来得有些晚。我本身是 ChatGPT 的重度使用者,而 Gemini 在不少基准中领先,又拥有 Google 的庞大生态作为支撑。我理解你无法给出精确的时间表,但能不能给一个大致的范围,关于真正意义上的记忆能力什么时候会在 3.0 系列中开始推出?

哈萨比斯:我们目前在内部不断测试各种设计与方案,并且在不同方向上反复迭代。当这些能力经过充分打磨,我们对它们的稳定度与可靠性都感到足够放心时,我们会尽快对外公布。我们非常清楚用户对此的期待,也知道记忆能力对用户体验有多重要。

与此同时,我们也在推进更高效的模型版本,包括体量更轻但性能仍然保持在高水准的版本。这样才能在全球范围内以更低的成本提供大规模服务,也让更多用户能够受益。现在我们正在进行的各类原型实验非常令人振奋,而你很快就会看到这些努力逐渐转化为实际成果。

另外还有一点,我必须特别强调,那就是这次的新模型在多模态方面的表现给我留下了极深的印象。你知道,Gemini 一直在多模态领域处于领先地位,无论是跨模态推理、跨模态理解,还是图像与文本的联合生成,都一直保持着顶尖水准。像图像分析、视频理解、复杂结构识别等任务,上一代的表现就已经非常优秀,而这一次我们又进一步把这方面的能力整体提升到全新的高度。

我相信普通用户在日常使用中会明显感受到这些多模态能力带来的直接提升。随着时间推进,我们也会把这些能力更深入地整合到更多产品和场景中,例如 YouTube、AI Studio 以及其他类型的应用。未来你会看到它们逐步落地并真正发挥作用,而这些新的多模态能力会让用户体验到许多过去无法实现的交互方式,我对此充满期待。

Antigravity 的角色

主持人:我也非常期待能够全面测试它,并看看全球的开发者与用户会用这些模型创造出什么样的成果。同时,除了 3.0 这一代的新模型,你们这次还推出了 Antigravity,一个全新的智能代理开发平台。

从介绍来看,它的定位几乎像是让每位开发者都拥有一位专属的 AI 同事,能够同时在编辑器、终端以及浏览器环境里协助完成任务。但在你看来,相较于目前市场上那些已经颇为成熟的智能编码工具,Antigravity 最大的差异和价值体现在哪里?

哈萨比斯:我认为 Antigravity 会在未来持续快速演进,不过我们的核心理念自始至终都非常明确,那就是从智能代理的角度重新想象整个开发体验。

我们在问自己一个根本性的问题,如果让智能代理成为开发的中心角色,那么一个真正理想的 IDE 应该呈现出怎样的形态。我们对于 Gemini 的长期发展方向有非常清晰的路线图,而 Antigravity 正是其中不可或缺的关键结构。

同时需要强调的是,在 Antigravity 的体系中,你完全可以使用不同的模型,它并不依赖于单一的选择。我们真正想实现的,是从底层重新构建一个围绕代理能力运作的开发环境,让所有功能与交互都能够自然围绕智能代理而展开。

负责这个方向的团队中有许多来自过去构建复杂编辑器工具的专家,例如原 Windsurf 团队的成员,他们在相关领域的经验与专业程度极具深度,这为我们重新设计开发工具提供了强大的基础。

我们对这一方向真的相当兴奋,目前在 Google 内部已经有很多团队在实际使用 Antigravity,而这是我们推动任何开发工具时最重要的第一步。内部工程师普遍反馈,使用它的体验十分顺畅,效率提升非常显著,这让我们更加确信我们正在朝着正确的方向前进。

不过我认为,我们现在所看到的仍然只是整个旅程的开端。随着模型能力不断增强并变得更可靠,我们也必须重新思考专业开发者真正需要的完整开发体验究竟是什么。这不再仅仅是为了轻量的工具爱好者,而是面向专业工程师的深度开发生态。

专业开发者在他们的环境中真正需要什么样的协作支持、自动化流程、代码洞察与问题诊断?Antigravity 是我们第一次严肃地试图回答这些问题,并据此构建一套完整的路线图。

与此同时,我们还有 AI Studio,这对于个体开发者、兴趣创作者以及一般用户来说可能是更合适的入口。未来我们会根据用户的专业背景、团队规模、使用场景以及协作复杂度,提供不同方向的产品界面与工具组合。我相信 Antigravity 会成为其中非常关键的一部分,也会让专业开发者感到真正的兴奋。

主持人:所以整体来说,Antigravity 的定位确实更加贴近专业开发者,而不是那种偏向体验性质的轻量化编码方式?

哈萨比斯:目前的确如此,我们最主要的目标群体是专业开发者。不过我们同样希望未来能够让不同层级的开发者都能从中受益,无论是刚入门的初学者、兴趣驱动的业余开发者,还是经验丰富的资深工程师,都能够在这个体系里找到适合自己的方式。

内部模型与研究布局

主持人:说到你们内部大规模使用 AI 工具,我有一个长期以来的疑问。我听说 Google 内部已经在大量场景中依靠 AI 生成代码。

那么我很好奇,你们是否拥有一些外界无法使用、只对内部开放的模型或工具,让你们能在正式发布前提前受益。你们在推出新功能之前,通常如何在内部测试这些工具?是否会有一些功能为了保持领先优势而暂时只在内部使用?

哈萨比斯:我们内部确实一直运行着许多额外的实验模型和工具,同时也有一些因为技术难度或成本问题还无法立即面向大众开放。

举一个比较典型的例子,像 Genie 就属于目前暂时无法大规模公开的能力。我们当然很希望能让所有用户都顺畅使用它,但现阶段它的推理与服务成本仍旧非常高,不太适合在全球范围内同时运行。我们正在研发更高效的版本,希望能逐渐把成本压低到可以面向更广泛用户开放的程度。

还有一些深度推理类的模型,目前也只能在 Ultra 等高端层级中使用,原因同样是它们的资源消耗极其昂贵。我们正在不断优化它们的执行效率,目标是把它们的成本降低到能够为更多用户提供服务的水平。

所以整体来说,这并不是我们刻意保留某些能力,而是受到算力、硬件以及物理资源的限制。只要我们能够在合理成本下部署某项功能,我们通常都会尽快把它开放给所有用户。限制我们的不是策略,而是现实条件。

当然,在研究层面,我们内部始终进行着大量探索。这是一个顶尖前沿研究实验室的日常状态。我们的研究范围既广且深,可以说在全球范围内都非常领先。

我们不断寻找下一个重大突破,例如类似 AlphaGo 或 Transformers 那样的根本性技术跃迁。世界模型就是其中一个面向未来的重要方向,我们在这方面持续进行大量实验。当它们足够成熟,具备稳定可靠的表现时,我们就会把这些能力带给用户。而在此之前,它们会以内部原型的形式不断迭代和完善。

除此之外,我们在硬件与软件交互方面也保持着积极探索,例如眼镜助手等未来型产品。这类产品都会在内部经历很长时间的测试和打磨。只有当我们觉得它们真正准备充分,才会正式呈现给全球用户。

Gemini 的产品化与愿景

主持人:我注意到你们的发布节奏似乎越来越快了。3.0 一上线就直接进入搜索,这在以前从未发生过。我很好奇,你们现在如何看待发布速度这件事?

哈萨比斯:你的观察非常准确,这确实是我们正在大力推进的一项核心目标。我认为 2.5 是一个特别关键的节点,那是我们第一次把世界模型快速深度整合进 Google 的核心产品体系。

你在开发者大会上看到的那些展示,当时很多人都对整合速度感到震惊。而到了 Gemini 3,我们再次把节奏提升到更高水准,一开始就直接在搜索和 AI 模式中上线。这是我们过去几个月非常集中精力在优化的方向。

如果你把 Google DeepMind 看作 Google 的技术发动机,那么我们的职责就是确保所有主力产品都能被这些模型加速、增强和重塑。Google 拥有一个庞大、深入日常生活的产品生态,从地图到 YouTube,再到搜索与 Workspace,这些产品每天都触达数十亿用户。

我们的目标就是把 Gemini 及其背后的各项能力持续注入这些产品中,让用户能够在生活和工作中直接感受到模型带来的升级。现在这种正向循环已经开始出现。我认为我们大概走到这段路程的中部,前面还有许多令人期待的发展空间,而且我们完全有信心继续提升整合速度。

搜索是一个很典型的示范,它展现出我们理想中的技术整合方式。而接下来,我们要让整个产品体系都朝这个方向持续推进。

主持人:说到真正具有规模影响力的产品,Gemini 应用的月活跃用户最近已经达到六亿五千万了,先恭喜你们取得这样的成绩。

哈萨比斯:谢谢,我们对这个数字确实感到非常自豪,这代表着有越来越多的人在日常生活里真正使用并依赖这些能力。

主持人:在这样的用户规模下,我很好奇,除了大家已经很熟悉的编码场景之外,你们有没有观察到哪些使用方式特别突出,已经在普通用户当中被大范围采用了?

哈萨比斯:其实我们在数据和反馈里看到了非常多有趣的趋势。我个人认为,多模态能力是 Gemini 应用最核心、也最具差异化的优势之一。比如说 Nana Banana 这个功能上线之后,就明显带动了一大波用户增长。

用户用它做的事情非常多样,从替家人策划一场惊喜生日派对,到为某些国家或地区设计具有在地特色的小雕塑,再到创作连续分镜的漫画故事,各种创意层出不穷。

这些都依赖于多模态能力把图像、文字甚至视频结合起来,打开了很多过去根本无法想象的应用空间。Gemini 在视觉理解、图像生成、视频分析等跨模态任务上的表现非常突出,而这些特性也让它在实际使用中呈现出越来越多新颖的玩法。

我们还注意到,在健康和教育相关的需求上,用户的热情和频率都非常高。因此我们正在这些方向上大力投入,希望能够真正做到行业的一流水准。我相信,在这些领域里,Gemini 3 会成为一个非常重要的基础平台。

就我个人的日常习惯来说,我非常喜欢用 Gemini 来做头脑风暴。不论是给一个新项目取名,还是请它帮忙检查某个想法是否站得住脚,它都能以很高的效率给出有价值的反馈。Gemini 应用在这一类创意和思考辅助上表现得格外出色。

主持人:你刚才提到的一个点让我特别感兴趣,就是你认为 Gemini 有机会成为健康领域的基础平台。能不能多谈一点這部分的设想。毕竟你的背景里在医疗和生命科学方面有很多经验。

哈萨比斯:当然可以。其实在这个方向上,我们已经有不少具体项目在推进,例如 Co Scientist 这一类帮助科研和实验流程的工具。我们还有一个名为 Amy 的医学诊断系统,由更偏研究导向的团队负责开发。我们的目标是,未来能够把这些分散的能力逐步整合进完整的 Gemini 架构中。

我希望科学家和研究人员今后可以把 Gemini 用作一个真正的思维伙伴,帮助他们激发新点子、组织研究流程以及分析复杂问题。在我看来,Gemini 3 已经提供了一块足够坚实的基础,可以支撑这一类严肃的应用场景。

接下来你会陆续看到,这些能力会在不同版本的 Gemini 3 中逐步释出,包括更加面向深度研究和深度推理的系统,它们都是在 Gemini 3 的整体结构之上继续延伸出来的。

由于 Gemini 3 在推理和工具调用方面的可靠性大幅提高,它在引用资料、理解学术论文以及梳理专业知识结构时的表现也会随之提升。多模态能力恰好又是医学和教育领域非常关键的要素。举例来说,用户可以上传一张诊断相关的图像,询问它可能代表什么含义;或者给它一篇学术论文,要求解释文中的图表和文字之间的对应关系与逻辑结构。

在教育场景下,学生可能需要为一门课程设计一张海报,可以先输出文字内容,再让模型根据主题生成合适的视觉元素和排版建议。这类任务充分体现了多模态的价值。

我非常期待人们在这些场景中用 Gemini 3 做出更多前所未有的尝试。而在整个过程中,Gemini 应用自然会成为最主要、也最直观的入口。

主持人:对于这些方向我也感到非常兴奋,尤其是医疗和教育领域。再往更远的未来看一个问题,你们是否会考虑让 AI 在主动性的预防医疗方面发挥作用?

哈萨比斯:在我们的科学团队和健康团队内部,这确实已经是正在研究的方向,也就是构建一个真正意义上的医疗级系统。这样的系统通常需要严格的监管审查和非常高的安全标准,必须保证极高的可靠性才能投入实际使用。

显然,Gemini 应用本身并不是医疗级工具,它更适合作为用户的日常辅助。遇到健康问题,用户仍然需要向专业医生咨询。但它确实有潜力在许多资源匮乏的地区发挥巨大作用,尤其是在缺乏基础医疗或教育服务的区域。凭借 Google 的全球覆盖能力与安卓生态体系,它们在这些地区已经承担着关键的数字基础设施角色。我相信 Gemini 能够提供最基本层面的知识与辅助,对当地人产生实实在在的帮助。

与此同时,我们也会持续探索医学助手或研究助手等更高层级的应用场景。但是这些用途都要求模型达到更高的可靠性门槛。Gemini 3 已经为此迈出了扎实的一步,但距离满足医疗等高风险场景仍有很多工作要做。

医学和科学研究是我个人非常关注的方向,我们希望 Gemini 能成为这些能力的核心底层,从而推动整个体系不断向外扩展。我对 Gemini 3 的进步感到满意,但这只是整个旅程的开端。如果我们希望模型真正能够承担医疗级角色,就必须进一步构建多层级的安全性与可靠性,而我们正在投入大量研究,以让这一切成为可能。雷峰网

主持人:明白了。这确实会影响到数十亿人的生活,我对此非常期待。接下来我们换一个角度,谈谈 Gemini 在现实世界中的实际使用场景,也就是用户目前已经能够做到的事情。

这次发布让我特别注意的一项能力,是 Gemini 应用里新增的代理系统。这项功能允许你连接 Gmail 等服务。虽然过去 Gemini 也能访问 Gmail,但如今的体验完全不一样。它不仅能为你列出步骤,更能直接替你执行任务,例如在 Gemini 中就能完成邮件发送。

随着我们逐渐迈向一个更完整的人工智能时代,Gemini 看起来越来越像一个真正意义上的生活助理,几乎嵌入到用户的数字生活里。我很好奇,在你的设想里,这个数字同事的终极形态是什么。你会希望 Gemini 成为像 Slack 一样每天必须打开、始终伴随的独立平台?还是更希望它作为众多工具中的一个?

哈萨比斯:我当然希望它能够成长为那样的存在。我们内部一直在构思一种通用助理,这也可以被视为未来形态的 Gemini,它能够在用户日常生活的每一个阶段都发挥作用。

它不仅是你处理工作中复杂任务的最佳助手,也可以陪伴你在休闲、娱乐或探索兴趣的时间里,为你提供建议、提出灵感,并与您展开自然、轻松、富有启发性的交流。

同时,它不应该局限在单一设备上,而应以多种形态伴随你出现。你可以在电脑上使用它,也可以在浏览器中调用它;你可以在工作中依赖它,也能在家中轻松与它互动。它会出现在你的手机里,并且未来很可能还会以下一代智能设备的形态存在,例如智能眼镜。我非常确信这会是未来的方向之一。

要实现这样的目标,最重要的基础是一个真正强大的多模态模型。Gemini 的意义正在于,它能够理解用户所处的真实世界、实时情境,并具备调用外部工具的能力。起步阶段我们会围绕 Google 自家的应用展开,例如地图、Workspace、电子邮件等,但最终它必须能够连接任意工具,成为真正通用的智能体。

当这些能力成熟之后,我们将迈入一个全新的时代。那时,用户会拥有一个像现实中最优秀私人助理那样的数字伙伴。我们的愿景是让这种帮助能够普惠,让每个人都拥有这样的智能支持,而不是只有少数人可以享受。

这将深刻改善人们管理事务的方式,让我们重新夺回时间与注意力,把更多精力投入在真正重要、有价值的事情上,而不是费时费力的重复性流程。这是我特别重视的目标,我相信 Gemini 正在为这个未来奠定深厚基础。雷峰网(公众号:雷峰网)

主持人:非常期待看到这一切的到来。谢谢你今天的分享。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

Gemini 3 登场后,哈萨比斯要「改造」Google 全系产品