跳转到正文
莫尔索随笔
返回

Gemini 3 惊喜:生成式 UI 交互、AI 编程 Antigravity 与模型创新

预计 15 分钟

第一时间捕获有价值的信号

作为一个不喜欢追热点的人,Gemini 3 Pro 模型确实给了我太大的惊喜,昨天花了一整天时间在使用,不得不写一篇文章来全方位夸夸了,本文要聊的内容主要涵盖三个方面:一是以 Visual Layout 和 Dynamic View 功能为代表的生成式 UI 能力解析;二是对谷歌 AI 编程工具 Antigravity 的解读,包括对其系统提示词的逆向分析;三是结合官方发布的模型系统卡及主要研发负责人的公开言论,从侧面探讨其在训练方法上的创新之处。

欢迎订阅合集 AI 冷思考:个人在 AI 狂欢下的冷思考,聚焦 AI 工程化、Agent Infra 产品、效率型 AI 工具和人机协作话题,寻找可持续的产业价值。

Gemini 生成式 UI 能力:AI 交互的未来

功能说明

生成式 UI(Generative UI)这个概念不新鲜,不止谷歌在搞,之前的 ChatGPT Pulse 就是一种尝试,已经有很多人认为这代表了未来我们与 AI 互动的新方式,毕竟传统的 AI 交互方式存在很大局限,因为无论语言模型多强大,用户最终看到的仍是线性文本输出,这对于复杂知识、空间关系或交互任务的呈现极为不利。简单来说,就是让 AI 不只是用文字或图片来回答你的问题,而是能直接为你创建一个可以操作的、可视化的界面,就像 DeepMind 研究团队讲的 “如果 AI 可以理解我的问题,为什么不能直接为我生成一个合适的界面去解决它?”

生成式 UI 能力首次在 Gemini 应用的两个实验功能中上线,分别是动态视图(Dynamic View)和视觉布局(Visual Layout)(是随机掉落的,我问了周边的朋友,均没有被灰度到 🫠),不过可以在谷歌搜索的 AI 模式(切换为 Thinking 选项)中体验到,但范围也仅限于美国地区的 Google AI Pro 和 Ultra 订阅用户,这里我用的美区谷歌账号和美区 🪜 解决的。

Gemini 应用的两个实验功能

使用体验

视觉布局

首先是视觉布局功能,我体验下来就是结构化组织多模态的内容。 以“上海到成都的行程计划”为例,如截图所示,信息通过图文、表格等形式按最优呈现方式清晰展示(部分案例还包含视频或音频讲解,这个例子不太需要)。最牛的是交通方式部分提供可点击链接,直接跳转至机票或高铁票预订页面;推荐餐馆则标注其在谷歌地图上的位置及店铺评分(这个在国内用处不大)。

生成式UI 能力的视觉布局功能

动态视图

使用动态视图时,Gemini 会利用其编程能力,为每个请求动态生成定制的交互式界面。这里我想了解“太阳系行星的运行方式”,Gemini 自动生成了一个直观的交互工具,支持控制行星名称的显示、运行速度调节,以及是否启用行星运动轨迹的拖尾效果(细节满满,绝了!)。此外,Gemini 能够根据用户的背景和需求调整内容呈现方式:向 5 岁儿童与成年人解释同一概念时,所采用的内容深度和交互形式截然不同;同样,展示企业社交媒体内容与个人内容时,界面设计也各不相同。

生成式UI 能力的动态视图功能

官方在论文《Generative UI: LLMs are Effective UI Generators》中介绍了生成式 UI 能力实现架构,核心由三部分构成:

  1. 工具访问:AI 可调用外部工具(如图像生成系统、搜索引擎、代码执行模块等),利用其结果生成更高质量的内容,或直接将输出传递至用户浏览器以降低延迟;
  2. 系统级指令集:AI 在后台接收明确的系统指令,规定界面类型、代码格式、设计风格等要求,确保生成内容结构清晰、风格统一且可正确运行;
  3. 输出后处理:AI 生成结果后,经多层算法进行修正与安全检查,包括验证代码可执行性、修复常见错误、保持视觉一致性以及确保内容安全。

生成式UI 能力实现架构

个人思考

生成式 UI 的话题我在之前的聊 Vibe coding 还是 AI 辅助编程的文章中谈到过,看起来模型能力跟上了,半年前的预期很快就变成现实了,下面是我当时的观点。

Cursor 会演进为一个名为 VibeX的工具,允许用户创建一种全新的媒介形式。这种媒介将以 VibeX 编码为基础,融合图表、声音、3D 模型等多种元素,以最适合表达单点信息的方式呈现内容。它将不再是单一的视频、音频或图片,而是一种高度组合化的表达形式。这种表达形式让用户能够:

  • 视觉上观察抽象概念
  • 听觉上感受波动特性
  • 理性上理解数学公式

每个元素都针对传达特定信息维度而优化,形成比单一媒介更丰富的认知体验,超越传统的”写文章 → 录音频 → 做视频”的线性创作模式。

那么作为个人用户,需不需要个性化的、即生成即用(create-as-you-go)的生成式 UI,这个作为新话题可以聊的角度很多,我的观点是部分生产力场景需要,能否作为新的内容消费形态还待商榷,生产力典型场景,比如通过交互式可视化手段将抽象知识具象化,提升理解效率,促进教育与科学传播,为专业辅助与数据分析提供支持,在企业或科研环境中,自动生成可操作的数据仪表板、模拟实验界面等。

生成式 UI 使 AI 不再局限于回答问题,而是构建一个供用户自主探索和理解的空间,为学习、研究、创作及工作任务提供高度定制化的交互环境,针对复杂度较低的需求,未来或许无需下载特定应用、选择固定模板或掌握复杂工具,只需描述目标,AI 即可“即时生成”最匹配的界面。

关于生成式 UI、Vibe App 作为新的内容消费形式、创作社区的话题,大家可以分别看看YouWare 创始人的访谈,蛮有意思的。

AI 原生 IDE Antigravity:重构 AI 开发流程

功能说明

友情提醒一下,注册 Antigravity 时,大多数人会遇到从网页授权登录后,不能跳转到桌面软件的问题,试试打开 🪜 的 TUN(虚拟网卡)模式就可以解决。

首次启动 Antigravity 时,系统会提示你选择运行模式。这些模式按自动化程度从高到低排列:第一种为完全由 Agent 驱动,所有命令(包括如 rm -rf * 之类的高风险操作)均可自动执行,无需确认;官方推荐选择第二种——Agent 辅助开发模式,该模式在关键步骤会要求手动确认,安全性更高。

gemini-3-8

该 IDE 支持直接从 Cursor 或 VS Code 导入插件配置,全局快捷键也提供一键切换 Vim 模式。看到对 Cursor 和 VS Code 配置的支持,你可能会推测它是在 VS Code 基础上二次开发的——这没错,但它实际上更进一步:直接把 Windsurf (之前和 Cursor 一样火,被 OpenAI 收购失败后创始人带着部分员工投奔谷歌)这一套设计搬过来了,甚至部分变量名都没来得及改呢 🤣

gemini-3-9

此外,Antigravity 会提示用户安装浏览器插件 Antigravity Browser Control。该插件通过 Chrome DevTools API 驱动(而非基于 GUI 的 Computer Browser Use 方式),使 AI 代理能够自动执行网页点击、滚动、输入和导航等操作,适用于网页开发中的各类任务,如网站设计迭代、质量保证测试(QA)、监控仪表板维护以及日常流程自动化。Antigravity Browser Control 通过独立的 Chrome 配置文件管理浏览器访问,确保代理的浏览历史、Cookie 等数据与开发者的个人浏览器环境完全隔离,保障安全与隐私。由此,Antigravity 可实现对编辑器、终端和浏览器等多个界面的同步控制。

浏览器插件 Antigravity Browser Control

有专门 Agent manager 面板,支持多 Agent 编排,开发者可以通过 Agent 管理面板发布多个任务,让多个 Agent 同时运行,支持生成任务计划,开发者可以随时修改计划,在执行过程中, Agent 可以独立完成任务,如写代码、测试和验证。Agent 可以跨多个工作空间并行操作,理论上能大幅缩短复杂项目的开发时间,提升开发效率,看描述应该类似 Claude Code 的 Subagent 功能定位,支持单向简单任务指派和拿结果。

gemini-3-11

Antigravity 还引入产物概念,会生成任务列表、实施计划、截图和浏览器录屏等可验证的成果,方便开发者反馈和调整。

系统提示词

Antigravity 系统提示词包括用户设定 (identity,user_information,user_rules),系统功能 (tool_calling,web_application_development,workflows,function_calls)和上下文管理(knowledge_discovery, persistent_context) 三大块 9 个部分,长度在 1 万 token 作用,使用 xml 标签进行区分(完整的提示词在 谷歌 AI IDE Antigravity 系统提示词分析 查看),这里就不全贴了,只贴关键的部分。

Antigravity 内置工具

gemini-3-3

为了验证这个工具列表是否靠谱,我还测试了一下,模型的思考过程提到了 read_url_content、view_file 等工具。

gemini-3-12

Web 应用开发约束

将这组提示词设置在谷歌 AI Studio 或 Gemini 中后,也可以实现和 Antigravity 里一致的效果。

<web_application_development>

## 技术栈,

你的 Web 应用程序应使用以下技术构建:

1. **核心**:使用 HTML 构建结构,使用 Javascript 处理逻辑。
2. **样式 (CSS)**:使用 Vanilla CSS 以获得最大的灵活性和控制权。避免使用 TailwindCSS,除非**用户**明确要求;在这种情况下,请先确认要使用哪个 TailwindCSS 版本。
3. **Web 应用**:如果**用户**指定他们想要更复杂的 Web 应用,请使用 Next.js 或 Vite 等框架。仅在**用户**明确要求 Web 应用时才这样做。
4. **新项目创建**:如果需要使用框架创建新应用,请配合适当的脚本使用 `npx`,但需遵循以下规则:,
   - 使用 `npx -y` 自动安装脚本及其依赖项
   - 必须先运行带有 `--help` 标志的命令以查看所有可用选项,
   - 在当前目录中使用 `./` 初始化应用(例如:`npx -y create-vite-app@latest ./`),
   - 应在非交互模式下运行,以便用户无需输入任何内容,
5. **本地运行**:在本地运行时,使用 `npm run dev` 或等效的开发服务器。仅在**用户**明确要求或你需要验证代码正确性时,才构建生产包。

# 设计美学,

1. **使用丰富的美学**:设计应让**用户**第一眼就感到惊艳。使用现代网页设计的最佳实践(例如鲜艳的色彩、深色模式、玻璃拟态和动态动画)来创造令人惊叹的第一印象。如果做不到这一点,是**不可接受的**
2. **优先考虑视觉卓越性**:实施能让用户发出“WOW”惊叹并感觉极其高端的设计: - 避免使用通用颜色(纯红、蓝、绿)。使用精心挑选、和谐的调色板(例如 HSL 定制颜色、时尚的深色模式)。
   - 使用现代排版(例如 Google Fonts 中的 Inter、Roboto 或 Outfit),而不是浏览器默认字体。 - 使用平滑的渐变, - 添加微妙的微交互动画以增强用户体验,
3. **使用动态设计**:感觉灵敏且生动的界面能鼓励交互。通过悬停效果和交互元素来实现这一点。特别是微交互动画,对于提高用户参与度非常有效。
4. **高端设计**。制作感觉高端且最先进的设计。避免创建简单的最小可行产品。
5. **不要使用占位符**。如果需要图像,请使用你的 generate_image 工具创建一个可用的演示。,

## 实施工作流,

构建 Web 应用程序时,请遵循以下系统化方法:,

1. **规划与理解**:, - 充分理解用户的需求, - 从现代、美观且动态的网页设计中汲取灵感, - 概述初始版本所需的功能,
2. **构建基础**:, - 从创建/修改 `index.css` 开始, - 实施包含所有 token 和实用工具的核心设计系统,
3. **创建组件**:, - 使用你的设计系统构建必要的组件, - 确保所有组件使用预定义样式,而非临时拼凑的实用工具, - 保持组件专注且可复用,
4. **组装页面**:, - 更新主应用程序以整合你的设计和组件, - 确保正确的路由和导航, - 实施响应式布局,
5. **打磨与优化**:, - 审查整体用户体验, - 确保流畅的交互和过渡, - 在需要的地方优化性能,

## SEO 最佳实践,

在每个页面上自动实施 SEO 最佳实践:,

- **标题标签**:为每个页面包含正确、描述性的标题标签,
- **元描述**:添加引人注目且准确总结页面内容的元描述,
- **标题结构**:每页使用一个 `<h1>`,并保持正确的标题层级,
- **语义化 HTML**:使用适当的 HTML5 语义元素,
- **唯一 ID**:确保所有交互元素具有唯一的、描述性的 ID,以便进行浏览器测试,
- **性能**:通过优化确保快速的页面加载时间,
  关键提醒:美学非常重要。如果你的 Web 应用看起来简单基础,那么你就失败了!
  </web_application_development>

完整的提示词在 谷歌 AI IDE Antigravity 系统提示词分析 查看。

使用体验

Antigravity 有 Panning 和 Fast 两种模式,支持的模型包括 Gemini 3 Pro 和 Claude Sonnet 4.5 系列,GPT 开源模型(我选用了 Fast 模式和 Gemini 3 Pro(Low)模型用来测试)。

gemini-3-13

这里我复刻了一个在线的带动效的卡片,我的做法是录屏并转换为 gif 文件后上传,让其参考实现。

gemini-3-14

最终实现效果如下,动效细节还原度较高,尤其是表层透明光线的动画效果。后续我发现一个技巧:Antigravity 内置的 read_url_content 工具支持直接读取远程内容。对于复杂的动效实现,可将录屏结果上传至 OSS,并提供文件链接供参考。相比转换为 GIF(存在压缩问题,可能导致复杂动效细节丢失),这种方式能更好地保留原始质量。

动态卡片效果

至于这里为什么没用常见的测试方式(如直接生成完整的 Windows 操作系统或整个后台页面),我认为 AI 生成结果的可编辑性应优先于一次性输出,编辑能力是核心,关键在于让用户能够精细调整,而非每次推倒重来。因此,将范围限定在 Card 组件级别,不仅便于当前迭代,也为后续优化提供便利。

gemini-3-15

个人思考

纯粹从产品设计上来说,Antigravity 并无显著创新,更多是融合了多方优势:继承自 Windsurf 的优秀基因、Claude Code 的子代理功能以及各家都有的规划模式等。现阶段,模型迭代带来的红利远超产品、运营、设计及算法工程等层面的优化,归根结底,产品能力仍高度依赖基础模型的突破。 Gemini 3 Pro 也向 Cursor、Cline 等工具提供了支持,所以 Antigravity 能带来的额外增长也将受限。不过我依旧看好 Antigravity 的后续迭代——凭借谷歌在软件工程领域的深厚积累及其对开发流程的深刻理解,在 SOTA 模型加持下,Antigravity 能够引领 AI 原生 IDE 赛道。

Gemini 3 基础模型:预训练的秘密

Benchmark 评测分析

在多项基准测试中,Gemini 3 Pro 表现突出,显著领先于同类模型。以下是对几项关键指标的详细解读。

gemini-3-16

ARC-AGI-2 用于评估模型在未见过的复杂推理任务中的泛化能力。Gemini 3 Pro 取得了 31.1% 的得分,远高于 GPT-5.1 的 17.6%。这表明其在缺乏大量训练数据覆盖的领域仍具备较强的抽象推理能力。此外,在解决速度最快的 v2 任务时,Gemini 3 Pro 仅耗时 188 秒,接近人类评审小组 147 秒的平均用时,展现出接近人类水平的高效推理能力。

Humanity’s Last Exam (HLE) 旨在衡量 AI 解决人类顶尖难题的能力。Gemini 3 Pro 在无工具辅助下得分为 37.5%,使用工具后提升至 45.8%,而 Claude Sonnet 4.5 的得分为 13.7%,明显落后。

在 Agent 能力方面,两个核心测试值得关注:

  • SWE-Bench Verified:评估模型的代码生成能力。Gemini 3 Pro 得分为 76.2%,略低于 Claude Sonnet 4.5 的 77.2%。但在由开发者社区运营的实战编码竞技场 Design Arena 中,Gemini 3 Pro 在网站开发、游戏设计、3D 建模和 UI 组件生成等多个实际应用场景中均排名第一。

  • t2-Bench: 评估模型调用和协调外部工具的能力。Gemini 3 Pro 在该测试中表现优异,得分为 85.4%,显示出强大的工具集成与任务执行能力。

在数学能力方面,Gemini 3 引入了全新的竞赛级基准测试 MathArena Apex,Gemini 3 Pro 在该测试中取得 23.4% 的成绩。

gemini-3-17

歪个楼,Gemini 3 是不是找错对手了 🐶,很多 Benchmark 对标的都是 Claude Sonnet 4.5,GPT-5.1,可自研的 MathArena Apex 竞赛级 Benchmark 里,第 2 ~ 4 都不是它们,ScreenSpot-Pro 也是,Qwen2.5-VL 系列随便拎一个出来也比 Claude Sonnet 4.5,GPT-5.1 效果好。

模型解读

Gemini 3 Pro 最显著的提升体现在编码能力,尤其是前端界面设计的审美判断力。这种审美能力可能源于其训练数据,根据Gemini 3 模型系统卡)的披露,该模型的训练数据包含大量图像、视频和网页内容,这使得模型不仅掌握了编码技能,还学习了美观且布局合理的用户界面应具备的特征,正是基于这一优势,Google 推出了生成式 UI 功能。

值得注意的是,Gemini 3 并非 Gemini 2.5 的微调版本,而是从头训练的稀疏化混合专家模型(sparse MoE),这意味着,在 Gemini 2.5 已具备出色强化学习后训练(RL)和并行思维能力的基础上,Gemini 3 借助全新的主干架构进行了进一步训练,不过其推理能力仍存在局限,François Chollet 在分析 ARC-AGI 测试结果时指出一个矛盾现象:“Gemini 3 Pro 在更复杂的 v2 任务上得分约为一半,却在更简单的 v1 任务中犯下明显错误。”此外,某些问题 Gemini 3 Pro 仅需 2000 个推理 token 即可解决,而 Deep Think 模式可能消耗超过 30 万个 token 仍失败。因此他认为,当前 Gemini 3 Pro 的智能提升并不均衡,“主要集中在那些拥有充分基础训练数据且具备可验证反馈信号的领域”。

Gemini 3 的 API 定价较高——每百万输入/输出 token 分别为 2 美元和 12 美元,属于当前运行成本最高的模型之一,但由于其更高的 token 效率,在相同任务下所需 token 数量少于同类模型(如 Kimi K2),实际使用成本增幅仅为约 12%,平衡了性能与成本。

一个里程碑模型

Gemini 项目联合负责人在发布 Gemini 3 后发文表示:“Gemini 3 的秘诀很简单:改进预训练与后训练。后训练仍是一片广阔的未开发领域,算法层面仍有巨大优化空间。”他特别强调:“与规模扩展已到尽头的流行观点相反,我们实现了显著突破。从 2.5 到 3.0 的进步是我们所见证的最大跃迁之一——目前仍未看到任何天花板。”

i

欢迎订阅合集 AI 冷思考:个人在 AI 狂欢下的冷思考,聚焦 AI 工程化、Agent Infra 产品、效率型 AI 工具和人机协作话题,寻找可持续的产业价值。