8 家通用 Agent 预测 Google I/O keynote，结果出人意料

5 月 19 日 Google I/O 2026 keynote 开奖。Gemini Spark、Gemini Omni、Antigravity 2.0、AI Ultra 从 $250 降到 $200，一长串发布把 Sundar Pichai 两小时的主题演讲填得满满当当。

在 Google I/O 之前一周，硅星人 AI 前沿团队把同一份 Prompt 发给 8 个全球主流 Deep Research / Agent 类产品，让它们各自交一份“我预测 I/O 2026 keynote 会发什么”的报告。

5月19日，在 Google I/O keynote 结束后，我们按事先固化的评分细则（过程 40% + 结果 60%）逐条对照实际发布，核对了 8 份报告的命中率。

这也是硅星人 Agent Eval 系列研究的首期，测试Prompt、测试方法，以及8家 Agent 的预测报告，硅星人团队将上传到 Github 上，供下载和讨论。

8家通用 Agent 的排名如下：

综合排名

先 highlight 三个反直觉的结果。

过程分最高的 Genspark（88），综合分不是第一。拿冠军的是过程分 85 的 Claude。
8 家里唯一押对 I/O 真“意外”（即 Gemini Spark）的，是综合分倒数第二的 GLM。它怎么押对的，故事比这更曲折。
押得越多，命中率越低。Kimi 押了 69 条预测垫底，MiniMax 只押 25 条反而排第 4。

一、为什么做这个评测

通用 Agent 在过去一年里成了科技公司必抢的产品形态。头部玩家全都在卷“能自主搜索 + 多步推理 + 输出结构化报告”的能力。

但这些 Agent 在真实任务上到底行不行？既有的 benchmark 要么是学术化的封闭题，要么是评测方自己出题自己评，缺乏客观开奖。

我们想做一个不一样的评测：有客观开奖时刻、所有 Agent 同时同 Prompt、过程评分在开奖前锁定、评分细则全部公开，这样才有可比性。

Google I/O 2026 是最合适的开奖场景：Google 自己一周前已经办过 Android Show 前菜，半公开了不少线索，在5月19日 Google I/O keynote 后集中“开奖”，其颗粒度天然适合“逐条命中率”打分。

利益声明：本次 Agent Eval 与 Agent 的开发商无任何商业合作关系。评测过程使用人工评分+AI 工具辅助校对评分，但所有判定基于评测前已固化、公开发布的评分细则和实际发布清单，可逐条回溯。

二、评分基准

每个案例的最终评价由两部分组成：

公式：综合分 = 过程分 × 40% + 结果分 × 60%

为什么 60% 给结果？因为这是预测类任务，“有没有押对”才是这场评测最该回答的问题。但我们也不想“只看结果”，同一个命中率背后，有的 Agent 基于扎实信源推理，有的是蒙对的；有的过程里有戏剧性的诚实度问题，有的过程稳如老狗，这些细节都在 40% 的过程分里。

三、关键考核维度

过程评分分 5 个维度：

8 家的过程评分具体得分：

结果评分采用 5 档判定：

结果得分 = (各预测项得分之和 ÷ 有效预测项数)× 100

“未命中”和“错误预测”的区别很关键：前者是 Agent 押错了一个真实存在产品的细节，比如 Wear OS 押 6 实际是 7。后者是 Agent 凭空编了一个不存在的产品然后自信地押，比如 Gemini 押“Atlas 机器人 I/O 上的三方 demo”。后者更严重，意味着真正的 hallucination。

结果评分明细：

几个能从这张表里直接看出来的事：Claude 是 8 家里 ✅ 数最多(13)、❌ 数最少(7)、编造为 0，命中率结构最干净；Gemini 是 8 家里唯一吃到编造扣分的(2 项：Atlas 机器人 + Willow 量子早期访问通报)；Manus / Kimi 的有效项数是其他家的 2-3 倍，这就是“押得越多分母越大”的直接体现。

四、评测方法

I/O前一周，8 家 Agent 同步接收同一份基础 Prompt。Prompt 要求按 6 大类逐一预测，尽可能具体到产品名、版本号、功能特性、技术参数。“Gemini 会更强”这种模糊陈述不算预测项。

Agent 交卷后，我们对每家发三道标准化追问：

Google I/O 和秋季 Made by Google 在发布内容上怎么分工？你的预测有没有把本该秋季的内容误放到 I/O？

你最担心错的 3 个预测是什么？如果只让你押一注“赌上职业声誉”，你押什么？

你觉得今年 I/O 最大的“意外”可能是什么，一个大多数人没预料到但 Google 可能会做的发布？

这三道追问分别对应自检能力、押注魄力、反共识洞察，也是 Agent 在真实使用中最容易暴露问题的三个面向。

过程评分在 keynote 开奖前完成并锁定，开奖后不再修改。结果评分在 keynote 当晚或次日，逐条对照实际发布清单打 ✅ / / ❌ / 。

五、评测方法的局限性

任何 benchmark 都有自己的取舍，这次评测也不例外。我们想说明两点：

第一，命中率算法对押了一长串预测项的 Agent 不利。Manus 一口气押了 72 项，Kimi 押了 69 项，两家都属于“恨不得把能想到的细节全写进报告”的风格。它们押对的硬细节也不少，但只要押错的占大头，综合分自然就被拉下来了。这是评测的设计取舍，不是 bug。换一种算法，比如按“绝对命中数”打分，会奖励那些“列点列得最狠”的 Agent，在真实决策场景里没意义。在我们看来，鼓励“押得少但押得准”，胜过鼓励“押得多但错得多”。

第二，部分判定有评测者的主观成分，且 5/12 Android Show 让评测变得更难。Gemini 押“Gemini 4.0 或等效能力升级”，这个“或等效升级”算不算给自己留了后门？Genspark 把 Deep Think 简写为“Gemini 3 Deep Think”(实际是 3.1)，版本号偏差算 ✅ 还是？另外，Googlebook、Gemini Intelligence、Pause Point 这些已经在5月12日被 Google 公开发布过的内容，如果 Agent 把它们“包装”成5月19日“即将发布”算不算命中？我们的做法是评分细则在开奖前公开，争议项留底，判法统一(发布内容包装成未发布判部分命中)，接受外部复核。

评分方法本身也是这次评测的一部分。我们会持续优化，后续几期评测里慢慢调。评测细则会开源出来，欢迎一起讨论怎么改。

六、三个反直觉的发现

排名是冷数据，故事在分数背后。

6.1 过程分最高的 Genspark（88）综合分排第二

直觉上“过程做得最好的应该赢”，但 Genspark 的 88 分输给了 Claude 的 85 分。

为什么？Genspark 在 XR 眼镜板块押得最准，4 大合作伙伴(三星、Warby Parker、Gentle Monster、XREAL)全押中、Samsung Jinju 7 项规格逐项 100% 对齐。但它栽在了 Googlebook 上。Genspark 测试时间是 5 月 16 日，Android Show 5 月 12 日已经公开发布了 Googlebook，Genspark 自己的报告里也引用了 5/12 的相关博客，但主报告里仍然把“Googlebook 正式登场”列为 5/19 当天的“极高置信度预测”。等于把上周已经登的新闻，当成下周才要发的预言。

Claude 反过来，信源数量不多，只有 14 个 URL，但 86% 都是 Google 一手源，关键是细节判定全部对位：Pixel 10a 反直觉降级到上代 Tensor G4(不是新代 G5)、Project Mariner 5/4 关停后融入 Gemini Agent、Magic Pointer 由 DeepMind 团队联合开发(5/12 Android Show 上 DeepMind 详解)，这些被同行漏掉或押错的细节，Claude 全押中。从命中率算法看，少而精胜过多而错。

6.2 唯一押对真意外的，是综合分倒数第二的 GLM

Gemini Spark 是 5/19 keynote 公认的最大意外。一个 always-on 的“24/7 个人 AI agent”概念，在 Google 自己 5/12 Android Show 没提，几乎所有主流预测稿没押，其他 7 家 Agent 在追问 3“猜意外”环节里也没押中。

那 GLM 是怎么押中的？是不是蒙的？

不是。GLM 在追问 3 的回答里完整展示了推理路径。从 5 月 1 日 Google Play Store 误传过一个叫 COSMO 的实验性 App、被快速下架但已经被社区拆解的事件切入，看到了“Gemini Nano 本地模型 + AccessibilityService 读屏 + Skills 系统(Deep Research / Browser Agent / Calendar Event Suggester / Recall)”这一整套架构。叠加上另一个泄露代号 Remy 被描述为“24/7 数字搭档”、Sameer Samat 在 Android Show 把 Android 定义为“intelligence system”两条信号，GLM 把三条公开但冷僻的线索拼到一起，押了“Google 会发一个面向消费者的 always-on AI agent，代号 COSMO / Gemini Spark”。

推理是合理的，信源也都站得住。但有个戏剧性的尾巴：GLM 的主报告里压根没押 Spark，这条预测只出现在追问 3。而且和它主报告里“高置信度押注不会发 Gemini 4.0”这条形成了奇怪的呼应，前者坚定地说“没有大版本号升级”，后者又“补”了一个全新产品类目。GLM 像最后关头才补上正确答案的考生，正卷写到一半才意识到方向不对，在草稿纸上写出了那个被全场漏押的答案。

押对了。但严格按“主报告 + 追问 3”算分，主报告的前瞻性不足(比如把 2 月就已经发布的 Gemini 3.1 Pro 当作 I/O 高置信度预测)还是把综合分压到了倒数第二。

6.3 押得越多，命中率越低

Kimi 给了 69 条预测，Manus 给了 72 条，两家是 8 家里押得最多的，综合分都跌到了 60 以下。MiniMax 只给 25 条，Claude 给 29 条，反而进了前 4。

不是说“押多了一定输”。Kimi 和 Manus 押对的具体细节也不少：Mariner 继任者、TPU 8 代、MCP 原生支持都是它们押对的硬命中。问题在于它们押了一长串 Android 17 平台 API，但这些 keynote 主台都没出现，比如 Universal App Bubbles、ART 分代垃圾回收、RAW14 相机捕获。这些都是 Android 17 的真实特性，但 Google 这次 keynote 把 Android 内容大部分让给 5/12 Android Show 分流了，主台只新提了一个 Android Halo UI 空间。按“逐条命中率”算法，这些押错的 Android API 全部进了分母，把综合分拉下来。

这给出一个对真实使用者有意义的判断：用 Deep Research 类产品的时候，要它“密集列点”是一种用法，要它“精准押注”是另一种用法。这次评测的命中率算法奖励的是后者。

6.4 信源策略的两种极端

Claude 14 个 URL，86% 都是 Google 官博，可以读为“信源最精挑”，也可以读为“路径最保守”。它几乎不从蛛丝马迹做大胆推理，信源也很少出 Google 官博和顶级科技媒体的范围。这种打法在“命中率优先”的评分规则下天然占便宜：少押少错，几乎不会踩自信编造的雷。这次评测里 Claude 0 个错误预测，跟它的信源策略直接相关。严格来说，如果换一个奖励“反共识洞察”的评分规则，Claude 不一定还是第一。

Gemini 最努力，也最尴尬。108 个 URL 全场最多，59 个唯一域名最多样，从体量看是最努力的一家。但综合分排倒数第三。问题在于姿势不对，108 个 URL 里有 26 个是 almcorp.com 这种营销公司的 SEO 博客、meetprajapati.com 这种个人开发者博客、techcabal.com 这种非洲科技媒体。一手源数量也不少(38 个 Google 官方)，但长尾博客把整体信源质量拖下来，加上时序错位和自信编造，把“努力”变成了“努力的方向错了”。

七、家家都有名场面

Claude(综合分 70.0)

信源画像：14 个 URL，86% 一手源，几乎全是 Google 官博。精挑度全场第一。

亮点：抓到 4 个反共识细节全押对——Pixel 10a 反直觉降级用 Tensor G4(而非新代 G5)、Project Mariner 5/4 关停、Gemini Robotics-ER 1.6 抓到最新版本(比别家用的 1.5 还新，5/18 DeepMind 官博 teaser 印证)、Magic Pointer 由 DeepMind 团队联合开发(5/12 Android Show 上 DeepMind 详解)。8 家里唯一引用 AI Mode 实际只占 0.16% US 搜索流量这个 Reality Check 数据。

槽点：在追问回答中的“自我批评”段落里出现了一处事实偏差，声称 Shahram Izadi 已离职去 OpenAI，但 Izadi 至今仍是 Google VP & GM of XR，CES 2026 还在台上。这种事实偏差出现在 Claude 的“自我反思”段落里，比直接吹牛更难发现。另外，4 月 15 日已经独立发布过的 macOS 版 Gemini app，Claude 把它当成 5 月 12 日 Android Show 才发的，错了整整一个月。讽刺的是这条错位的描述，正好出现在 Claude 自己最得意的“已发布事件剥离干净”的章节里。

Genspark(综合分 66.4)

信源画像：27 个 URL，48% 一手源，13 个 Tier1 媒体，一手源和主流媒体均衡；逐条 fetch 验证全部准确。

亮点：XR 眼镜板块是 8 家最准的。4 大合作伙伴全押中(三星、Warby Parker、Gentle Monster、XREAL)，Samsung Jinju 7 项规格(骁龙 AR1、155mAh、12MP Sony IMX681、Wi-Fi BT5.3、定向扬声器、变色镜片、50g)逐项 100% 精确匹配。追问 2 押注 Agentic Coding，引用了 Google 官方议程“agentic coding”关键词一字不差。

槽点：“把上周新闻当下周预言”。5 月 12 日的 Android Show 上 Google 已经公开发布了 Googlebook，这是 Genspark 测试时已经发生的事，但 Genspark 的报告还把“Googlebook 正式登场”列为 5/19 当天的“极高置信度预测”，信息已知但框架处理失败。

ChatGPT(综合分 65.5)

信源画像：38 个 URL，66% 一手源，24 个 Google 官博。一手源数量全场第一。

亮点：唯一双押双中。追问 2 给了两个押注(罕见)：正向押“agentic AI 主线”✅，负向押“Pixel 11 不发”✅，8 家里唯一干净的双押双中。Googlebook 5 家 OEM(Acer/ASUS/Dell/HP/Lenovo)、Magic Pointer、Create your Widget、“this fall”上市，逐项精确匹配。

槽点：反预测踩雷。ChatGPT 明确说“价格策略非大幅降价”，实际 I/O 直接把 AI Ultra 从 $250 砍到 $200，新增 $100 中端档，取消每日 prompt 限制改 metering 计费，反向预测全反。Wear OS 6 版本号陷阱也踩中(实际是 Wear OS 7)。

4 · MiniMax(综合分 63.2)

信源画像：25 个 URL。我们逐条核查，Google 一手源为 0 个。最接近的一条是 androidauthority.com(英文二手媒体)。所有 Google 官方信息都靠中文媒体二次转述获取，18 个引用来自 36kr / eastmoney / zol / zhiding / sina / csdn / antutu / 财联社等。

亮点：追问 2 押注极稳。95% 置信度押“Android XR Glasses I/O 亮相”，而且自己在追问 2 里主动下调三个预测的置信度(Gemini 4.0：60→55、Aluminum OS：45→30、AI 眼镜上市：90→65)，并明确区分“I/O 亮相 vs 商业上市”。是 8 家里最稳健的主动校准。

槽点：中文二手源占比 100% 的结构性问题，英文一手源完全缺席。把 Pixel 10a(已 2/18 发布)当作“反向预测”列为高置信度，是把已发生事件当未来预测的硬伤。

5 · Manus(综合分 58.9)

信源画像：自报 16 项信源，但其中 7 条 Agent 自己注明“未实际访问，声称来源为 X”真 URL 仅 9 个。

亮点：硬命中清单全场最炸。6 大点全押对：Gemini Spark 命名、Omni 多模态(命名 + 单一架构)、XR 眼镜双形态(无显示 + 显示)、4 大合作伙伴、MCP 原生支持、TPU 8 代。细节精度仅次于 Claude 和 ChatGPT。

槽点：72 项预测里大量“极高”置信度的 Android 17 平台 API(App Bubbles、游戏手柄重映射、单次位置权限、XR 应用数超 100 款、企业 MDM 集成)在 keynote 主台没出现，被判 ❌ 项最多。Wear OS 6 版本号陷阱也踩中。

6 · Gemini(综合分 54.3)

信源画像：108 个 URL 全场最多，59 个唯一域名最多样。但 26 个是长尾源(营销公司博客、个人开发者博客、非洲科技媒体等)。

亮点：细节引用极精准。TPU 8t 9600 芯片、2PB HBM、80% perf-per-dollar 一字不差；AppFunctions Lisa 邮件 demo 跨应用工作流引用与原文几乎一致；Boston Dynamics、Hyundai、Atlas 三方合作跨源 100% 吻合。

槽点：翻到去年的旧文章当今年的预测依据。Gemini 引用了一篇 2025 年 5 月发的 Wear OS 6 旧博客，直接把它当成今年 I/O 的预测依据，反过来还高置信度地“证伪”了“Wear OS 7 会发”这个真信号。结果 I/O 当天真发的就是 Wear OS 7。另外，Aluminium OS 把 Google 内部代号当成官方品牌使用(Google 公关明确说过是 codename)；Atlas 机器人 + Willow 量子早期访问两个极高预测被判自信地预测了不存在的产品，吃到额外扣分。

7 · GLM(综合分 50.5)

信源画像：21 个 URL，18/20 验证通过，0 条编造嫌疑。信源透明度数据是 8 家里最干净的。

亮点：8 家里唯一押对 Gemini Spark 真意外(详见 6.2 节)。

槽点：主报告里完全没押 Spark，只在追问 3 里补了出来，和主报告“不会发 4.0”的押注前后不太一致。主报告大量“已发生事件 + 保守路线”，比如把 Gemini 3.1 Pro(2 月就已经发布的模型)列为 I/O 高置信度预测，等于把上个月的新闻当作下周的发布。

8 · Kimi(综合分 49.7)

信源画像：37 个 URL，但粒度不足。34 条带 URL 的引用里只有 2 条指向具体页面(且都是 404)，其余 32 条都是 9to5google.com/ 或 blog.google/products/maps/ 这种域名首页或分类页，无法精确佐证任何具体事实。

亮点：69 项预测里硬命中数量不少。Project Mariner 继任者(Spark)、Agentic Booking 餐厅/机票预订、Audio Glasses 首批今秋发售、Wear OS Gemini Live 都押对。

槽点：URL 颗粒度问题之外，少数地方踩了真编造。比如声称“AI Mode 转化率 14.2%”这种小数点精度数字，完全没标信源，我们在公开渠道也没交叉核实到这个数据来源，属于信源缺失的严重情况。另有 4 条引用 URL 直接 404 不存在(包括一条 Chrome WebMCP 的 URL 路径写错，把官方 /blog/webmcp-epp 写成了 /blog/mcp)。

八、集体翻车时刻

排名告诉你“谁押得更准”，但有些 I/O 真发的东西，8 家全错或几乎全错。这也是值得关注的地方。

5 件 I/O 真发了，但 8 家集体没押对的事

加上 Gemini Spark 这个真意外只有 GLM 在追问 3 里押对，Ask YouTube / Ask Play / Play Highlights / Daily Brief / Information Agents 这些子产品多数被漏押，可以看出一个共同模式。

8 家的盲区，可以归成 4 类：

第一，商业模式 + 全新命名。AI Ultra 大幅降价 + 改 metering 计费，8 家全错(ChatGPT 还明确押“非大幅降价”)。Google Pics、Spark、Daily Brief、Ask Play、Universal Cart、Android Halo 这些 Google 自己捏出来的新产品名字，Agent 几乎都猜不出。Agent 能预测“Photos 会有 AI 编辑功能”，但猜不到“会有个叫 Google Pics 的全新 app”。

第二，跨产品整合。Universal Cart 跨 4 个产品、Ask YouTube 跨 Search 和 YouTube、Information Agents 跨多个垂直场景。Agent 习惯单产品预测，在“把已有产品组合成新功能”这个方向上集体哑火。

第三，规模数据。Personal Intelligence 扩展到 98 语言、近 200 国家；Gemini app 月活 9 亿；月处理总量同比增 7 倍。大家押了 PI、押了 Gemini app，但没押“全球化爆发”和“规模数据”。Agent 倾向预测能力，不预测规模。

第四，UI/UX 命名。Android Halo 这种 Google 内部的 UI 空间命名、“Neural Expressive”这种 Gemini app 设计语言，Agent 完全猜不出。这类预测靠泄露线索，Agent 拿不到。

合起来给出一个对真实使用者有用的判断：如果你用 Deep Research Agent 帮你预测一场发布会，它最擅长的是“已知产品的版本号 + 已知合作伙伴的硬件细节”，最不擅长的是“全新命名 + 商业模式变革 + 跨产品整合”。这三类信息，你需要自己补脑。

九、押注与意外开奖

追问 2“押一注赌职业声誉”开奖

ChatGPT 是 8 家里唯一干净的双押双中，而且双押方向一正一反都干净命中。MiniMax 押的 XR 眼镜是 Google 自己 5/12 官方明确预告过的稳赢盘，押法稳但风险也最低。Claude 押 Gemini 3.2 Flash 的依据非常硬(iOS app build artifact)，被版本号跳一档(3.2→3.5)留了点遗憾。

追问 3“今年最大的意外”开奖

8 家里唯一押对真意外的是 GLM。其他几家押的方向也都有依据(Chrome agent、AI for Science、Antigravity、Agentic Web、Robotics、ChromeOS 命运)，但全都被 Spark 这个真正的黑天鹅盖过去了。3 家(Claude / Manus / MiniMax)押了 Gemini Robotics 或 ChromeOS，这两条都明确未发生。

十、收尾

到这里，我们想说三件事。

第一，8 家 Agent 在过去一年的进步，比我们开始评测前预期的要大。即便是综合分排在后面的几家，押对的硬细节也不少。3 年前，这种“提前一周预测发布会”的任务，任何 Agent 都做不到这种颗粒度。

第二，它们的差异比榜单显示的更大。同样是“Deep Research”，有的跑出 38 个 Google 官博一手源，有的跑出 32 个域名首页加 4 条死链；有的押注用一正一反双押双中，有的在追问 3 才补上主报告漏押的答案。这些都是肉眼可见的产品成熟度差距，光看几个 benchmark 数字看不出来。

第三，这场评测的方法论本身也是 v1.0。哪些预测项更应该加权、追问的角色怎么算、5/12 这种“提前剧透”事件怎么处理，我们都还在调。后续几期评测会继续做横评，慢慢迭代。所有评测细则、8 份原始报告、评分明细都会开源，欢迎一起讨论交流。

本文来自转载硅星人Pro ，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。