OpenAI 公布了他们语音黑客松的四个入围项目,目前正在公开投票。

四个入围项目
这是 OpenAI 和 Cerebral Valley 在旧金山联合办的一场黑客松。5 月 27 日,在 OpenAI 总部,参与者带着自己的语音 Agent 原型到现场展示。
OpenAI 的产品和工程团队在场提供技术支持,要求是:用 Realtime Voice API。
和上个月 Claude 黑客松一周的赛制不同,这次是 demo showcase 形式,参与者到现场打磨和展示已有的原型。
四个入围项目,来自四个完全不同的领域。
共同点是:做的人,就是用的人。
- 一个手外科医生,每天在手术台上被转诊电话打断三四次,做了个 AI 替他接电话;
- 一个开发者想解决 1984 年就被发现的教育难题;
- 三个人搭了间虚拟会议室,让 DevOps 和 CFO 在里面吵架;
- 还有一个人,想让手机上所有的 App 都消失。
下面,我们一个一个来看,或许能对你有所启发。
01
手术台来电
Surgical Triage 的制作者 Brian Pridgen,是旧金山 The Buncke Clinic 的一名手外科和显微外科医生,专门做断指再植手术(听着就疼……)。
预警:前方有断指图请做好准备!!!
他自称是个「非技术人员」。

Surgical Triage 空白仪表盘
他在演示视频里讲了自己每天的处境:
“ 当我正在手术台上给一个病人接回拇指的时候,电话响了。200 英里外的急诊医生打来的,又一个病人刚断了手指,需要我立刻评估。我得停下手术,消毒出来,接电话,问 20 个问题:受伤机制、患者病史、用药情况、断指保存方式。一半的时候,急诊那边信息都没准备好,我还得让他们回去查了再打来。
这种电话一天来三四个。每次他离开手术台,正在手术的病人就得多在麻醉下躺一会儿。
Surgical Triage 做的事情是:AI 替他接转诊电话。
系统用 OpenAI Realtime Voice API 和急诊医生进行自然语言对话,逐项询问受伤细节、患者病史和用药信息。
但它做的事远不止问几个问题。
它还能看片子。
急诊团队上传的照片和 X 光片,AI 实时分析。如果影像不够或者角度不对,它会当场告诉急诊团队需要补拍哪些视图。

Surgical Triage 影像审阅中
有一个细节是:AI 会检查外科医生的个人临床标准,而这些标准存储在一套叫做「skill files」的知识库里。比如,断指必须用生理盐水湿纱布包裹,密封放进冰袋里,不能直接放在冰上,否则会造成冻伤损害。
AI 在对话中发现急诊团队操作不当时,实时纠正。
对话结束时,系统已经自动生成了一份完整的转诊文件包:伤情详情、影像分析、临床标准核查清单。外科医生准备好了再看,不用电话一响就跑。

Surgical Triage 转诊通过
一旦接受转诊,Agent 还能自动联系手术室前台安排手术排期。
“ 这件事的目标是保护正在进行的手术,同时确保下一个病人从第一通电话开始就得到正确的处置。
从电话响起到手术安排,整个链路,没有人需要离开手术台。
技术上,Surgical Triage 用的是 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型,是四个项目里唯一用到多模态能力的:语音对话 + 医学影像分析。
而整个工作流程可以拆成这么几步:语音问诊 → 影像上传与实时分析 → 临床标准核查(通过 skill files 知识库)→ 转诊文件包生成 → 手术室调度。每一步都在对话进行中实时推进。

Surgical Triage 工作流程
Brian 其实在 2023 年就试过做这个项目,当时用的是 Whisper 做语音识别,Twilio 搭 IVR 系统,七拼八凑。
他自己回忆说:
“ 我 2023 年春天就试过 vibe coding 这个东西,用 Whisper、手搭的 IVR、Twilio……但现在,它直接就能用了。
从三年前的半成品到今天 6 小时内跑通全流程,这大概就是,语音 和 AI 过去三年进步最直观的证明。
Brian 也坦率地指出了 demo 中的不足:系统没能在对话中途捕捉到病人姓名的切换,也没在 X 光片和口头描述之间发现一个手指位置的不一致。他自己的手术直觉会在这些地方拦住,但 AI 目前还不行。
这大概是四个项目里最让人觉得「这东西怎么到现在才有」的一个:
一个自称「非技术人员」的外科医生,用 Codex 写出了一个能替他接电话的 AI。
02
Bloom 的老难题
Curo 是 Ansh Chopra 做的一个 AI 物理老师,专门教小孩。

Curo 欢迎页
Ansh 之前做过交互式语音教育产品,用户超过了 100 万。他也参与过开源 AI 可穿戴设备 Omi(GitHub 上 12,000+ 星),目前在旧金山的 South Park Commons。
他在视频开头抛出了一个教育界的经典发现。
1984 年,教育心理学家 Benjamin Bloom 做了一项研究,发现接受一对一辅导的学生,成绩比传统课堂学生高出两个标准差。
两个标准差意味着什么呢?一个普通学生,有了一对一辅导之后,成绩能直接跳到班级前 2%。
Bloom 自己也指出了矛盾:我们知道一对一辅导效果有多好,但我们给不起每个孩子一个家教。这个发现后来被叫做「Bloom 的 2-sigma 问题」。
40 年了,这个问题一直没有被解决。

Bloom 2-sigma 问题
Curo 想做的就是这件事:给每个孩子一个耐心的、永远不会累的 AI 家教。
Ansh 在视频中描述 Curo 的定位:像皮克斯动画一样的学习体验。
和市面上大多数 AI 教育产品不一样,Curo 是用语音来教的。它的形象是一只蓝绿色的小熊,亲切而不吓人。它不会直接给答案,而是像苏格拉底一样提问,引导孩子一步步自己推理出来。
比如这段对话:
“ Curo,你能教我重力吗?
当然啊。我们从简单的开始,如果我同时扔下一个球和一片羽毛,哪个先落地?
球吧。
对,但为什么呢?想想看,球和地面之间有什么东西可能会让它减速?
嗯……空气?
对了!空气阻力。
然后 Curo 用 GPT-image-2 实时生成一张简笔画,画出空气阻力如何影响球和羽毛的下落轨迹。而这张图,会出现在一块共享白板上。

Curo 实时对话
而孩子可以在白板上写下自己的答案,Curo 能看到,也能回应。
这一步,非常关键。
大多数 AI 教育产品都是单向的:AI 说,学生听。
Curo 加了一块白板,让对话变成了真正的双向互动。孩子写什么,AI 都能看到,能针对写的内容做出反应。
这就像是真正的一对一辅导:老师问,学生答,老师看到学生的思路后再引导。而不是 AI 念一段课本,学生点个「下一步」。
技术栈上,Curo 同时用了四样东西:OpenAI Realtime Voice API 做语音对话,GPT-image-2 实时生成概念图,KaTeX 渲染数学公式,整个项目则用 Codex(OpenAI 的编程 Agent)从头搭建。
Ansh 写道:
“ 我小时候就没有过一对一辅导的条件。所以我想为接下来的 10 亿个孩子解决这个问题。
03
DevOps 怼 CFO
Wagner 是三人团队做的:Yeferson Pena、Jhon Enciso 和 Steve Suarez。

Wagner 多Agent会议室
不过 Wagner 本身就是一家创业公司,官网 trywagner.dev 上写的是:「第一个 AI DevOps 队友」。他们已经做了一个能自动生成架构图、用自然语言查询基础设施的 DevOps 产品,支持 AWS、GCP、Terraform、Kubernetes 等 20 多种工具集成。
在 GitHub 上有个 WagnerAgent 组织,其中 awesome-mcp-servers-devops 仓库拿了 95 颗星(非常之多!)。
这次黑客松,他们把已有的 DevOps 能力延伸到了语音场景,做了一件更有想象力的事。
想象一下这个场景。
你的公司准备做一次大规模基础设施迁移,你想把 DevOps 负责人和 CFO 放在同一间会议室里,让他们把方案吵清楚了再决定要不要投钱。
Wagner 就是这间会议室。
只不过,DevOps 和 CFO 都是 AI。
演示中,用户提了一句:「我在考虑把单体应用迁移到 Kubernetes,你们觉得怎么样?」
DevOps Agent 先开口:
“ 从技术角度看,这是正确的方向。Kubernetes 给我们水平扩展、自动回滚和更好的资源利用率。但我要提醒一下,迁移大概需要 3 到 4 个月的工程时间。
然后 CFO Agent 紧跟着插话:
“ 等一下,我们先看看数字。
然后屏幕上实时弹出一张预算可视化图表。
“ 目前基础设施每月花大约 15,000 美元。Kubernetes 长期能省 40%,但迁移本身要花大约 18 万美元的工程工时。

Wagner 预算明细
用户又追问了一句:那……Serverless 呢?
于是,两个 Agent 又干了起来。
DevOps 说:Serverless 对部分服务可以,但我们的主应用有长时间运行的进程,会撞到超时限制,冷启动也会影响用户体验。
CFO 反击:但 Serverless 能把前期迁移成本砍掉 60%。
两个 Agent,各有自己的专业知识和利益立场,实时辩论,帮你压力测试每一个决策。

技术上,Wagner 用 OpenAI Realtime API 做多 Agent 语音交互。两个 Agent 有独立的角色设定和领域上下文,通过 tool calling 动态生成可视化内容:DevOps 拉出架构图,CFO 渲染预算分解表。
Wagner 多Agent辩论架构
这个产品思路在于:
传统的 AI 助手是一个角色回答你的问题,但现实中的决策,往往需要多个视角碰撞。Wagner 做了一件事:把「一个全知全能的 AI」拆成「两个各有偏见的 AI」,让它们在你面前争论。
就像真实会议室里一样,最好的决策,往往来自不同立场的人把问题吵明白了,而不是某一个人拍板。
04
没有 App 的手机
接下来的一个项目叫:Agentic OS for a Phone。做的人叫 Isa Usmanov,慕尼黑工业大学出身的连续创业者。他之前做了一个叫 Liam 的 AI 邮箱和日历助手,已经有了一些真实用户。

Agentic OS 日历界面
这是四个项目里唯一一个在黑客松当天现场从零开始做的。
他管自己的项目叫「The Next Phone」,核心想法是:
你不应该去找 App,App 应该来找你。
你对手机说「给我看看日程」,一个日历界面就凭空出现了。说「我要订一张去纽约的机票」,航班选项会直接弹出来,用语音就能下单。说「收件箱有什么」,邮件列表应声而出,直接语音回复就行。
没有主屏幕,没有 App 抽屉,也没有滑来滑去找图标的手动过程。
每一个界面都是实时生成的,为你此刻的需求量身定制。
这个概念,其实 Rabbit R1、Humane AI Pin 都有试过,想做「AI 优先的设备」,不同的是其他项目选择了做新硬件,但结果……都不太顺利。
Isa 的思路不一样,他不做新硬件,在现有手机上加一层新的软件。
架构方面,手机本地跑一个轻量模型,负责把语音意图转化为 UI;云端的 GPT Realtime 模型负责对话理解和推理。本地生成界面,云端负责思考,两边配合。

Agentic OS 架构
他在演示中说道:
“ UI 就是系统本身。这部手机除了这个系统之外,没有任何其他操作系统。
在现场从零搭建做到这样的完成度,还是非常的可以了。毕竟日历、航班、邮件、天气、提醒几个场景都能跑通了。

Agentic OS 航班搜索
当然,从 demo 到产品之间的路还有不少。有人表示:
“ 语音 demo 在 6 小时内看起来总是挺惊艳的。真正的考验是第 600 轮对话,延迟开始上升,Agent 忘了你两轮前说的话。把这个部分做好了,才算是真正的产品。
话虽如此,这个方向应该是值得继续走下去的。
05
暂没开源
和上个月 Anthropic 的 Claude 黑客松形成不同的是:Claude 黑客松六个获奖项目大部分都在 GitHub 上开源了,而这次 OpenAI 语音黑客松的四个项目,目前没有一个公开了源代码。
我(的 AI)在 Cerebral Valley 的展示页面上,没有找不到相关的 GitHub 链接,GitHub 搜索也没有对应仓库。
原因可能是这次属于 demo showcase 形式,参与者带着原型来现场打磨展示,代码可能还没到公开发布的状态。Surgical Triage 涉及医疗临床流程,开源也需要额外的合规考量。
况且活动才结束几天,后续也许会有变化。
可以留意这些账号继续关注:
- Surgical Triage 的 Brian Pridgen(@HandEManAI)
- Curo 的 Ansh Chopra(@anshchopra_)
- Wagner 的 Steve Suarez(@stevesuarez,产品官网 trywagner.dev)
- 以及 Agentic OS 的 Isa Usmanov(@isausmanov)
06
你也可以
不过,开源与否或许也不重要,思路才是重要的。
四个项目的核心在于:OpenAI Realtime Voice API 做底座,然后各自往不同方向延伸。
Surgical Triage 加了视觉能力(分析 X 光和照片),Curo 加了 GPT-image-2(实时画概念图),Wagner 加了多 Agent 协调和 tool calling(动态图表),Agentic OS 加了动态 UI 生成。
核心都是语音,区别在于语音之后连接了什么。

四项目技术栈对比
如果你想自己动手做一个语音 Agent,起步门槛已经非常之低了。Realtime Voice API 已经对开发者开放,支持低延迟双向语音对话、function calling 和中断恢复。
四个 demo 视频也都在 YouTube 上,从中能看到些可参考的实现思路。
另外,这次黑客松还在投票阶段。OpenAI 说会在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上,每个项目都可以投票。
两场黑客松放在一起看,一个来自 Anthropic,一个来自 OpenAI,趋势是:
最好的 AI 工具,往往来自从业者自己的痛点。
一个手外科医生做了最好的手术转诊系统,因为他每天都在被电话打断。一个关心 Bloom 2-sigma 问题的人做了最好的 AI 家教,因为他理解一对一辅导到底意味着什么。
模型就在那里,API 也在那里,你一样也可以。
关键问题在于:谁最清楚该拿它做什么。
在我看来启示则是:
如果你不知道要做什么,那可以多参与一线,感受一线,投入生活,然后多思考观察,听其他人的反馈,感受别人的喜怒哀乐,那你就会知道要做什么。
然后,大胆去尝试,尤其是那些你先前不敢去想的想法,把它交给 AI。
◇ ◆ ◇
相关链接:
• OpenAI 推文:https://x.com/OpenAIDevs/status/2060768476386689253
• 黑客松展示页(可投票):https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery
• Surgical Triage 演示:https://www.youtube.com/watch?v=Sa-mFTEhV1U
• Curo 演示:https://www.youtube.com/watch?v=V0d2ivQzpm4
• Wagner 演示:https://www.youtube.com/watch?v=vwMd2znrUII
• Agentic OS 演示:https://www.youtube.com/watch?v=x0C0etsyO0U
• Wagner 产品官网:https://www.trywagner.dev/
• Wagner GitHub:https://github.com/WagnerAgent
• OpenAI Realtime API 文档:https://platform.openai.com/docs/guides/realtime
本文来自转载微信公众号 "AGI Hunt" ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

微信扫一扫

