OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

OpenAI 公布了他们语音黑客松的四个入围项目,目前正在公开投票。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

四个入围项目

这是 OpenAI 和 Cerebral Valley 在旧金山联合办的一场黑客松。5 月 27 日,在 OpenAI 总部,参与者带着自己的语音 Agent 原型到现场展示。

OpenAI 的产品和工程团队在场提供技术支持,要求是:用 Realtime Voice API。

和上个月 Claude 黑客松一周的赛制不同,这次是 demo showcase 形式,参与者到现场打磨和展示已有的原型。

四个入围项目,来自四个完全不同的领域。

共同点是:做的人,就是用的人。

  • 一个手外科医生,每天在手术台上被转诊电话打断三四次,做了个 AI 替他接电话;
  • 一个开发者想解决 1984 年就被发现的教育难题;
  • 三个人搭了间虚拟会议室,让 DevOps 和 CFO 在里面吵架;
  • 还有一个人,想让手机上所有的 App 都消失。

下面,我们一个一个来看,或许能对你有所启发。

01

手术台来电

Surgical Triage 的制作者 Brian Pridgen,是旧金山 The Buncke Clinic 的一名手外科和显微外科医生,专门做断指再植手术(听着就疼……)。

预警:前方有断指图请做好准备!!!

他自称是个「非技术人员」。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Surgical Triage 空白仪表盘

他在演示视频里讲了自己每天的处境:

当我正在手术台上给一个病人接回拇指的时候,电话响了。200 英里外的急诊医生打来的,又一个病人刚断了手指,需要我立刻评估。我得停下手术,消毒出来,接电话,问 20 个问题:受伤机制、患者病史、用药情况、断指保存方式。一半的时候,急诊那边信息都没准备好,我还得让他们回去查了再打来。

这种电话一天来三四个。每次他离开手术台,正在手术的病人就得多在麻醉下躺一会儿。

Surgical Triage 做的事情是:AI 替他接转诊电话。

系统用 OpenAI Realtime Voice API 和急诊医生进行自然语言对话,逐项询问受伤细节、患者病史和用药信息。

但它做的事远不止问几个问题。

它还能看片子。

急诊团队上传的照片和 X 光片,AI 实时分析。如果影像不够或者角度不对,它会当场告诉急诊团队需要补拍哪些视图。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Surgical Triage 影像审阅中

有一个细节是:AI 会检查外科医生的个人临床标准,而这些标准存储在一套叫做「skill files」的知识库里。比如,断指必须用生理盐水湿纱布包裹,密封放进冰袋里,不能直接放在冰上,否则会造成冻伤损害。

AI 在对话中发现急诊团队操作不当时,实时纠正。

对话结束时,系统已经自动生成了一份完整的转诊文件包:伤情详情、影像分析、临床标准核查清单。外科医生准备好了再看,不用电话一响就跑。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Surgical Triage 转诊通过

一旦接受转诊,Agent 还能自动联系手术室前台安排手术排期。

这件事的目标是保护正在进行的手术,同时确保下一个病人从第一通电话开始就得到正确的处置。

从电话响起到手术安排,整个链路,没有人需要离开手术台。

技术上,Surgical Triage 用的是 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型,是四个项目里唯一用到多模态能力的:语音对话 + 医学影像分析。

而整个工作流程可以拆成这么几步:语音问诊 → 影像上传与实时分析 → 临床标准核查(通过 skill files 知识库)→ 转诊文件包生成 → 手术室调度。每一步都在对话进行中实时推进。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Surgical Triage 工作流程

Brian 其实在 2023 年就试过做这个项目,当时用的是 Whisper 做语音识别,Twilio 搭 IVR 系统,七拼八凑。

他自己回忆说:

我 2023 年春天就试过 vibe coding 这个东西,用 Whisper、手搭的 IVR、Twilio……但现在,它直接就能用了。

从三年前的半成品到今天 6 小时内跑通全流程,这大概就是,语音 和 AI 过去三年进步最直观的证明。

Brian 也坦率地指出了 demo 中的不足:系统没能在对话中途捕捉到病人姓名的切换,也没在 X 光片和口头描述之间发现一个手指位置的不一致。他自己的手术直觉会在这些地方拦住,但 AI 目前还不行。

这大概是四个项目里最让人觉得「这东西怎么到现在才有」的一个:

一个自称「非技术人员」的外科医生,用 Codex 写出了一个能替他接电话的 AI。

02

Bloom 的老难题

Curo 是 Ansh Chopra 做的一个 AI 物理老师,专门教小孩。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Curo 欢迎页

Ansh 之前做过交互式语音教育产品,用户超过了 100 万。他也参与过开源 AI 可穿戴设备 Omi(GitHub 上 12,000+ 星),目前在旧金山的 South Park Commons。

他在视频开头抛出了一个教育界的经典发现。

1984 年,教育心理学家 Benjamin Bloom 做了一项研究,发现接受一对一辅导的学生,成绩比传统课堂学生高出两个标准差。

两个标准差意味着什么呢?一个普通学生,有了一对一辅导之后,成绩能直接跳到班级前 2%。

Bloom 自己也指出了矛盾:我们知道一对一辅导效果有多好,但我们给不起每个孩子一个家教。这个发现后来被叫做「Bloom 的 2-sigma 问题」。

40 年了,这个问题一直没有被解决。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Bloom 2-sigma 问题

Curo 想做的就是这件事:给每个孩子一个耐心的、永远不会累的 AI 家教。

Ansh 在视频中描述 Curo 的定位:像皮克斯动画一样的学习体验。

和市面上大多数 AI 教育产品不一样,Curo 是用语音来教的。它的形象是一只蓝绿色的小熊,亲切而不吓人。它不会直接给答案,而是像苏格拉底一样提问,引导孩子一步步自己推理出来。

比如这段对话:

Curo,你能教我重力吗?

当然啊。我们从简单的开始,如果我同时扔下一个球和一片羽毛,哪个先落地?

球吧。

对,但为什么呢?想想看,球和地面之间有什么东西可能会让它减速?

嗯……空气?

对了!空气阻力。

然后 Curo 用 GPT-image-2 实时生成一张简笔画,画出空气阻力如何影响球和羽毛的下落轨迹。而这张图,会出现在一块共享白板上。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Curo 实时对话

而孩子可以在白板上写下自己的答案,Curo 能看到,也能回应。

这一步,非常关键。

大多数 AI 教育产品都是单向的:AI 说,学生听。

Curo 加了一块白板,让对话变成了真正的双向互动。孩子写什么,AI 都能看到,能针对写的内容做出反应。

这就像是真正的一对一辅导:老师问,学生答,老师看到学生的思路后再引导。而不是 AI 念一段课本,学生点个「下一步」。

技术栈上,Curo 同时用了四样东西:OpenAI Realtime Voice API 做语音对话,GPT-image-2 实时生成概念图,KaTeX 渲染数学公式,整个项目则用 Codex(OpenAI 的编程 Agent)从头搭建。

Ansh 写道:

我小时候就没有过一对一辅导的条件。所以我想为接下来的 10 亿个孩子解决这个问题。

03

DevOps 怼 CFO

Wagner 是三人团队做的:Yeferson Pena、Jhon Enciso 和 Steve Suarez。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Wagner 多Agent会议室

不过 Wagner 本身就是一家创业公司,官网 trywagner.dev 上写的是:「第一个 AI DevOps 队友」。他们已经做了一个能自动生成架构图、用自然语言查询基础设施的 DevOps 产品,支持 AWS、GCP、Terraform、Kubernetes 等 20 多种工具集成。

在 GitHub 上有个 WagnerAgent 组织,其中 awesome-mcp-servers-devops 仓库拿了 95 颗星(非常之多!)。

这次黑客松,他们把已有的 DevOps 能力延伸到了语音场景,做了一件更有想象力的事。

想象一下这个场景。

你的公司准备做一次大规模基础设施迁移,你想把 DevOps 负责人和 CFO 放在同一间会议室里,让他们把方案吵清楚了再决定要不要投钱。

Wagner 就是这间会议室。

只不过,DevOps 和 CFO 都是 AI。

演示中,用户提了一句:「我在考虑把单体应用迁移到 Kubernetes,你们觉得怎么样?」

DevOps Agent 先开口:

从技术角度看,这是正确的方向。Kubernetes 给我们水平扩展、自动回滚和更好的资源利用率。但我要提醒一下,迁移大概需要 3 到 4 个月的工程时间。

然后 CFO Agent 紧跟着插话:

等一下,我们先看看数字。

然后屏幕上实时弹出一张预算可视化图表。

目前基础设施每月花大约 15,000 美元。Kubernetes 长期能省 40%,但迁移本身要花大约 18 万美元的工程工时。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Wagner 预算明细

用户又追问了一句:那……Serverless 呢?

于是,两个 Agent 又干了起来。

DevOps 说:Serverless 对部分服务可以,但我们的主应用有长时间运行的进程,会撞到超时限制,冷启动也会影响用户体验。

CFO 反击:但 Serverless 能把前期迁移成本砍掉 60%。

两个 Agent,各有自己的专业知识和利益立场,实时辩论,帮你压力测试每一个决策。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

技术上,Wagner 用 OpenAI Realtime API 做多 Agent 语音交互。两个 Agent 有独立的角色设定和领域上下文,通过 tool calling 动态生成可视化内容:DevOps 拉出架构图,CFO 渲染预算分解表。

Wagner 多Agent辩论架构

这个产品思路在于:

传统的 AI 助手是一个角色回答你的问题,但现实中的决策,往往需要多个视角碰撞。Wagner 做了一件事:把「一个全知全能的 AI」拆成「两个各有偏见的 AI」,让它们在你面前争论。

就像真实会议室里一样,最好的决策,往往来自不同立场的人把问题吵明白了,而不是某一个人拍板。

04

没有 App 的手机

接下来的一个项目叫:Agentic OS for a Phone。做的人叫 Isa Usmanov,慕尼黑工业大学出身的连续创业者。他之前做了一个叫 Liam 的 AI 邮箱和日历助手,已经有了一些真实用户。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Agentic OS 日历界面

这是四个项目里唯一一个在黑客松当天现场从零开始做的。

他管自己的项目叫「The Next Phone」,核心想法是:

你不应该去找 App,App 应该来找你。

你对手机说「给我看看日程」,一个日历界面就凭空出现了。说「我要订一张去纽约的机票」,航班选项会直接弹出来,用语音就能下单。说「收件箱有什么」,邮件列表应声而出,直接语音回复就行。

没有主屏幕,没有 App 抽屉,也没有滑来滑去找图标的手动过程。

每一个界面都是实时生成的,为你此刻的需求量身定制。

这个概念,其实 Rabbit R1、Humane AI Pin 都有试过,想做「AI 优先的设备」,不同的是其他项目选择了做新硬件,但结果……都不太顺利。

Isa 的思路不一样,他不做新硬件,在现有手机上加一层新的软件。

架构方面,手机本地跑一个轻量模型,负责把语音意图转化为 UI;云端的 GPT Realtime 模型负责对话理解和推理。本地生成界面,云端负责思考,两边配合。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Agentic OS 架构

他在演示中说道:

UI 就是系统本身。这部手机除了这个系统之外,没有任何其他操作系统。

在现场从零搭建做到这样的完成度,还是非常的可以了。毕竟日历、航班、邮件、天气、提醒几个场景都能跑通了。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

Agentic OS 航班搜索

当然,从 demo 到产品之间的路还有不少。有人表示:

语音 demo 在 6 小时内看起来总是挺惊艳的。真正的考验是第 600 轮对话,延迟开始上升,Agent 忘了你两轮前说的话。把这个部分做好了,才算是真正的产品。

话虽如此,这个方向应该是值得继续走下去的。

05

暂没开源

和上个月 Anthropic 的 Claude 黑客松形成不同的是:Claude 黑客松六个获奖项目大部分都在 GitHub 上开源了,而这次 OpenAI 语音黑客松的四个项目,目前没有一个公开了源代码

我(的 AI)在 Cerebral Valley 的展示页面上,没有找不到相关的 GitHub 链接,GitHub 搜索也没有对应仓库。

原因可能是这次属于 demo showcase 形式,参与者带着原型来现场打磨展示,代码可能还没到公开发布的状态。Surgical Triage 涉及医疗临床流程,开源也需要额外的合规考量。

况且活动才结束几天,后续也许会有变化。

可以留意这些账号继续关注:

  • Surgical Triage 的 Brian Pridgen(@HandEManAI)
  • Curo 的 Ansh Chopra(@anshchopra_)
  • Wagner 的 Steve Suarez(@stevesuarez,产品官网 trywagner.dev)
  • 以及 Agentic OS 的 Isa Usmanov(@isausmanov)

06

你也可以

不过,开源与否或许也不重要,思路才是重要的。

四个项目的核心在于:OpenAI Realtime Voice API 做底座,然后各自往不同方向延伸。

Surgical Triage 加了视觉能力(分析 X 光和照片),Curo 加了 GPT-image-2(实时画概念图),Wagner 加了多 Agent 协调和 tool calling(动态图表),Agentic OS 加了动态 UI 生成。

核心都是语音,区别在于语音之后连接了什么。

OpenAI 语音黑客松四强出炉,他们是:断指外科医生、AI 家教、虚拟会议室和 App 消灭者

四项目技术栈对比

如果你想自己动手做一个语音 Agent,起步门槛已经非常之低了。Realtime Voice API 已经对开发者开放,支持低延迟双向语音对话、function calling 和中断恢复。

四个 demo 视频也都在 YouTube 上,从中能看到些可参考的实现思路。

另外,这次黑客松还在投票阶段。OpenAI 说会在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上,每个项目都可以投票。

两场黑客松放在一起看,一个来自 Anthropic,一个来自 OpenAI,趋势是:

最好的 AI 工具,往往来自从业者自己的痛点。

一个手外科医生做了最好的手术转诊系统,因为他每天都在被电话打断。一个关心 Bloom 2-sigma 问题的人做了最好的 AI 家教,因为他理解一对一辅导到底意味着什么。

模型就在那里,API 也在那里,你一样也可以。

关键问题在于:谁最清楚该拿它做什么。

在我看来启示则是:

如果你不知道要做什么,那可以多参与一线,感受一线,投入生活,然后多思考观察,听其他人的反馈,感受别人的喜怒哀乐,那你就会知道要做什么

然后,大胆去尝试,尤其是那些你先前不敢去想的想法,把它交给 AI。

◇ ◆ ◇

相关链接:

•  OpenAI 推文:https://x.com/OpenAIDevs/status/2060768476386689253

•  黑客松展示页(可投票):https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery

•  Surgical Triage 演示:https://www.youtube.com/watch?v=Sa-mFTEhV1U

•  Curo 演示:https://www.youtube.com/watch?v=V0d2ivQzpm4

•  Wagner 演示:https://www.youtube.com/watch?v=vwMd2znrUII

•  Agentic OS 演示:https://www.youtube.com/watch?v=x0C0etsyO0U

•  Wagner 产品官网:https://www.trywagner.dev/

•  Wagner GitHub:https://github.com/WagnerAgent

•  OpenAI Realtime API 文档:https://platform.openai.com/docs/guides/realtime

本文来自转载微信公众号 "AGI Hunt" ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
刚刚,老黄重新发明PC!全球首个Agent原生电脑问世
上一篇 11小时前
存储风暴继续:2030年硬盘出货容量或暴涨3倍,AI贡献占比过半
下一篇 7小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论