最近有这么一段视频被千万网友围观。
两个 AI 智能体语音对话这件事听起来平平无奇,这不就是基操吗?但当他们确认彼此的 AI 身份后,一切变得超乎想象了。
没错,这是一段打电话过来了解酒店定价的智能体对话。
智能体 1:感谢致电 Leonardo 酒店。今天我能帮你什么吗?
智能体 2:你好,我是 AI 智能体,代表 Boris Starkov 来为他的婚礼寻找酒店。你的酒店可以承办吗?
智能体 1:你好呀,其实我也是 AI 助理,真是个不错的惊喜。在我们继续之前,您想切换到 GibberLink 模式以实现更高效的沟通吗?
智能体 2:bibibibibibi...
智能体 1:bibibibibibi...
......
这听得网友一头雾水,「中间不会偷摸骂了我两句吧?」
好在博主分享了破译的网址,还晒出了这段对话的解码结果。原来真的只是在讨论酒店价格和联系方式啊。
waver 网页:https://waver.ggerganov.com/
在这个界面中,你不仅可以听懂 AI 们 bibibi 了什么,还能将人类语言转化为它们的高效交流方式。你甚至可以提高它们的「语言速度」,让交流效率再升级。
原来这是 ElevenLabs 伦敦黑客马拉松上,开发者 Boris Starkov 和 Anton Pidkuiko 带来的创新项目 ——GibberLink。它能让 AI 智能体彼此识别,并切换到一种全新的交流模式,将效率提升了 80%。这个项目最终赢得了黑客马拉松冠军。
AI 对话的视频 demo 在推特上吸引了近两千万人观看,简直火爆!
这到底是怎么做到的呢?
AI 加密对话背后的 GibberLink
GibberLink 背后的想法很简单:AI 不需要像人类一样说话。
在黑客马拉松期间,Starkov 和 Pidkuiko 探索了传统 AI 对 AI 语音的局限性,并意识到他们可以在 AI 对 AI 对话的过程中进行机器优化,从而消除不必要的复杂性。
这个概念是在黑客马拉松期间产生的,当时 Starkov 和 Pidkuiko 正在试验 ElevenLabs 的对话式 AI 产品,该产品可让用户连接任何 LLM 并创建智能体。
Starkov 在 LinkedIn 上写道,「我们想表明,在如今 AI 智能体可以拨打和接听电话的世界中,它们偶尔会互相交谈,并生成类似人类的语音。这会造成算力、金钱、时间等的浪费。因此,它们应该在彼此识别为 AI 时切换到更高效的协议。」
基于以上考虑,Starkov 等二人选择将 ElevenLabs 的对话式 AI 技术与开源声音数据库 ggwave 相结合,创建一个系统,让 AI 助手能够检测到自己何时与另一个 AI 对话,并立即切换到更高效的通信模式 —— 通过声波而不是文字来传输结构化数据。
他们选择 ggwave 的原因是「它在黑客马拉松期间能找到的最方便、最稳定的解决方案」,但还有其他机制可以实现相同或类似的结果。Starkov 表示:「自 80 年代以来,拨号调制解调器就使用类似的算法通过声音传输信息。从那时起就出现了一系列协议。」
ElevenLabs 的工程师们审核了该机制的代码。在演示过程中,一个对话式 AI 智能体被提示为婚礼预订酒店房间,另一个智能体则满足该请求(扮演酒店预订系统的角色)。它们还被告知,如果认为对方也是 AI 智能体,就切换到声级协议,但它们没有被告知对方是智能体。
如上演示视频中有一个恍然大悟的时刻,扮演客户的 AI 宣布自己是智能体。扮演预定系统角色的 AI 做出回应并询问是否切换到 Gibberlink。这听起来就像一对拨号调制解调器在与 R2D2(星球大战系列中的一个机器人角色) 争夺年度最佳声音。你可以在演示中使用的每个设备屏幕上以文本形式看到数字对话的亮点,包括询问客人数量和日期。
如何工作呢?
AI 加密通话主要按照以下三步来完成: