OpenAI源代码分享！实时AI Agent，20分钟开发语音智能体

理想主义者今天 8

默认

摘要： 芒果出品央视热播剧日光之城里有一个片段父亲土登是藏戏戏团的引领者而他的大儿子索朗并非是省油的灯土登希望他能够考公因为他觉得只有考公才是正经的道路和选择而索声明本文来自于微信公众号开...

芒果出品央视热播剧《日光之城》里有一个片段：父亲土登是藏戏戏团的引领者，而他的大儿子索朗并非是“省油的灯”。土登希望他能够考公，因为他觉得，只有考公才是正经的道路和选择；而索....

声明:本文来自于微信公众号 AIGC开放社区，作者:AIGC开放社区，授权转载发布。

让你开发一个语音智能体应用原型大概需要多久?3天?5天?，刚分享了一个基于Realtime（实时）API开发的多层级高级AI Agent，只用了20分钟!

OpenAI已经在github公开了源代码，虽然只是一个演示demo但很快就突破了1200颗星，尤其是超高的开发效率让很多老手都感到惊讶。

代码地址:https://github.com/openai/openai-realtime-agents?tab=readme-ov-file

实时Agent技术特点

实时Agent能提供的数据交互能力，在用户说话的同时就能立刻响应，极大减少了等待时间，同时优化了数据传输和处理流程，确保了率和低延迟，这对于开发语音类智能体重要。

多层级协作Agent框架，提供了一个预定义的Agent流程图，开发者可以快速配置和使用。每个Agent都有明确的职责和任务，确保任务能够按照预设的顺序顺利进行，减少了大量从头设计任务流程的时间。

实时Agent还支持灵活的任务交接，Agent之间可以无缝传递任务，确保每个步骤都能由最合适的Agent处理，大大提高了任务处理的效率和准确性。

状态机驱动的任务处理是实时Agent另外一大技术亮点。通过状态机将复杂的任务分解为多个小步骤，逐步处理。每个步骤都有明确的状态和转换条件，确保任务能够按顺序、逐步完成。

同时状态机可以实时监控任务的执行状态，根据用户的输入和反馈进行调整。如果用户在某个步骤中遇到问题，状态机可以及时调整任务流程，提供帮助或重新引导用户。

借助大模型提升Agent决策能力，在面对复杂或重要的任务决策时，实时Agent可以自动将任务升级到更智能的大模型，例如，OpenAI的o1-mini。开发者也可以根据任务的具体需求，选择合适的大模型。

清晰可视化WebRTC 界面，用户可以通过下拉菜单选择不同的场景和Agent，实时查看对话记录和事件日志。

提供详细的事件日志和监控功能，为开发者提供了强大的调试和优化工具。详细的事件日志，记录了客户端和服务器的事件。开发者可以通过这些日志，实时监控任务的执行状态，及时发现和问题。

通过实时监控可以及时发现Agent性能瓶颈，进行特定的优化和调整。例如，如果某个Agent的响应时间过长，可以及时调整任务分配，确保系统的整体性能。

此外，这个实时Agent还借鉴了之前OpenAI开源的著名多层级协作Agent框架swarm，所以，在业务执行和稳定性方面可靠。

有网友表示，两个月前，花了2—3时间开发了一个实时语音应用。当然，Twilio API 花了不少时间，但只用20分钟内就能做出一个最小可行产品（MVP）真是太令人惊讶了。

在不到20分钟，使用多Agent流程构建一个语音应用原型……惊掉下巴。