OpenAI 推出 ChatGPT 高级语音模式，带来更自然的对话体验-安全KER

OpenAI 已开始为 ChatGPT Plus 和 Teams 用户推出其备受期待的高级语音模式，这标志着朝着更像人类的 AI 交互又迈进了一步。

该功能允许由 OpenAI 的最新模型 GPT-4o 提供支持的实时、流畅的对话，该模型结合了文本、视觉和音频以提供更快的响应。

“Advanced Voice 将在一周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出，”OpenAI 在一条官方推文中说，“它还可以用 50 多种语言说’对不起，我迟到了’，”它补充说——解决了这个项目经历的长时间延迟。

Advanced Voice 将在本周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出。

在您耐心等待的同时，我们添加了自定义说明、记忆、五种新语音和改进的口音。

它还可以用 50 多种语言说“对不起，我迟到了”。pic.twitter.com/APOqqhXtDg

— OpenAI （@OpenAI） 2024 年 9 月 24 日

不用说，仍然缺少一个值得注意的元素：性感且绝对过于人类化的“天空”声音，这因其与女演员斯嘉丽·约翰逊（Scarlett Johansson）的惊人相似而引起了轰动。在她的法律团队向 OpenAI 的首席执行官山姆·奥特曼（Sam Altman）致信后，OpenAI 搁置了 Sky 的声音，坚称约翰逊独特的声音与 Sky 之间的任何相似之处纯属巧合。

相反，OpenAI 引入了五种新声音：Arbor、Maple、Sol、Spruce 和 Vale，它们可用于标准和高级语音模式。这些加入了之前提供的 Breeze、Juniper、Cove 和 Ember。（出于某种原因，该公司似乎以肥皂香水命名它们。Plus 和 Team 级别的用户将逐渐获得这些新语音的访问权限，这些语音旨在使对话更加自然，具有情感响应能力以及即时打断和切换主题的能力。

此外，OpenAI 正在增加与自定义指令和“记忆”的兼容性，以允许用户进一步个性化他们的 ChatGPT 体验，根据自己的喜好定制交互。就像基于文本的聊天机器人会从您的指示（即您的姓名、职业以及您可能喜欢阅读的答案类型）中学习一样，新的声音会尝试从您的对话中学习，使它们更自然、更熟悉并适应您的喜好。

欧盟、英国、瑞士、冰岛、挪威和列支敦士登的用户将不得不等待，因为该功能尚未在这些地区推出。根据 OpenAI 的时间表，Enterprise 和 Edu 用户可以期待从下周开始访问。推出速度很慢，而且并非所有用户（即使是来自受支持区域的用户）都可以使用该功能。

OpenAI 还优化了流行外语的口音，提高了对话速度和流畅度。设计也进行了更新，带有一个动画蓝色球体，在视觉上代表了发生的语音交互，并且比他们过去显示的极简黑点更美观。

虽然 OpenAI 继续改进其语音 AI 产品，但该领域的竞争一直在升温。

Google 的 NotebookLM 目前凭借一些最接近人类的 AI 语音树立了标杆，能够以非凡的真实感模拟 AI 生成的扬声器之间的整个辩论。

据 Decrypt 此前报道，谷歌的 AI 工具可以处理多达 100 万个数据令牌，并允许用户与之交互。一旦用户上传了一组包含不同类型信息的特定文档，Notebook LM 就可以生成长达 10 分钟的音频，由两个 AI 讨论该特定信息。结果几乎是极其逼真的。

除了谷歌，Meta 也通过自己的实时助手 Meta AI 加入了竞争，尽管它尚未广泛使用。该助手还能够与用户进行自然对话，流畅地处理命令。这种声音比我们在大多数 AI 助手中看到的典型机器人声音更自然，但它仍然有一些好处，例如语音节奏和速度，使其可以识别为 AI 生成的。也就是说，路透社报道称，Meta 即将推出的聊天机器人将拥有 Judy Dench 和 Michael Cerna 的角色。这不是 Scarlet Johansson，但也不是切碎的肝脏。