OpenAI 已开始为 ChatGPT Plus 和 Teams 用户推出其备受期待的高级语音模式,这标志着朝着更像人类的 AI 交互又迈进了一步。
该功能允许由 OpenAI 的最新模型 GPT-4o 提供支持的实时、流畅的对话,该模型结合了文本、视觉和音频以提供更快的响应。
“Advanced Voice 将在一周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出,”OpenAI 在一条官方推文中说,“它还可以用 50 多种语言说’对不起,我迟到了’,”它补充说——解决了这个项目经历的长时间延迟。
Advanced Voice 将在本周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出。
在您耐心等待的同时,我们添加了自定义说明、记忆、五种新语音和改进的口音。
它还可以用 50 多种语言说“对不起,我迟到了”。pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) 2024 年 9 月 24 日
不用说,仍然缺少一个值得注意的元素:性感且绝对过于人类化的“天空”声音,这因其与女演员斯嘉丽·约翰逊 (Scarlett Johansson) 的惊人相似而引起了轰动。在她的法律团队向 OpenAI 的首席执行官山姆·奥特曼 (Sam Altman) 致信后,OpenAI 搁置了 Sky 的声音,坚称约翰逊独特的声音与 Sky 之间的任何相似之处纯属巧合。
相反,OpenAI 引入了五种新声音:Arbor、Maple、Sol、Spruce 和 Vale,它们可用于标准和高级语音模式。这些加入了之前提供的 Breeze、Juniper、Cove 和 Ember。(出于某种原因,该公司似乎以肥皂香水命名它们。Plus 和 Team 级别的用户将逐渐获得这些新语音的访问权限,这些语音旨在使对话更加自然,具有情感响应能力以及即时打断和切换主题的能力。
此外,OpenAI 正在增加与自定义指令和“记忆”的兼容性,以允许用户进一步个性化他们的 ChatGPT 体验,根据自己的喜好定制交互。就像基于文本的聊天机器人会从您的指示(即您的姓名、职业以及您可能喜欢阅读的答案类型)中学习一样,新的声音会尝试从您的对话中学习,使它们更自然、更熟悉并适应您的喜好。
欧盟、英国、瑞士、冰岛、挪威和列支敦士登的用户将不得不等待,因为该功能尚未在这些地区推出。根据 OpenAI 的时间表,Enterprise 和 Edu 用户可以期待从下周开始访问。推出速度很慢,而且并非所有用户(即使是来自受支持区域的用户)都可以使用该功能。
OpenAI 还优化了流行外语的口音,提高了对话速度和流畅度。设计也进行了更新,带有一个动画蓝色球体,在视觉上代表了发生的语音交互,并且比他们过去显示的极简黑点更美观。
虽然 OpenAI 继续改进其语音 AI 产品,但该领域的竞争一直在升温。
Google 的 NotebookLM 目前凭借一些最接近人类的 AI 语音树立了标杆,能够以非凡的真实感模拟 AI 生成的扬声器之间的整个辩论。
据 Decrypt 此前报道,谷歌的 AI 工具可以处理多达 100 万个数据令牌,并允许用户与之交互。一旦用户上传了一组包含不同类型信息的特定文档,Notebook LM 就可以生成长达 10 分钟的音频,由两个 AI 讨论该特定信息。结果几乎是极其逼真的。
除了谷歌,Meta 也通过自己的实时助手 Meta AI 加入了竞争,尽管它尚未广泛使用。该助手还能够与用户进行自然对话,流畅地处理命令。这种声音比我们在大多数 AI 助手中看到的典型机器人声音更自然,但它仍然有一些好处,例如语音节奏和速度,使其可以识别为 AI 生成的。也就是说,路透社报道称,Meta 即将推出的聊天机器人将拥有 Judy Dench 和 Michael Cerna 的角色。这不是 Scarlet Johansson,但也不是切碎的肝脏。
发表评论
您还未登录,请先登录。
登录