原创ChatGPT

OpenAI新模型Voice Engine(AI语言模型获得突破)

OpenAI最近似乎保持了相对低调,但事实上,这家AI领军企业绝不敢松懈。无论是发布新产品,还是研发新技术,他们都在紧锣密鼓地推进。

3月30日,OpenAI宣布推出了全新的人工智能语音模型——Voice Engine。这并非全新开发,事实上自2022年开始,OpenAI就一直在暗中研发这一模型。

Voice Engine的工作原理简单高效,能够高质量合成逼真的人声


对于这款最新模型,OpenAI在官方推特上措辞小心谨慎,表示"我们正在分享从Voice Engine模型的小规模预览中获得的经验"。事实上,Voice Engine展现出了出色的工作效率。

其最大亮点是语音克隆技术。用户只需录制15秒的语音样本,Voice Engine就能生成与之几乎一模一样的合成声音。无论面对何种文本输入,它都能以近乎完美的克隆声音朗读出来。

这项技术的出现必将深刻影响诸如播客主播、配音演员、游戏主播、销售人员等众多职业。

另外,OpenAI还强调了Voice Engine在辅助语障人群方面的独特能力。它能为语障人士提供个性化、天然的语音输出,从而满足他们在治疗和教育等方面的特殊需求。

一旦Voice Engine投入使用,它不仅能实现更真实的人声复制,更重要的是还能应用于诸如为儿童朗读故事书、企业产品介绍、医疗咨询等各种场景。它支持多种语言,能模仿出不同语调情感,用途广泛。

语音合成技术的应用实例早已存在

正如前文所述,早在2022年底,OpenAI就在ChatGPT语音输出和文本转语音API中使用了Voice Engine。在展望它未来更广泛的应用前,我们先看看它已有的实践案例。

首先,Voice Engine可通过自然富有感情的语音,为非读者和儿童提供阅读辅助。一家教育科技公司Age of Learning便一直利用它生成画外音和与学生互动的个性化回应。

其次,Voice Engine可翻译视频内容等。创作者和企业可借助它用自身声音向全球观众传播内容。视觉故事平台HeyGen就是早期应用者,它将视频翻译成多种语言的同传,并能保留演讲者的原生口音。

此外,Voice Engine还可为语障群体提供支持,为患有影响语言功能的疾病者提供治疗,为有学习需求者提供教育辅助服务,并提供多种语言的人性化语音输出选择。

尽管语音合成AI被视为OpenAI的又一重大突破,由于担心技术被滥用,OpenAI暂无完全公开的计划。

同样原因,OpenAI于2月推出的视频生成AI"Sora"也未公开。面对生成式AI技术日益普及所带来的滥用风险,OpenAI对商用化态度较为审慎,以确保安全负责任的使用。

不过,我们无法否认生成式AI的巨大潜力,终将会有落地应用的一天。相比"审慎开放"或"拒绝开放",我们不如提前做好评估和防范。比如逐步淘汰基于语音的身份验证措施、教育公众了解AI能力和局限性、加快开发追踪视听内容来源的技术等,这些都是必要之举。无论OpenAI如何部署,了解其发展趋势十分重要。

在生成式AI领域,OpenAI是否依旧领跑?

从2022年就开始孵化Voice Engine来看,OpenAI很早就布局了语音合成赛道。现在公开的可能只是小试牛刀,内部或已完成了大幅迭代。而且,据独家报道,微软和OpenAI将共同打造一台拥有数百万GPU的1000亿美元超级计算机"星门",为OpenAI的AI提供强大算力支持,将直接大幅提升其现有技术水平。

从官方声明看,OpenAI短期内似乎不会在语音合成领域推出重大更新,这可能出于重塑企业形象和公信力的考虑。但我们可以期待未来它如何将Sora和Voice Engine整合进下代GPT系统,一旦实现,OpenAI在生成式AI领域的领先地位将更加巩固。


本文来自投稿,不代表本站立场,如若转载,请注明出处并保留链接:https://www.metaguan.cn/chatgpt/4190.html
AI开疆拓土,英伟达"王炸"芯片引领新纪元
« 上一篇 03-29
ChatGPT3.5无需注册(官方GPT3.5免费使用)
下一篇 » 04-02

最新文章

推荐文章

0赞, 阅读:657
0赞, 阅读:841
0赞, 阅读:803
0赞, 阅读:896
0赞, 阅读:552

热点文章

标签TAG