您的位置:首页 > 科技 >

IBM的AI通过5分钟的交谈就能产生高质量的声音

2019-10-06 16:22:47 来源:新媒体传播网

训练功能强大的文本到语音模型需要足够强大的硬件。OpenAI最近发布的一项研究将这一点推向了现实-它发现自2012年以来,最大规模运行中使用的计算量增长了300,000倍以上。为了追求要求较低的模型,IBM的研究人员开发了一种新的轻量级和模块化的语音合成方法。他们说,通过学习演讲者语音的不同方面,它可以实时合成高质量的语音,从而可以适应少量数据而适应新的演讲风格和语音。

IBM研究人员Zvi写道:“深度学习的最新进展通过更有效地学习说话者的语音和说话方式以及更自然地生成高质量的输出语音,极大地改善了语音合成(TTS)系统的开发。” Kons,Slava Shechtman和Alex Sorin在博客上发表了伴随着Interspeech 2019上发表的预印本的论文。“但是,要生成这种高质量的语音,大多数TTS系统都依赖于难以训练和执行的大型和复杂的神经网络模型。即使使用GPU,也不允许实时语音合成。为了解决这些挑战,我们的…团队开发了一种基于模块化体系结构的神经语音合成新方法。

IBM团队的系统由三个相互联系的部分组成:韵律特征预测器,声学特征预测器和神经声码器。韵律预测位学习语音样本的持续时间,音调和能量,以更好地表现说话者的风格为目标。至于声学特征的产生,它在训练或适应数据中创建说话者声音的表示,而声码器从声学特征中生成语音样本。

基于来自目标说话者的少量数据,所有组件一起工作,以通过重新训练使合成语音适应目标说话者。在一项涉及志愿者的测试中,志愿者被要求收听并评估成对的合成语音和自然语音样本的质量,该团队报告说,该模型保持了与原始说话者相同的高质量和相似性,而语音仅需五分钟即可接受训练。

这项工作是IBM新的Watson TTS服务的基础,可以在这里听到。(从下拉菜单中选择“ V3”声音。)

这项新研究是在IBM科学家详细介绍了将AI语音识别培训时间从一周减少到11个小时的自然语言处理技术之后的几个月。另外,在5月,IBM团队完成了一个新颖的系统的总结,该系统在广播新闻字幕任务上实现了“行业领先”的结果。

栏目导读

IDEMIA Identity&Security USA授权ORNL先进的光学阵列

IDEMIA Identity&Security USA已授权在能源部橡树岭国家实验室开发的先进光学阵列。便携式技术可用于帮助识别具有挑战性的...

2019-08-10 18:16

自动驾驶汽车开发商可以选择传感器融合解决方案和L2 +功能

2018是每年在技术进步的自主驾驶(AD)的市场重点放在共享平台的移动性,整合电气 电子(E E)架构人工智能在AD的各个方面...

2019-08-14 10:24

ITC Infotech将创建一个智能数字劳动力

ITC Infotech是全球领先的技术解决方案和服务提供商,也是ITC Ltd 的全资子公司,正在推出一种独特的数字化劳动力解决方案...

2019-08-14 13:51

中国人工智能的独角兽企业Squirrel AI Learning深入参与的研究项目

深度学习的第一个国际研讨会:方法和应用(DLG 2019)在苏州举行,阿拉斯加,美国于2019年8月5。值得一提的是,在中国人工智能...

2019-08-14 15:17

新的类似Spectre的CPU漏洞绕过了现有的防御

安全研究人员发现了一种新的方法来滥用现代CPU的推测执行机制来打破安全边界并泄漏内核内存的内容。这项新技术滥用了一个名为...

2019-08-14 15:48
焦点
头条关注
热点新闻