IBM的AI通过5分钟的交谈就能产生高质量的声音

2019-10-06 16:22:47　来源：新媒体传播网

训练功能强大的文本到语音模型需要足够强大的硬件。OpenAI最近发布的一项研究将这一点推向了现实-它发现自2012年以来，最大规模运行中使用的计算量增长了300,000倍以上。为了追求要求较低的模型，IBM的研究人员开发了一种新的轻量级和模块化的语音合成方法。他们说，通过学习演讲者语音的不同方面，它可以实时合成高质量的语音，从而可以适应少量数据而适应新的演讲风格和语音。

IBM研究人员Zvi写道：“深度学习的最新进展通过更有效地学习说话者的语音和说话方式以及更自然地生成高质量的输出语音，极大地改善了语音合成(TTS)系统的开发。” Kons，Slava Shechtman和Alex Sorin在博客上发表了伴随着Interspeech 2019上发表的预印本的论文。“但是，要生成这种高质量的语音，大多数TTS系统都依赖于难以训练和执行的大型和复杂的神经网络模型。即使使用GPU，也不允许实时语音合成。为了解决这些挑战，我们的…团队开发了一种基于模块化体系结构的神经语音合成新方法。

IBM团队的系统由三个相互联系的部分组成：韵律特征预测器，声学特征预测器和神经声码器。韵律预测位学习语音样本的持续时间，音调和能量，以更好地表现说话者的风格为目标。至于声学特征的产生，它在训练或适应数据中创建说话者声音的表示，而声码器从声学特征中生成语音样本。

基于来自目标说话者的少量数据，所有组件一起工作，以通过重新训练使合成语音适应目标说话者。在一项涉及志愿者的测试中，志愿者被要求收听并评估成对的合成语音和自然语音样本的质量，该团队报告说，该模型保持了与原始说话者相同的高质量和相似性，而语音仅需五分钟即可接受训练。

这项工作是IBM新的Watson TTS服务的基础，可以在这里听到。(从下拉菜单中选择“ V3”声音。)

这项新研究是在IBM科学家详细介绍了将AI语音识别培训时间从一周减少到11个小时的自然语言处理技术之后的几个月。另外，在5月，IBM团队完成了一个新颖的系统的总结，该系统在广播新闻字幕任务上实现了“行业领先”的结果。

郑重声明:本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

热点推荐

· 看看在黑暗中发光的三菱Evo汽车
Dip Your Car进行了一项实验，将三菱Evo转变为夜光汽车，其结果发布在同名的YouTube频道上。事实证明，将荧光漆涂在具有光亮层的身体上并
· Memoji现在可以在最新的苹果iOS 1...
我认为这是我们只能与Emojis聊天的时候了，您的朋友仍然会理解您要说的话。如今，随着疯狂的表情符号数量的增加，您可以从表情符号选项卡中
· 联想使用高通Snapdragon 865制造...
根据在weibo com上发布的图像，看来联想可能会推出自己的游戏智能手机，该智能手机将配备高通公司的顶级Snapdragon 865芯片组。此外，发布
· 新消息确认荣耀X50Pro5G智能手机的...
昨天，realme宣布将在线发布 realme X50 Pro 5G。但很明显，该公司无意放弃这种戏弄，最新消息证实该智能手机的显示屏将具有90Hz的刷新
· 在2020年亚马逊Prime Day期间可获...
亚马逊2020年Prime Day为各种耳机带来了很多优惠，包括索尼的新型WH-1000XM4无线耳挂式耳机，该耳机具有市场上最好的噪音消除功能。这套特
· 索尼最好的降噪耳机在Prime Day上...
如果您从Verge链接购买商品，Vox Media可能会赚取佣金。请参阅我们的道德声明。2020年黄金日的第二天也是最后一天，但接下来的几个小时仍
· Spotify现在拥有自己的iOS 14小部件
自iOS 14发布以来的几周内，越来越多的应用程序在增加新功能，以利用Apple最新更新中的功能。现在，Spotify也加入了。今天，领先的订阅音
· 苹果TV应用程序出现在Sony的一些最...
如果您从Verge链接购买商品，Vox Media可能会赚取佣金。请参阅我们的道德声明。苹果的Apple TV应用程序首次进入了Android TV。索尼宣布
· 宏G支持G-Sync的27英寸4K 144Hz游...
如果您从Verge链接购买商品，Vox Media可能会赚取佣金。请参阅我们的道德声明。宏A在亚马逊上的27英寸4K Predator游戏显示器的闪电交易持
· 谷歌Glass正在添加Meet 以便远程...
您可能已经有一段时间没有考虑过Google Glass了，但其抬头显示器的企业版却有了一个巧妙的新技巧：它将能够使用Google Meet(以前称为Hang
· 贝尔金的首批MagSafe产品是外观精...
苹果公司新的MagSafe配件生态系统还没有建立一天，但是Belkin已经开始使用新的使用磁性充电系统的充电配件，并推出了新的BoostCharge Pro
· 谷歌的新手势系统将可用于所有Pixel设备
除了触摸屏幕或按下按钮外，我们还有许多其他方式可以与智能手机进行交互。借助最新的Google Pixel 4 系列的Motion Sense ，我们可以
· 华为于2020年推出其6nm麒麟820 5G芯片
华为最近宣布，他们可能会推出新的麒麟820 5G芯片组，该芯片组将在2020年2月24日晚上9点举行的在线会议上揭晓。根据gizchina com的声明，
· 华为将开发一款具有多达8个摄像头...
最近花姐发现有诸多的小伙伴们对于华为将开发一款具有多达8个摄像头传感器的智能手机吗这个问题都颇为感兴趣的，大家也都想要及时了解到华
· 配备64MP AI Quad相机的荣耀6系...
realme在其官方网站上发布了一张图片，其中提到realme 6系列(包括realme 6以及Pro变体)将于2020年3月5日发布。虽然关于上述智能手机的完
· 未来的智能手机会使用用户可更换的...
根据fd nl上的一份报告，看来欧盟正在制定一项提案，要求智能手机具有用户可更换的电池。这是由于以下事实：用户通常将旧的智能手机换成较
· FlyPods 3是HONOR为您呈现的全新...
除了HONOR View 30 Pro 和HONOR 9X Pro，HONOR在巴塞罗那举行的发布会上也给我们带来了另一个惊喜。该公司已经宣布了名为HONOR FlyP
· LG推出V60 ThinQ 5G智能手机和改...
大约两周前，我们得到了LG即将推出的旗舰智能手机的渲染图，暗示了其内部外观。好吧，渲染似乎很准确。LG正式发布了V60 ThinkQ 5G，已
· 据说苹果的2020年WWDC将举行传闻...
由于使用了COVID-19病毒，该疾病已成功地减慢了速度，并取消了大多数事件。最近的一次是2020年世界移动通信大会，也有谣言说东京奥运会也将
· 三星为下一代智能手机推出12GB LPDDR4X DRAM
三星宣布将发布其用于下一代智能手机的新型12GB LPDDR4X DRAM，该芯片旨在用于未来的手机。我们可以预计，今年新的12GB LPDDR4X DRAM将

新媒体传播网

IBM的AI通过5分钟的交谈就能产生高质量的声音

相关文章

热点推荐

点击排行