达摩院公布语音AI四大进展,阿里AI每天处理55万小时语音

9月26日,达摩院在杭州云栖大会公布2019年阿里语音AI四大进展,在语音AI的理论、技术、应用等整个链路均有突破。

当日,阿里巴巴在杭州云栖大会上首次公布人工智能调用规模:每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。

达摩院语音实验室负责人鄢志杰介绍,今年以来实现了四大技术进展:声学信号处理理论、语音合成技术、语音自学习平台及通用语音交互方案。

语音AI团队提出了声学信号处理的理论创新——指向性差分麦克风阵列,用“应用指向性麦克风阵列”替代传统的全向型麦克风,使得阿里AI能够实现超大型空间内的远距离清晰收音。

不久前,达摩院发布了自研的新一代KAN-TTS语音合成技术,把语音合成与真人录音的相似度提升到95%以上,并将声音定制成本降低10倍以上、周期压缩3倍以上。


“达摩院的AI就是大家的AI,达摩院要把语音技术能力做得高一点,但把技术到产业落地的门槛做得低一点。”鄢志杰表示,达摩院最先进的AI技术全都“零时差上云”,通过阿里云对外输出服务。阿里云语音自学习的平台升级到了2.0版本,全面开放自学习优化手段,人人都能自主定制语音模型,目前平台已经服务超过2.6万个场景。同时,达摩院推出了通用语音交互方案,提供端云接入、全方位服务、可定制的一站式解决方案。

他打开阿里云官网,现场演示了“开箱即用”的语音合成服务:假设要定制一套给小朋友说故事的声音,先在页面上选择合适的声音,然后输入任意文本,比如“欢迎大家来到云栖大会,我长大了也要到达摩院当一个扫地僧”,马上,语音AI就用奶声奶气的合成童声念出了这句话。

相关新闻

评论

留言与评论(共有 0 条评论)
   
验证码: