全球报道：携新华社发布AI虚拟主播搜狗要靠这个技术克隆人类

2018-11-13 腾讯网2900

核心提示：原标题：携新华社发布AI虚拟主播搜狗要靠这个技术克隆人类在去年的乌镇世界互联网大会上，搜狗推出了一项黑科技“唇语识别”

原标题：携新华社发布AI虚拟主播搜狗要靠这个技术克隆人类

在去年的乌镇世界互联网大会上，搜狗推出了一项黑科技“唇语识别”，AI不需要听声音，仅靠观察你的唇部动作，就可以理解你说话的内容。读心术固然厉害，读唇术也是相当吸引眼球。

而在今年乌镇世界互联网大会上，搜狗又与新华社一起推出全球首个“AI合成主播”，这个虚拟主播不但能够模仿你的声音，还能够模仿你的表情，成为大会的一大亮点。

从去年的唇语识别到今年的AI合成主播，一方面可以看到搜狗在前沿技术上的积淀与探索，另一方面也可以看到搜狗也在尝试加速AI技术的商业化。智东西近日与搜狗语音交互技术中心总经理王砚峰、语音交互中心高级总监陈伟进行深入沟通，解读搜狗AI合成主播背后的黑科技“搜狗分身”，未来搜狗还要为用户提供个性化的虚拟形象。

AI合成主播就将正式上岗新华社

11月7日，在第五届世界互联网大会开幕当天，搜狗和新华社携手在乌镇发布全球首个“AI合成主播”。它以新华社主持人邱浩为原型，由搜狗与新华社新媒体中心共同打造。

AI合成主播能够实现高效的新闻播报。用户只需要输入新闻文本，它就能够用和真人一样的声音进行播报，并且连唇形、面部表情也与真实主持人相吻合。

AI合成主播不仅仅是新华社将AI技术引入新闻报道中的一次尝试，也是“搜狗分身”技术在新闻行业的一次实践。

搜狗CEO王小川表示，搜狗分身技术利用搜狗的AI能力，从图像表情、声音语言习惯、逻辑思维等层面对AI进行拟人化训练，然后“克隆”出人类的AI分身，进而帮助人类提高信息表达和传递的效率。

通俗来讲，由真人主播面对镜头录制一段播报新闻的视频，搜狗分身凭借这段视频就可以将真人主播的声音、唇动、表情动作等特征进行提取，然后通过语音合成、唇形合成、表情合成以及深度学习等技术，“克隆”出与真人主播十分相似的具备新闻播报能力的AI虚拟主播。

通过一段AI合成主播的视频可以看出，这项技术能够让AI较为逼真的模拟人类说话时的声音、嘴唇动作和表情，并且将三者做到近乎自然的匹配。在新闻播报这样相对严肃的场景下，合成主播的表现已经较为接近人类主播的音容相貌。

搜狗公司语音交互技术中心总经理王砚峰告诉智东西，这次与新华社合作的AI合成主播不是一次公关传播，而是搜狗AI技术的又一落地。从当天开始，新华社AI合成主播就将正式上岗，成为新华社报道队伍中新的一员。

举例来说，哪怕主持人邱浩每天工作12小时，一周工作七天，那他每周也只能工作84小时。而只有有足够多的服务器，AI合成主播呈现无数个分身，不间断的工作，这无疑大大节省了节省了人力成本。

并且相对于传统视频新闻需要漫长录制过程而言，只需要将文本输入，合成主播就能够在非常短的时间内生成新闻播报视频，这在大幅压缩新闻播报视频的后期制作成本的同时，也大大提升了传媒业的效率。

搜狗分身背后是多模态合成技术的探索

与其说“搜狗分身”是一项技术，不如说它是一个框架，一款产品。它所要做的是“克隆”（合成）人类的声音、嘴唇动作、脸部表情，甚至未来也有可能加入人体、手势等。它是搜狗在多模态合成技术上的一次尝试和探索。

所谓多模态即多种感官的融合，比如搜狗分身技术此次就融合了语音合成、唇语合成以及表情合成等，将几个维度不同特征的感官进行融合，就是多模态合成技术。

其中，语音合成与唇语识别是搜狗之前就积累的技术，而本次搜狗分身中应用到的唇语合成、音视频联合训练、音视频表情生成等都是新的探索。

搜狗语音交互技术中心总经理王砚峰介绍道，基于之前在语音、图像上的基础技术积累，搜狗今年上半年开始尝试多模态合成技术，新华社AI合成主播的推出算是前一阶段成果的展示。目前搜狗分身在一般场景或者相对严肃认真场景下，已经取得了惟妙惟肖的效果。但是在一些情感表达非常丰富的场景（比如表情非常夸张），搜狗分身的效果还有待进一步提升。

在具体的实现路径上，当你输入一段文本后，机器会首先对文本进行韵律预测、情感预测等，比如哪些可能是重音；然后将对应的语音合成和唇语合成按照这个预测来生成，并结合文本与唇形匹配相应的脸部表情；最后在一个时间轴上，将语音、唇动、表情协调一致的进行呈现，使AI能够相对流畅自然的进行表达。

这里面有三个关键环节，其一是语音合成，这一块是听觉的；其二是唇语合成与表情生成，这一块是视觉的；其三是多模态融合进行协调一致的呈现，即如何让AI主播的声音、唇动、表情相匹配。

王砚峰表示，搜狗分身技术中有2个关键难点，一个是唇语合成，一个是声音、唇动、表情的协调匹配。

唇语合成在技术原理上与语音合成较为相似，但唇语合成要比语音合成难很多，因为语音合成是一维线性问题，而唇形合成则是三维的。作为一个虚拟形象主播，它的唇形要跟文本内容、语音、发音方式等都要协调一致。

另外一个难点在于视频生成。即使语音合成能够做到惟妙惟肖，唇语合成也能够做到相当逼真，但是如何将声音、唇动、表情在一条时间轴上匹配起来就比较困难。因为这已经是一个视频生成的问题，需要保证三者的协调一致、连贯自然，这也是搜狗分身的一大亮点。

通过搜狗分身技术，用户也可以打造个性化的虚拟形象。王砚峰称，目前通过搜狗分身技术，大约需要一个小时的用户音视频数据，就可以做出一个效果较好的AI合成主播。

这一生成时间仍相对较长，因为目前多模态合成仍在早期阶段。随着多模态合成数据积累的足够多，我们就可以将其共性抽出形成基线数据，在生成个性化形象时，可能只需要几分钟把个性化数据建立起来，就可以生成一个效果良好的虚拟形象。

搜狗语音交互中心高级总监陈伟也向智东西透露，下一阶段，搜狗希望将搜狗分身的制作成本降下来，比如能否通过上传一小段视频或者照片就可以进行虚拟形象的生成，下一代的搜狗分身技术他们也在研发中。

搜狗分身的商业化才刚刚开始

从去年的将语音识别和唇语识别结合在一起做识别技术，到今年的将语音合成唇语合成等结合起来做合成技术，搜狗在多模态交互上的步伐又深入一步。

搜狗之所以在多模态交互上有这么多尝试，这跟它的AI理念——“自然交互+知识计算”有很大关系。王砚峰称，目前的人机交互界面还是冷冰冰的，比如智能音箱，即使加入一些卖萌的元素，但交互感还是较差。而搜狗让机器以更逼真自然的形象呈现在用户面前。

他还表示，在人机交互上，目前业内主要做的是语音交互，但搜狗认为未来的交互一定是多模态的交互，正是基于这一考虑，搜狗围绕交互在语音、视觉技术上均有积淀，并积极探索多模态的应用。

无论是多模态交互还是语音合成，都是近两年业界关注的一个重点。但受限于应用场景，行业在多模态交互上的探索主要集中在机器的输入端，比如智能音箱场景。在多模态合成上，行业更是处于发展初期。

搜狗语音交互中心高级总监陈伟也谈道，无论是做语音合成，还是做视频生成预测，目前许多AI公司也都在做，但以单模态居多。搜狗将语音合成唇语合成等结合起来做合成技术，包括之前将语音识别和唇语识别结合在一起做识别技术，就是希望打通多模态之间的连接，做到不同模态的融合。

搜狗分身正是搜狗在多模态合成技术上的一次探索，它是人工智能在模仿人类领域的一次新进展。

一方面务实基础技术研发的同时，搜狗的AI商业化落地也在同步推进。王砚峰介绍道，新华社的AI合成主播是搜狗分身技术的第一个落地场景，它除了在新闻播报领域的应用外，还有更广泛的应用空间可以探索。

比如在线教育场景，可以用搜狗分身做音视频的合成，提升教育行业的效率，同时增强与用户的互动性。

再比如虚拟助理，相比目前的语音助手，带有形象的虚拟助理更贴近人类，在交互中也更加贴近人类的期待，这在未来也会是一个巨大的场景。

“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容，从而提升各个行业的效率和服务体验。

除了搜狗分身外，近期搜狗也在围绕语言与交互抢占行业赛道。比如在C端场景，将AI引入搜狗输入法，在语音合成上推出搜狗制音坊；在智能硬件领域，围绕出境游推出搜狗翻译宝，围绕新闻媒体推出搜狗翻译笔。

在B端场景，搜狗推出机器同声传译、智能分诊，并落地手机语音助手等抢占行业赛道。可以明显感受到，搜狗的AI商业化也在加速。

结语：一面务实技术一面加速商业化

此次搜狗分身技术的推出，代表了搜狗在多模态交互、语音合成、唇语合成等前沿技术上的进一步探索。

另一面搜狗也开始推动搜狗分身技术进入行业，与新华社一起推出AI合成主播，未来还将会进入更多行业，探索更多的商业落地。

一面务实基础技术的积淀，一面深化AI落地，一项低调的搜狗正在加速AI的商业化进程。

携新华社发布AI虚拟主播搜狗要靠这个技术克隆人类

点赞 0举报收藏 0评论 0

wangshaosh..
加关注0
~~没有留下签名~~~~

推荐图文

推荐资讯

点击排行

828641全球报道：Reddit可能不会续签谷歌人工智能内容合作协议

本站对所有发布的信息不承担任何责任，用户应决定是否采用并承担风险。

全息元宇宙联合会和全球华人记者联合会支持

全球报道：携新华社发布AI虚拟主播 搜狗要靠这个技术 克隆 人类

全球报道：携新华社发布AI虚拟主播搜狗要靠这个技术克隆人类