福建白癜风医院 http://pf.39.net/bdfyy/bjzkbdfyy/140721/4429412.html机器之心原创
作者:杜伟
能互动、擅写作、会作画,百度数字人度晓晓应了这样一句话,「天空才是她的极限」。
这年头,数字人直播带货、虚拟主播、银行客服,这些应用场景已经不再是多稀奇的事了。从时尚娱乐到文化商业,数字人迎来了全面开花。国内大厂也纷纷抓住数字人这个发展机遇,推出花样百出的娱乐和实用性数字人产品,致力于让数字人更智能化更服务化。
百度年9月推出的国内首个可交互虚拟偶像度晓晓,最近用她的智能互动、写作和绘画表现让人们见识到了AI大模型的能力。
6月14日,一段由百度打造的度晓晓和龚俊数字人联袂出演的《每分每秒每天》歌曲MV刷屏全网,并登上各大音乐电台、多个音乐排行榜,播放量更是超过多万。与一般通过人工换声实现虚拟人唱歌不同,度晓晓参与演唱的这首歌从作词到编曲都是由AI「操刀」,成为国内首个虚拟偶像AIGC(AIgeneratedcontent,人工智能创造内容)歌曲。
度晓晓变身为AI唱作人,而在唱歌的表象下,歌词中「每分每秒每天,我都在这里;等着你,来邀请,我随时给你回应……」点出了度晓晓更深层次的身份——入端百度APP、每分每秒每天陪伴人类的虚拟助手。度晓晓为用户提供全程AI陪聊功能,升级搜索体验,情感聊天、定外卖、寄快递、讲故事等,几乎你能想到的需求都可以一呼即达。
如你所见,度晓晓实现自然的多轮聊天互动,在对话中识别用户的搜索和服务需求,其中多轮聊天能力由百度文心大模型提供强大的底层技术支持,尤其是全球首个基于隐空间的生成式开放域对话大模型文心PLATO。
除了APP端更拟人的智能对话之外,百度文心大模型还一度让度晓晓变身为高考作文写手和AI画家,分别要归功于融合任务相关知识的千亿大模型ERNIE3.0Zeus和跨模态图文生成模型ERNIE-ViLG。
6月7日高考语文考试之后,度晓晓化身数字人考生挑战全国新高考Ⅰ卷作文题《本手、妙手、俗手》,40秒的时间内完成了40篇高考作文,平均1秒生成1篇,写作速度远超了人类。那么度晓晓生成的作文能满足高考写作的审题、逻辑和创意等要求吗?
这一担心也被证明是多余的,曾任北京高考语文阅卷组组长的申怡为她随机生成的一篇作文打出了48分的成绩(满分60分),从历年统计数据来看,这个分数超过了75%的人类考生。称呼她一声写作高手绝不为过。
度晓晓生成的高考作文示例。
给出一段话就能输出一幅图,这种神奇的跨模态能力成为近年来各大AI公司追捧的热点,如英伟达的GauGAN和GauGAN2、OpenAI的DALL·E和DALL·E2。度晓晓数字人也拥有了这种绘画能力,完成的AI画作甚至得到了专业人士的认可。
6月初,度晓晓创作的「无界」系列数字藏品上线百度APP开启限时抢购,该系列共有4幅画作。作为国内首个数字人创作的艺术数字藏品,这些画作在24小时内就卖出了17万元。更令人想不到的是,每幅画作的创作时间仅需几十秒,这种画画速度大概会令通常仔细斟酌、耗时很长的专业画家羡慕吧。
随后,度晓晓带着她的画作现身西安美术学院年「时空留痕无界西美」本科毕业展,在自己的专属展区展出了此前制成数字藏品的四幅作品以及两幅有关西安大雁塔的本地特色作品。这些画作的水平又如何呢?西安美院教授评价称「已经达到了本科美术生的基本要求」。
度晓晓化身AI美术生,开了自己的专属展区。
度晓晓出圈的背后——百度AI技术赋予她内涵
但应看到,数字人的背后少不了技术的支撑,百度文心大模型为度晓晓的一系列外在能力展现提供了技术内核。在5月20日的WAVESUMMIT深度学习开发者峰会上,文心大模型迎来了自发布以来的最大一次升级,新增10个大模型,包括基础通用大模型、任务大模型、行业大模型三大类,比如基础NLP大模型中新增的融合任务相关知识的千亿大模型ERNIE3.0Zeus。
同属文心NLP大模型范畴的全球首个基于隐空间的生成式开放域对话大模型文心PLATO,保证了度晓晓在百度APP端不再尬聊。
作为百度研发的具有大规模参数的中英文对话预训练生成模型,文心PLATO历经多个版本。年推出了通用领域的对话生成预训练模型PLATO,在NLP领域国际顶会ACL上正式展示;到年升级为PLATO-2,涵盖中英文版本,实现了开放域话题深度畅聊。现在升级到了百亿参数的文心PLATO-XL版本,在开放域对话效果上得到了持续的提升。
既然说到了文心PLATO,那我们就先来看在它的加持下,度晓晓如何在百度APP端实现接近真人水平的多轮流畅对话以及更拟人的智能化搜索?度晓晓和龚俊数字人目前实现了四大功能,即个性化聊天陪伴、辅助搜索、服务分发和互动玩法。其中个性化聊天可以实现多轮对话以及人设定制化能力,这也正是文心PLATO大模型的用武之地。
首先,为了学习通用对话生成能力,文心PLATO采用了完全生成方式,并根据多轮对话上下文(Context)生成对话回复(Response),在大规模对话语料上进行预训练。PLATO只有8.3M的训练样本;PLATO-2的英文和中文训练集样本分别为M和1.2B,模型规模最高达到了1.6B;到了PLATO-XL,英文和中文训练集样本分别M和1.2B,模型规模更是来到了11B。
预训练时,针对开放域中涉及上下文的对话理解和回复的对话生成,文心PLATO采用编码器和解码器共享参数的UnifiedTransformer作为基础框架,使对话理解和对话生成进行充分的信息融合交互。此外,考虑到对话答复与场景、意图等对话情景信息相关,相同上下文不同的情境会对应不同的答复(即一对多关系),而情境信息又难以用显示文本进行表示,文心PLATO又提出用隐变量因子表示情境信息,如下图所示。
在大规模预训练样本和预训练技术创新的基础上,文心PLATO为度晓晓带来了多轮流畅的开放域对话能力。
文心PLATO的模型架构。
人工智能发展至今,数据价值正在不断得到体现和提升,可以说,数据即“石油”。同样,在开放域对话中,高质量的对话语料也同样重要,对模型训练起着重要作用,但我们都知道,高质量的对话语料少之又少,另外语料所依附的人设信息千差万别,导致模型在效果上参差不齐。
如何赋予对话机器人稳定一致的人设一直是对话技术领域面临的重要挑战,文心PLATO在预训练对话模型的基础上进一步学习不同画像信息下的对话生成能力,使模型具备了围绕人设的定制化对话能力,还能在答复过程中始终保持人设的一致性。
这一能力加持到度晓晓身上,她便更加彰显了自己的人设或个性化IP。用一句流行的话说,度晓晓的人设要保持一致。同时,在对话时,度晓晓充分考虑用户上下文的联系,生成的回复始终不脱离语境,像人与人聊天那样不偏题。
百度APP端内度晓晓的多轮聊天能力展示。
最后,即使度晓晓已经具备了一定的知识对话能力,但受限于预训练语料存在的知识稀疏性,生成回复中仍然会有不知如何答复或答非所问的情况出现。
针对这一问题,文心PLATO提出了问答生成任务+预训练对话任务的连续预训练策略,将海量问答知识内化到模型参数中,使模型及其支持的度晓晓在知识问答时更准确、更全面。
这么一套技术组合拳下来,文心PLATO成就了现在的度晓晓,更拟人化、更具针对性、更贴合用户真实需求成为了她在百度APP内的标签。她可以与用户进行语境连续的多轮自然对话,支持文本、图片、表情包、音频等多样化聊天形态;当在对话中识别出用户的搜索意图时,要么直接回复答案要么呈现APP内相关问题的搜索结果;用户想要看电影、订车票时,她也会直接跳转至相应服务界面。
百度APP端内的多任务小能手度晓晓。
而此前,度晓晓40秒完成40篇高考语言作文的表现,背后利用的是文心大模型中的NLP千亿大模型ERNIE3.0Zeus。它是知识增强大模型ERNIE3.0系列模型的最新升级,更在国内首个开放了API调用。
在训练时,除了从海量无监督文本数据和百度知识图谱的学习之外,还针对上百种不同形式的任务数据进行持续学习,增强了模型效果,显著提升了在自由问答、信息抽取和情感分析等下游各类NLP任务上的零样本/小样本学习能力。
ERNIE3.0Zeus大模型概览。
对于此次高考写作挑战,度晓晓一方面具有数据「底气」。得益于ERNIE3.0Zeus的千亿参数,度晓晓在写作训练时接受了大量风格各异的高考作文样本数据,在不断的吸收消化过程中,培养出了自己的写作风格以及对于高考作文的需求认知,在实战中「应题而作」。
另一方面,在充足、多样化高考作文样本数据的基础上,度晓晓进一步确立了一整套自己的写作套路。在扣题立意方面,她始终不离给定的作文题目,围绕主题组织文字,输出支持该主题的积极正向观点;在行文结构上,面对字的长文本生成要求,她能保持整体文章脉络清晰、逻辑完整,并在开篇和结尾双重扣题;在写作技巧上,历史典故、古诗词拈手就来,还学会了排比、比喻等修辞手法,文章可读性大大提升。
在ERNIE3.0Zeus的赋能下,度晓晓就像是众多见多识广的「尖子生」、「学霸」的集合体,理解能力和创作能力更强,写出高分作文也就不足为奇了。
除了以上NLP领域的智能对话和AI写作,跨模态也是文心大模型深耕已久的领域。度晓晓引起