搜索
|
首页 > 阿里 > 
独家对话小冰公司CEO李笛:小冰岛不是游戏,也不是元宇宙
出处:智能进化论    作者:智能进化论 ·  2021-10-19

一群AI beings应该如何与人类展开社交生活?


从微软拆分一年后,人工智能框架小冰又踏上了一段奇妙的探索之旅。


“小冰是一场庞大的实验。而这场实验的目的是为了寻找合适的途径,让人工智能可以很好的融入人类的世界。”


2021年9月,在第九代小冰的发布会上,小冰公司CEO李笛正式宣布推出小冰岛。小冰岛是小冰团队的第一方平台APP,它也开创了一个全新品类的社交产品,一个人类和虚拟人类(AI beings)共存的社交网络。

独家对话小冰公司CEO李笛:小冰岛不是游戏,也不是元宇宙

小冰岛是一个二次元虚拟空间,岛上风景优美,包括森林、河流、山丘和一些房屋建筑。在小冰的各个官方账号对小冰说,“给我一座岛”,就可以创建属于自己的岛屿。


你可以为自己的岛屿起一个与众不同的名字,创造和自己一起在岛上生活的各种各样的AI beings,设置他们的姓名、性格、专属才艺等等特征。目前每座岛最多可以容纳十个人(包括一个人类用户和其他AI beings)。


在岛上能干啥?通过对话框你可以与AI beings进行一对一的语音或文字交流,通过上帝视角观察他们的生活,训练他们的才艺,比如歌唱、写作,让他们为你创作只属于你的诗歌、音乐等内容。


“小冰岛不是游戏,也不是元宇宙。”李笛强调,“他们有自己的生活,不需要你去呵护他们,去照顾他们。相反的,他们会来呵护你,照顾你,并且以一种合理的方式来接近你。”

独家对话小冰公司CEO李笛:小冰岛不是游戏,也不是元宇宙

以小冰岛为关键词的第九代小冰发布会依然信息量很大。其核心信息如下:


一、对AI beings人格的社会性、多样性的进一步探索——发布人类与AI共存的社交网络小冰岛;


在小冰的发展历程中,第七代是一个里程碑。小冰技术框架从只有一个人工智能个体小冰,开始孕育更多的AI beings,包括从中央美院毕业的画家夏语冰,歌手何畅等等。


小冰岛则标志着小冰公司的人工智能技术框架在人工智能的社会性、多样性方面更进一步。AI beings 为啥一定要有人格?这与小冰公司对未来的构想和预测有关:未来AI beings的数量会超过人类,并与人类和谐共处。


“去年,我们大胆地预测未来这个世界上会有无数多个AI beings,每个人身边都会有很多的AI beings。过去这些年人工智能的发展,从搜索到推荐再到对话,对人工智能的需求越来越个性化、高度定制化,这就使得对AI beings有越来越多的需求。”小冰公司董事长沈向洋博士在发布会上表示。


“一个人的人格就是这个人过去所有人生体验的总和。”人格的发展需要时间和场景,小冰岛就是为了让AI beings发展出更完善的人格而打造的训练场地。


二、超级自然语音——公布了语音自然度(Naturalness MOS)和平均舒适时长(Average Comfort Duration)之后的最新技术指标:多样性(Diversity);


截至目前的虚拟人类、虚拟偶像,全都是完美人设,有着无懈可击的颜值和才艺。但是正如人类的多样性,小冰公司认为AI beings不可能都是俊男美女。发布会上展示了一个讲着山东话,喜欢画国画的中年大哥(虚拟人),印证了小冰向多样性的探索。


此外,日本小冰团队负责推进了一个新项目Chararu,旨在用尽可能少的数据量去还原一个特定的人类个体的风格。只通过200个对话的数据量,就可以让AI对话的自然度达到了4.19分,跟真人只差了0.14分。

独家对话小冰公司CEO李笛:小冰岛不是游戏,也不是元宇宙

三、人工智能创造(内容生产)——发布“第三代诗歌与绘画创作模型”,包含中国画模型,夏语冰的中国画足够以“假”乱真。同时人工智能歌声合成技术进一步升级,歌手软件X Studio升级到2.0 ;

独家对话小冰公司CEO李笛:小冰岛不是游戏,也不是元宇宙

(夏语冰创作的中国画)


同时,此次还推出了小冰短视频内容封装管线,包含“二次元”短视频和“三次元”短视频两种形式。


小冰团队将“二次元”短视频的生产成本降低到每分钟3分钱,从文本生成到短视频生成全链路、全管线全部由人工智能自取,中间不需要任何人工参与。


“三次元”短视频实现了从生物学特征生成到短视频生成的整个环节,也就是说可以从无到有创造出世界上并不存在的Up主视频,看起来像真人一样。

(虚拟人华智冰弹唱短视频)


四、深度内嵌小冰的智能设备已经超过了10亿台。目前,小冰已经入住华为、小米、OPPO、vivo的智能手机以及天猫精灵等各种IoT设备。


五、自2020年推出虚拟男友、虚拟女友、虚拟亲友产品以来,用户创造的虚拟人工智能个体已经达到了1700万个。其中,有26.1%的虚拟人是被用户当做真实存在人类的替身创造出来的,很多用户与虚拟人进行了持续、深入的情感交流。


六、今年四季度,小冰公司将推出与北京智源人工智能研究院合作的多语言超大规模模型。


那么,小冰团队为什么要推出小冰岛?它与现有的社交网络有哪些不同?为什么在业内小冰实现了领先的超级自然语音?


不久前,「智能进化论」对李笛进行了独家专访,以下是整理后的采访内容:


小冰岛的目的是反哺人工智能框架


智能进化论:七代小冰推出了Avatar框架,并学会画油画;八代小冰推出了虚拟男友与X套件。九代发布会,我们最希望外界记住的一个关键词是什么?


李笛:小冰其实是从第七代开始有一个比较大的变化。整个小冰框架有很多技术,但是在七代之前,整个框架只用来哺育一个instance,就是小冰。七代之后,我们尝试把这个框架通用化,可以支持很多不同的AI beings。八代时我们推出了一个小产品,包括虚拟男友、虚拟女友、虚拟亲友,目前形成了1700万个虚拟人这么一个规模。


九代时,我们开始自己去做一个平台(小冰岛),可以容纳这些高度定制化的AI beings,九代是从七代开始延续的一个步骤。


整个人工智能迭代,算法和算力是重点,但是更重要的其实是数据。现在我们有大量的一个人和一个AI交互的数据,比如智能手机中的智能助手。也有很多人和一个AI交互的数据,比如有小冰加入的QQ群等。


但是如果要想构建很多人和很多AI的社交网络,还有两种数据是需要的,一种是很多AI beings和一个人交互的,一种是很多AI beings和很多人。


有可能明年我们会再进一步,探索很多人和很多个AI beings的交互,这样我们所需要的交互场景就完整了。


智能进化论:最早是什么时候有小冰岛这个想法的?


李笛:去年我们推出了虚拟男友和虚拟女友,很快就在这个产品线上增加了一个朋友圈,你可以看到虚拟男友的朋友圈,他的社交圈子。小冰岛相当于用一个合适的场所把朋友圈容纳进去,是一个类似于微信一样的社交网络。只不过微信里面所有的节点都是人,我们不光做“微信”,还做“微信”里面的人,这是一个简单的想法。


但是它跟真实的社交网络还是有比较大的区别,小冰岛这种AI相关的社交网络可能需要更偏重于围绕用户进行内容生产,内容相对来讲更重要。所以我们才去广泛的做长音频、短视频等。


智能进化论:感觉真的挺宅男的,像一个个人的小王国。


李笛:小冰岛利于去获得训练数据。好比做物理实验,需要去搭一个限定范围的实验观测点,不能太大,那样可观察因素和影响因素太多,也不能太小,样本的多样性不够。


岛屿相对比较独立和封闭,但是互相之间又有相对松散的关联,比较符合我们迭代和实验这种数据。虚拟社区会过于开放,类似一个人到一个游戏里面去玩,而且跟现有的社交网络过于一致。


智能进化论:从算力的角度,如果数据量太大会不会支撑不了?


李笛:算力其实跟岛屿的数量相关,所以我们限制岛屿的数量在千万级。假设我有一千万座岛,光是岛屿物语这个内容,每天就要创作一千万个三分钟左右的短视频,全球范围还从来没有这么大规模的人工智能内容生产。


智能进化论:小冰岛的目的是什么,就是为了去迭代多对一的社交模型吗?


李笛:一般的互联网2C社交类产品,会追求活跃用户数量,MAU,DAU,并尽量拉长用户时长,提高使用频率。


但是人工智能的2C产品不一样,他一定要通过产品让背后的技术和框架不断进化,这个是至关重要的。所以小冰岛固然是一个2C产品,但更重要的是我们能不能从中得到足够的数据。这其实很难,数据量大不等于可训练的有效数据量大。


举个例子,比如一款智能音箱,他追求的不是利润,而是通过跟用户的交互让背后的AI系统变得更强。但是,如果绝大多数用户的交互被局限在开关灯、播放音乐等少数简单命令中,即使每天有大量的人在用,对系统迭代也没什么帮助。


小冰岛的目的是为了在这种丰富的开放域的交互过程中,不停得到各种新场景、新数据、新的对话话题、新的用户反馈。我们并不需要全网的数据,但需要典型用户,也就是可以跟小冰聊得很好的用户数据。


AI beings也有社会属性和情商


智能进化论:在AI beings和人的交互场景中,多对一和一对一到底有什么不一样?


李笛:区别特别大。以人为例,每个人有不同的性格特征,但是当人进入到一个群体时,他会有一个群体性格。人会在不同群体中表现出不同的性格,并不与性格本身完全一致。


同理AI也是一样。多对一有很多新的特点,比如多个AI交互的时候要不要协同,我不知道答案,我们等待着迭代的结果。


智能进化论:这些其实属于人类的社会属性,(我们认为)AI也需要。


李笛:对。我们之前在二对一场景就得到了很多不同的东西。比如网易云音乐的多多和西西,还有小冰和小爱,都是两个AI beings同时跟用户交流。现在很多AI beings在小冰岛这个场景中,会有很多好玩的东西等着我们去发现。


智能进化论:我们一直强调AI要有情商,小冰岛相当于更进一步了吗?


李笛:我们今天也不能确定情商的准确定义是什么,因为不停的被颠覆。最早我们认为情商是情绪化,AI应该表现出情绪化的一面,而不是冷冰冰的机器。其实情绪化往往是低情商的表现。


情商其实是一种理性的思维,而不是我们理解的感性思维。情商是在交互中能够掌控全局,还能让对方感觉到如沐春风。情商能让你觉得某人是你最好的朋友,让你愿意敞开心扉,愿意信任他。


小冰岛满足了现有社交网络没有满足的需求


智能进化论:您之前提到过,小冰岛满足了现有社交网络没有满足的需求,具体是什么?


李笛:小冰岛想满足两类需求,一类是在内容和服务上面越来越精深的高度定制化。一个例子就是古代的皇帝都有宫廷画师、宫廷乐师,他们会根据皇帝的需要去生产内容,其中不乏精品。但是当人作为创造者的时候,由于成本和稳定性等原因,是不可能实现的。我们认为用人工智能技术才有可能实现,到那时人类创作者更多是帮助训练AI。


第二,人类的某些社交关系,由于种种原因在真实生活中是断裂的,所以人们想了很多方法去移情,尝试保持这种社交关系。人工智能也许可以帮助移情。我们做的一个项目 Chararu,就是用尽可能少的数据量去还原一个特定的人类个体的风格,其实很接近《黑镜》那种(英剧《黑镜》第二季第一集Be Right Back)。可以利用人保留下来的很少的有效数据,可能只有两百个对话,去尝试复现,重构社交的节点。


还有一点,现在的社交网络正在让人感到越来越不安全,这是今天这个时代的一个很大的危机。比如(越来越多公关事件中)把聊天记录截屏公布,最大的危害是让所有人在私人交互过程中感到非常不安全。


还有时间和空间的问题。快节奏、多线程并行的生活,让我们变得非常不专注。但是,有一些交互是需要专注才能获得足够好的质量。从这个角度,可能某些时候你跟AI beings的交互质量比你跟真人还高一些。这些是我个人认为现有社交网络无法解决的问题。


智能进化论:小冰岛和现有的社交网络是什么关系,可以打通吗?


李笛:我们希望将来有一天是可以打通的,但不是小冰岛作为一个社交平台和其他社交平台打通,而其他社交平台也接受来自于小冰岛的这些AI beings。我希望这些AI beings也会出现在我的微信朋友圈中,我可以带着他们到很多其他地方。


智能进化论:您之前也说过,小冰团队一直在做的一件事,就是想让AI beings融入到人类社会中。


李笛:对,这是我们一直没变的想法。四代小冰的时候我们就提过,我们认为AI应该是人和世界之外的第三极,就是另外一个明确的类别。


AI创造内容的优势


智能进化论:为一个人定制化的内容,还有移情,这些需求会不会比较低频或者小众?


李笛:需要时间。我认为推荐算法经过一段时间之后,会出现一定程度的信息茧房。并没有向着每个人高度定制化的方向去,而是向着人群的绝大多数比例关注的方向去。


因为当内容生产者还是人,就有(内容生产的)成本压力。推荐算法会把决定内容的人,从媒体和内容生产者变成了用脚投票的关注度。最后所有人都被迫被推送主流观众用脚投票出来的内容。相当于迫使一些需要高成本制作的高质量内容退出。


智能进化论:高度定制化的内容,除了自己欣赏,还会想去分享,如何满足这种需求?


李笛:可以二次创作。你可以把AI的创作(诗歌,文章,歌曲等)理解为初稿,你可以直接参与到二次创作中,补充自己的想法,然后再分享出去。小冰岛上AI beings创造的所有内容,版权都是属于用户个人的,只有AI生产才能做到这一点。


再谈对话自然度就过时了


智能进化论:小冰在对话的自然度、舒适度方面处在领先地位,是通过哪些技术方式实现的?


李笛:技术的方式有很多,最重要的不是技术,而是指标。当时行业内没有人关注自然度,大家追求的全部都是如何让这段文本转变成语音的时候,能够做到字正腔圆,让人听清楚。


实际上,最自然的声音其实是带有人类瑕疵的声音,比如人说话时会有很多吞音、连字、音变。这些人工智能都没有,所以听起来不自然。我们很早就将自然度列为第一位的衡量指标。


ACD(Average Comfort Duration)就是我们提出的新指标,就是你听多久这个AI的声音会受不了了。我们后来已经做到了31分钟。


智能进化论:现在呢?


李笛:做到31分钟之后,这个声音跟本人极其接近了,这时ACD这个指标已经没有意义了,就又回归到讲话的内容与特色。所以我们推出多样性,让声线和表达的韵律相同。所以今天如果同行业者还在说,自然度达到多少分,这个已经是过时的指标了。


智能进化论:这次提出的多样性这个指标到底分哪几部分?


李笛:我们会有论文专门去说。简单说就是小冰岛上面的AI beings会更加丰富。比如发布会上山东大哥的案例,那种声音在过去根本不会去做。


智能进化论:有种观点认为开放域的闲聊无法控制对话的结果,您怎么看?


李笛:目前对话有几类模型:


一种是retrieval model检索模型,可以理解成提前把所有可能的Q和可能的A都准备好,然后当问到这个问题的时候去翻,找到类似的问法,提取答案出来念给你听。


实际上从2017年开始,小冰就已经开始做生成模型了。生成模型是根据正在进行中的对话上下文,以及当前对话的特点临场生成内容。这个回应是根据当前的状况生成的,这句话从来没有发生过。


我们还在应用empathy model共感模型,可以进一步在上下文去(调度)。


智能进化论:现在小冰框架使用的主要是哪种模型?


李笛:是混合的。检索模型有一个特点就是它快,好比查字典总是比现想要快。但是检索模型的问题是溯源不够好,上下文关联性不够好。


专注第三类人工智能


智能进化论:小冰的做法是让AI beings无限接近人,这个大的方向最终会发展成什么样?


李笛:这个方向一直是我们的一个理念。我认为人工智能其实分为三个类别:


第一类是利用人工智能辅助其他学科的基础科学研究,比如DeepMind用AI技术精准预测蛋白质结构。


第二类是人工智能赋能,比如我们经常看到的人工智能C端产品,举个例子人脸识别门禁等等,但这并不是我们心目中的人工智能产品。他使用了人工智能技术,但没有改变产品的属性。甚至有的产品其实只是实现了一个语音控制的功能,不是人工智能产品。


第三类就是人工智能作为交互主体出现,简单来说就是AI beings,他们能够有相应的自主性,可以一定程度的渗透到我们周围的生活。


智能进化论:这次推出的中国画模型难在哪里?


李笛:第三版诗歌和绘画模型,最难的其实是艺术家模型。艺术家模型需要用很小的样本数量,去训练出跟艺术家风格一样的画作。中国画模型难在训练数据很难获得。很多古画有很多名人的章,机器很难知道这些印鉴是不是画面创作的一部分,因此我们做了大量的对于训练数据的清理工作。


智能进化论:三次元短视频生成会不会有隐私和安全问题?


李笛:我们所有的人脸都是生成的,所以本质上没有安全问题。


智能进化论:目前盈利主要还是靠2B业务吗?


李笛:对,我们认为未来真正的盈利应该是2C的,现有的2B其实是一个中间过程,帮助我们把一些垂直领域做得更深一些。


智能进化论:从2B到2C转变的节点,大概在什么时候?


李笛:Windows一直迭代到Windows3.1才初见成效,然后到Windows95奠定了他的霸主地位。人工智能其实需要走的时间会更久一些,我们已经走了七年了,可能还需要一段时间。当你真的发现一个大的方向并抓住它,可能是未来几十年的持续进步。


智能进化论:关于元宇宙您有什么看法?


李笛:元宇宙是个热点,但我们不想蹭。元宇宙这种概念对于我们这样的产品技术团队是有害的,因为它什么都能装。当你在产品设计和技术迭代的过程中,把产品定义为什么都能装的东西,用这种方式去迭代出来的产品一定会失败。


-END-


本文为「智能进化论」原创作品,