Posted on

大佬对话:元宇宙里的数字人

【专稿,未经授权不得转载!】

报道/谈到元宇宙,可能很多人第一时间想起来的是无限大的互连世界、无穷多的高品质内容,以及前所未有的创作者数量和越来越低的创作门槛。

但不容忽视的是,在这些宇宙或者世界当中,数字人是非常重要的一部分,它既可以是玩家的形象化身,也可以是与之互动的NPC,甚至是大量在数字世界生活的数字人类。这方面,Epic此前公布的MetaHuman工具带来了令人惊艳的效果,让更多人快速创造高保真数字人成为了现实。

据3Lateral联合创始人兼CEO Vladimir Mastilovic透露,仅在2021年,使用MetaHuman创造的数字人就超过了100万之多,至少是四年前的20倍以上。

对于未来,人类的脑洞向来很大,尤其是数字人,我们希望可以有能够表现情感和同理心的数字角色,甚至可以像真正的人类那样拥有智能。这让数字人更加真实化这个层面,Soul Machines取得了非常惊人的成就,其CEO Mark Sagar还是奥克兰生物工程学院动画技术实验室主任,并凭借《金刚》和《阿凡达》拿到了学院奖。

在最近做客开放元宇宙访谈的时候,Vladimir Mastilovic和Mark Sagar探讨了数字人的发展、未来的方向,以及它对于元宇宙的意义。

元宇宙里的数字人应该是可以自主的

Mark Sagar是学物理出身,但同时也画人物肖像。读博的时候,他讲物理模型与计算器图形融合,做成了通用解剖模拟器,其中就包括人脸,并且在此基础上打造了数字演员。

“我们也在尝试创造真实的虚拟人类,是为电影设计的,所以我们做了多个项目,我希望创造的数字人是让你觉得他们生活在虚拟世界中、没有人为痕迹,这导致了很多事情的发生,我从事视觉效果行业很久,其中大部分时间都在索尼和Weta度过,主要是创造数字角色。”

Sagar在电影行业的经历非常丰富,他曾打造过《蜘蛛侠》电影里的章鱼博士等虚拟角色,还在Weta工作的时候打造了内部HD动态捕捉系统。

“我们开始了解面部表情和互动的本质是什么,就像改编音乐,你从钢琴捕捉曲子,现在需要用吉他演奏出来,所以是需要做改编的,它们是差别很大的乐器,所以这就导致了打造基于事实的系统,这对于《金刚》里的角色非常有帮助,你有一个真人演员和一个金刚这样的角色,他的眉毛会卷上去而不是翘起,这些都是非线性的。”

随后,这个系统用于《阿凡达》里的实时系统,但从理论到真正走到大银幕,他和Weta团队用了3年多的时间,他表示,“如果你可以让这些电脑角色创造他们自己的动作、扮演自己,那就可以有无限的故事,他们可以做的事情是无尽的。”

从事过生物工程项目的Sagar同样对神经科学和AI非常感兴趣,他希望创造一个能够制造自己表情和动作的数字角色,于是离开了视觉效果行业创办实验室,后来拆分出了一家叫做Soul Machines的公司。

Soul Machines制作第一个完全自主的角色就是可以学习和互动的数字婴儿Baby X,但对于元宇宙来说,打造规模化的自主角色是很大的挑战,

“因为我们要与所有东西互动,而不是所有东西都由活人驱动。对于一家公司来说,一旦规模化,你不会让每个化身都由一个人类驱动,这样是不可能规模化的。不管是数字角色,还是游戏以及娱乐,如果有能够自己思考的角色并且做不同的事情,那么它的可能就是无限的,你每次玩游戏都会有不同体验,这令人非常兴奋。”

MetaHuman很强大,但这只是最简单的开始

与Sagar不同的是,Vladimir Mastilovic则从事游戏研发20多年,并参与过大量3A游戏的制作。2005年的时候,他在Image Metrics担任技术总监,并有幸参与了Rockstar Games的第一款次世代游戏,而且聚焦于高保真角色。

Mastilovic谈到早年经历的时候表示,人们对这样疯狂的角色设计感到着迷,但看到超过了15倍的预算,很多人又纷纷劝他“控制热情”:

“那时候Image Metrics与R星合作了很多东西,我有幸通过Image Metrics为R星做了超过10年的面部套索系统(rigging systems)。那个时候,人们告诉我,‘Vlad,没有人在意高保真角色,我们在意玩法,你做的东西很好,我们欣赏你的热情,但要控制你的热情。’”

于是,Mastilovic开始思考扫描技术,他意识到巨大的改变即将来临,并且在2012年创办了3Lateral(MetaHuman技术开发商)。

“一开始我们非常聚焦于管线。我们如何吸收大量数据,如何处理它,如何使其有用?我们当时是非常幸运的。我知道会发生什么,但这其中也有一些运气成分,它在PS4时代游戏发生了,剧情游戏非常受欢迎。扫描技术是很重要的,而我们实际上比行业任何公司的准备都更充分,这也让3Lateral增长非常快,还让我们可以思考收集更大的数据。”

3Lateral与Epic Games的合作开始于2015年,后来该公司的技术还成为了虚幻引擎免费技术的一部分。Mastilovic和他的工作室还参与了《地狱之刃》的动态捕捉技术,客户对3Lateral的品质和服务非常满意,但也因为这些技术没有对外开放而感到沮丧。

“我们尽了最大努力,但需求增长如此之快,以至于我们提前很多年的预定都被排满了。尽管这是个成功故事,但依然是有问题的,因为我们并不能真正解决全行业的需要,所以这也是我们打造metahuman产品的原因,也就是让其他人能够做我们可以做的事情,同时突破我们所能做的极限,这比展示一个只有我们能做的demo更有成就感。”

具Mastilovic透露,根据该工作室的分析,2017年的时候,当年全球所有制作的游戏当中创造了大概5万个数字人,然而仅在去年就有100万左右的meta human被创造,很多创作者讲述了之前做不到的故事。

不过,他希望给工具赋予更大的能力,降低使用技巧,让所有人都能够用MetaHuman工具讲述自己的故事,并且与其他工具整合,带来全新的体验。

MetaHuman技术很依赖捕捉大量的数据并使用机器学习,但Vladimir Mastilović表示,这实际上只是最简单的开始。

“我们希望重现现实应该是自主化的,干预现实是我们看到的机会之一,我们把自己的方法叫做知识螺旋。从获取真实世界数据开始,然后将这些数据分解成数据原子粒子。然后我们建立虚拟模型,构建合成新数据的系统,这使我们能够更快、更精确地捕获和处理新数量的真实数据。

我们还在起始阶段,还有很多需要学习、发现,我们很大程度上还聚焦于表面,行为侧还有很多要做,整个领域极为复杂,这就像是在有限时间里无法完全获得的终生研究那样。幻想世界更为复杂,我觉得人们能想象很多现实是有原因的,因为它们基于现实,如果我们理解现实,就可以理解现实如何映射到虚拟角色上,如果我们理解虚拟角色如何映射到不同风格,那么就有了管线,它看起来既漂亮又优雅。”

为技术赋予生命,数字人普及或只需三五年

Soul Machines打造了一个虚拟大脑和神经系统让角色处理社交互动,这个技术其中一部分是行为系统,他们扫描了很多人,并在此基础上建立了不同人类学数据的数据库,然后把它们整合起来。另一部分则聚焦于驱动力,也就是这些角色的自动驱动力。

Sagar表示,“这适用于任何动画角色,问题是真正的目标是什么、你如何为技术赋予生命?这就是动画的本质,你如何让一个角色栩栩如生?它不一定是个人类角色,可以是个会说话的草莓或者类似的东西。

如果我是名数字医生,你不会希望我长的像个恐龙,但如果是社交,那就像是变装舞会,你会想要最具创意的角色。就像Vlad所说的那样,挑战是人们想要的创意很多,就像是《孢子》里的角色创作器,你可以做大量不同的东西,这很有趣,任何人都可以做,随着我们进入元宇宙,就需要更多这样的工具带来完全的创意自由。”

Soul Machines的另一部分业务是数字明星,即通过真人模型做逆龄修复模型,呈现明星最鼎盛的状态。这需要大量的美术工作,因此该公司在寻求让大量过程自动化。在行为侧,有Baby X这样完全自主的婴儿,还有可控的数字医生或财务之类的角色,后者需要按照客户要求做到精准化。

“他们不希望它做一些随机的事情,比如,你要做个品牌大使,那就是在创造精准体验,所以我们的模型是让你设定对这个角色希望的自主程度。因此在技术方面,我们有了Baby X这样对行为本质建模的角色,然后还有企业或者客户聚焦的东西,很多客户只想要标准的NLP精准体验,因为他们不希望走向意料之外的方向。所以我们在适应不同领域,但我个人最感兴趣的是完全自主的工作。”

对于自主技术,他表示Soul Machines最大的目标是,创造真正让人能够与之合作的AI,在Baby X项目上的一个关键元素就是合作的本质,探讨人类如何在不同任务中合作,因为很多时候面对面互动才是人们最有效的的互动方式。

“这也是我们更喜欢视频电话而不是发短信或者打电话的原因,这很有效率,因为你可以获取更多的信息。所以,这些因素是基础信息,他们都是有价值的,它们放大、控制你的注意力,所以这里还有很多东西。”

不过,尽管面对面互动更为开放、更坦诚,但用户隐私和同样重要。

“如果有一个数字人看着你,你可以知道他在听,你或许走进另一个房间或者把它关掉,这是我们可以看到的事情,它尊重隐私,这会越来越重要。因为对我们来说使用这些技术,最终必须要信任它们,这是它被社会接受的唯一方式。”

谈到数字人的发展,Vladimir Mastilović表示,未来三到五年就可以看到数字人在真实世界中的应用,他甚至将元宇宙比作互动的视频网站。

“我记得1996年的时候有个电视节目,一位专家说电脑永远不能播放视频,因为电脑处理不了那么多的信息,听到这个之后我失落了很多天,因为我非常喜欢做视频和电脑相关的事情。幸运的是,这个说法是错误的,我还记得当时把视频放到网上就像是科幻小说的时代。”

当然,Mastilovic并不是说元宇宙将成为一个视频网站,而是一个人们可以创造互动内容并邀请其他人参与的场所,虽然没办法想象所有使用场景、它会运用到什么地方,但可以确定都是,人们很轻易打造虚拟世界,就像是《星际迷航》里的全息甲板。

不过,他表示,这是未来三五年比较务实的版本,但想要实现真正的智能化,可能是在遥远的未来。

Mark Sagar则表示,让数字人具有互动性,或许实现日期不会太远。“你可以将将自己当做导演、数字人当做演员,我希望讲一个故事,给演员高层次的指令,但他们可以有自己的理解、做自己的事情,但导演可以说,‘你能否在做一遍,但表情更开心一些’,或者之类的事情。

所以,你可以有高度自主的角色,他们有自己的想法和价值观,但要达到你的要求,可能还有很长的路要走,我觉得真正智能的角色可能还需要50年,我们会有大量优秀的工具,我觉得可以让这个时间更短。”

此外,数字人的互动性,也可以让培训或者学习更有沉浸感,更容易被人理解。比如数字人可以通过互动的方式向用户展示,并且根据每个人的学习节奏来调节互动方式,还可以让用户参与到互动之中。

用数字人创造元宇宙,开放标准很关键

在绝大多数人的元宇宙设想中,大量创作者是共有的特点,但想要让所有人都参与整个生态系统的贡献,开放标准是很关键的。

Mark Sagar举例称,“如果我有NFT之类的东西并且买了一个不错的衬衫,如何把它用到meta human身上,如何传输这个数据并让它行之有效?我想我们可能有通用的装备、有整个面部动画系统等等。在核心层面上,它就像meta human一样,你只是在移动不同的面部区域和肌肉。”

对于数字人的标准化,Vladimir Mastilović表示,开始的时候,3Lateral并不知道会得到什么结果,更不用谈思考标准化的问题。但现在,他们思考的是,人类面部不会改变的是什么?那就是解剖学特征,并为此做了套索逻辑。

“我们对meta human的成就非常自豪,但还不够满意,因为他们还不是照片级真实。因此,区域逻辑(district logic)将继续演变为各种机器学习矩阵、模型和不同事物的组合,我认为这是实现标准化的步骤之一,物理学当然是另一个,因为物理规则不会改变。当我们延伸到身体的时候,我想这也不会很快改变。”

Mark Sagar则补充道,我们还需要从与虚拟世界中的元素交互标准方面来看待这个问题:

“如果我拿起一个虚拟物体,我们必须确保数字人的手不穿过物体,必须有碰撞检测。对于数字人类表达来说,这实际上是一个很难解决的问题,随着保真度的不断提高,我们将达到我们需要达到的程度。

就元宇宙问题而言,Mastilovic表示,元宇宙同时也是一个竞争的空间,所以标准化是有挑战的,但他表示非常乐观,“元宇宙只有互连的情况下才令人兴奋,否则那将是一个无聊的地方。”

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注