马利庄:智能交互与创意:AIGC现状和应用

AIGC
后台-插件-广告管理-内容页头部广告(手机)

马利庄:智能交互与创意:AIGC现状和应用

8月29日,由中国金融信息中心和上海市浙江商会主办,宁波银行上海分行联合主办的浙商大讲堂再次开讲。本次活动继续延续“科学家+企业家”的模式探讨“AI赋能、科创新生”,邀请浙江省在沪人才联合会理事、上海交通大学人工智能研究院副院长、特聘教授马利庄分享“智能交互与创意:AIGC现状和应”,解密科技赋能产业,讲述更多创新,探索“智能制造”背景下的科技创新、拥抱变革,探索创新的演进之路,以及如何依托新技术、增强原创力,促进人工智能在各类产业的高质量发展。

马利庄:智能交互与创意:AIGC现状和应用

浙江省在沪人才联合会理事、上海交通大学人工智能研究院副院长、特聘教授马利庄介绍,AIGC是用AI的技术生成的人物、场景、环境。它的工具是预训练的大模型,以及各类生成式AI算法等人工智能技术,以此寻找其中规律特征并且利用模型泛化能力生成相关内容。狭义上,AIGC通常应用于生成文本、音频、图像、视频、三维模型等内容领域;广义上讲还包括相应策略的生成、自生成代码、蛋白质结构的生成等。从发展趋势来看,是从小模型精准网络到目前的大模型、大规模的预训练。

马利庄认为,有千亿参数才能称之为大模型,目前这一方面国内发展热情非常高,但良莠不齐。AIGC发展的时间线上,总体是从单模态到多模态,从小模型到大模型这样的越来越复杂化和智能化的过程。AIGC模型的基本逻辑是从多模态的数据集,通过训练生成的大模型,服务于相应的各类应用任务。数据集包含文本、图像、语音、视频、结构化数据、3D信号等等。大模型通过训练来进行生成式的选择,然后不断的加以扩展。这个生成和扩展是需要大规模数据或知识的积累,就像一个人,行万里路以后具备了丰富经验,脑子里有很多经验与知识。但最后还有一步,还是要有一些专家或公认的权威人士对它做强化训练,通过强化学习等生成合理可用的AI模型。最后一步非常重要,如果纯是AI生成的内容,逻辑上可能会混乱,通过强化学习,提高它的精准度,并加以约束使之符合社会伦理、政策法规等。适应的任务范围包括知识检索、文本生成、音频制作、视频制作、科学研究等等,内容是非常广阔。

AIGC的优势,马利庄认为首先是提高生产率,加速内容的生成;其次是跨模态知识的理解与应用,使得创造的内容有很大的多样性,可以探索新的创意风格,带来独特的表达方式;还有大规模生成和适用性,可以满足丰富多彩的实际应用;把“大模型”放到某一个专门领域还可以适应场景,学习后能够满足不同场景的不同应用。但是,AIGC目前在复杂的逻辑推理上还存在不足。原因可能是原始采集的数据当中存在误导性和虚假信息,也包括很多偏见都需要人工干预,从公序良俗的角度加上条件限制。另外在法律和伦理方面AIGC也可能会面临很多挑战。

总体来说,马利庄表示,我国在AI算法上面跟国外先进水平的差距不大,数据平台这一块也有中国特色。但算力这一块是目前最大的瓶颈,包括CPU、GPU;操作系统等方面也是短板。

马利庄认为,未来AIGC在应用方面的研究将进一步推进人物、行为以及场景的三维视觉的关联表达与理解的研究创新与突破。这里特别要强调其中的因果关联。例如现在拿起一杯水,拧开盖子,人们都知道我可能要喝水,但是要让计算机也理解或预测这个事情,一定要把其中的因果关系搞清楚。但目前视觉表达模型大多是基于单个或静态物体的识别感知,缺乏人与行为动作的关联,与场景的关联,以及事件间的因故关联与预测分析。解决这些问题,也是后续机器人,特别是服务机器人、自动驾驶等很多应用里面需要的。这种基于人物-行为-场景关联的(特别是三维场景)三维视觉表达与推理技术仍然有待研究。这是未来突破的方向----以人物为中心的人物识别、行为分析与场景感知和重建,构建关联视觉表达与理解,可以使得机器人推理或预测出合理的人物行为和意图。

在目前的典型应用方面,AIGC最直接的应用场景是在影视、动漫和游戏行业。比如虚拟角色的智能化的生成,然后根据大模型生成的导演创意和剧本,通过智能多维度的分镜头剧本演绎故事情节,推演每个演员个性化的成长和发展历程,故事的情节跌宕起伏,人物的成长也是起起落落。在相关AI生成技术的辅助下,我们可以使得故事情节更加合理。未来电影的放映时,人们可以与电影中的人物和故事互动交互,可以看到自己想要的各种影视结果,在数字世界或者“元宇宙中体验不同的选择和不同的人生”。AIGC还可以助力创作当中的代码生成,快速地创建三维模型以及实时生成逼真的纹理,进行角色的智能创建、生成关联动画,甚至于跟动画角色进行沉浸式交互。我们也可以想象自己有了一个数字人,在虚拟世界里面模拟一个“我”。现在已经有一些模拟生成的数字人的应用例子,数字人与真人的音容笑貌、行为姿态、个性化特征等非常接近。

关于AIGC面临的挑战方面,马利庄认为,主要包含四个方面,一确权方面,所生成的作品著作权到底归谁?使用训练数据包含了明显受到版权保护的素材时就会有侵权的风险。二是生成内容的监管,比如现在的AI生成技术可能会被应用到诈骗等犯罪活动中。三是涉及隐私保护的问题,比如要生成相应的数字人,需要把相关人的音容笑貌、行为姿态和个人爱好等等信息通过学习的方法输入到模型中去,这其中怎么样保证它的数据安全,是很值得思考的。AI是缺乏价值判断能力的,导致生成的内容比如性别偏见、暴力等等涉及道德伦理与安全风险,AIGC的产权保护、配套的管理政策,目标是打造可信的AIGC应用和绿色的人工智能技术。最后,马利庄表示,目前AIGC应用中,最大的问题是成本问题:需要大量的数据带来的存储成本,需要大量算力带来的计算成本、能源成本。例如我们实验室需要大功率空调24小时协助散热,温度仍然偏高,带来的能源成本等等。

马利庄认为,三维视觉表达与理解是将来的一个重大的研究方向,数据加知识与认知产生未来的三维视觉智能,即三维的语义智能。将来配合显示器的全息投影技术,将目标识别与三维感知结合,利用人物-行为-场景的一体化视觉表达与理解技术,找出系列行为或事件中的因果关系。我们可以使得机器人一次性(或很少次)学会某些人的行为或动作,例如拿起杯子喝水,找到椅子坐下等等。解决与提高服务机器人的智能化,是我们的努力方向。相信未来将有更加智慧,充满创意,情感丰富的AIGC的作品;而且它能自我演化,自我学习,自我进化。人们可以在数字平行世界中沉浸式体验不同的人生,这就是AIGC未来的终极目标。

编辑:方子昭

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。