马利庄：智能交互与创意：AIGC现状和应用

2023-09-24 21:28:29 AIGC ℃

后台-插件-广告管理-内容页头部广告（手机）

8月29日，由中国金融信息中心和上海市浙江商会主办，宁波银行上海分行联合主办的浙商大讲堂再次开讲。本次活动继续延续“科学家+企业家”的模式探讨“AI赋能、科创新生”，邀请浙江省在沪人才联合会理事、上海交通大学人工智能研究院副院长、特聘教授马利庄分享“智能交互与创意：AIGC现状和应”，解密科技赋能产业，讲述更多创新，探索“智能制造”背景下的科技创新、拥抱变革，探索创新的演进之路，以及如何依托新技术、增强原创力，促进人工智能在各类产业的高质量发展。

马利庄：智能交互与创意：AIGC现状和应用

浙江省在沪人才联合会理事、上海交通大学人工智能研究院副院长、特聘教授马利庄介绍，AIGC是用AI的技术生成的人物、场景、环境。它的工具是预训练的大模型，以及各类生成式AI算法等人工智能技术，以此寻找其中规律特征并且利用模型泛化能力生成相关内容。狭义上，AIGC通常应用于生成文本、音频、图像、视频、三维模型等内容领域；广义上讲还包括相应策略的生成、自生成代码、蛋白质结构的生成等。从发展趋势来看，是从小模型精准网络到目前的大模型、大规模的预训练。

马利庄认为，有千亿参数才能称之为大模型，目前这一方面国内发展热情非常高，但良莠不齐。AIGC发展的时间线上，总体是从单模态到多模态，从小模型到大模型这样的越来越复杂化和智能化的过程。AIGC模型的基本逻辑是从多模态的数据集，通过训练生成的大模型，服务于相应的各类应用任务。数据集包含文本、图像、语音、视频、结构化数据、3D信号等等。大模型通过训练来进行生成式的选择，然后不断的加以扩展。这个生成和扩展是需要大规模数据或知识的积累，就像一个人，行万里路以后具备了丰富经验，脑子里有很多经验与知识。但最后还有一步，还是要有一些专家或公认的权威人士对它做强化训练，通过强化学习等生成合理可用的AI模型。最后一步非常重要，如果纯是AI生成的内容，逻辑上可能会混乱，通过强化学习，提高它的精准度，并加以约束使之符合社会伦理、政策法规等。适应的任务范围包括知识检索、文本生成、音频制作、视频制作、科学研究等等，内容是非常广阔。

AIGC的优势，马利庄认为首先是提高生产率，加速内容的生成；其次是跨模态知识的理解与应用，使得创造的内容有很大的多样性，可以探索新的创意风格，带来独特的表达方式；还有大规模生成和适用性，可以满足丰富多彩的实际应用；把“大模型”放到某一个专门领域还可以适应场景，学习后能够满足不同场景的不同应用。但是，AIGC目前在复杂的逻辑推理上还存在不足。原因可能是原始采集的数据当中存在误导性和虚假信息，也包括很多偏见都需要人工干预，从公序良俗的角度加上条件限制。另外在法律和伦理方面AIGC也可能会面临很多挑战。

总体来说，马利庄表示，我国在AI算法上面跟国外先进水平的差距不大，数据平台这一块也有中国特色。但算力这一块是目前最大的瓶颈，包括CPU、GPU；操作系统等方面也是短板。

马利庄认为，未来AIGC在应用方面的研究将进一步推进人物、行为以及场景的三维视觉的关联表达与理解的研究创新与突破。这里特别要强调其中的因果关联。例如现在拿起一杯水，拧开盖子，人们都知道我可能要喝水，但是要让计算机也理解或预测这个事情，一定要把其中的因果关系搞清楚。但目前视觉表达模型大多是基于单个或静态物体的识别感知，缺乏人与行为动作的关联，与场景的关联，以及事件间的因故关联与预测分析。解决这些问题，也是后续机器人，特别是服务机器人、自动驾驶等很多应用里面需要的。这种基于人物-行为-场景关联的（特别是三维场景）三维视觉表达与推理技术仍然有待研究。这是未来突破的方向----以人物为中心的人物识别、行为分析与场景感知和重建，构建关联视觉表达与理解，可以使得机器人推理或预测出合理的人物行为和意图。

在目前的典型应用方面，AIGC最直接的应用场景是在影视、动漫和游戏行业。比如虚拟角色的智能化的生成，然后根据大模型生成的导演创意和剧本，通过智能多维度的分镜头剧本演绎故事情节，推演每个演员个性化的成长和发展历程，故事的情节跌宕起伏，人物的成长也是起起落落。在相关AI生成技术的辅助下，我们可以使得故事情节更加合理。未来电影的放映时，人们可以与电影中的人物和故事互动交互，可以看到自己想要的各种影视结果，在数字世界或者“元宇宙中体验不同的选择和不同的人生”。AIGC还可以助力创作当中的代码生成，快速地创建三维模型以及实时生成逼真的纹理，进行角色的智能创建、生成关联动画，甚至于跟动画角色进行沉浸式交互。我们也可以想象自己有了一个数字人，在虚拟世界里面模拟一个“我”。现在已经有一些模拟生成的数字人的应用例子，数字人与真人的音容笑貌、行为姿态、个性化特征等非常接近。

关于AIGC面临的挑战方面，马利庄认为，主要包含四个方面，一确权方面，所生成的作品著作权到底归谁？使用训练数据包含了明显受到版权保护的素材时就会有侵权的风险。二是生成内容的监管，比如现在的AI生成技术可能会被应用到诈骗等犯罪活动中。三是涉及隐私保护的问题，比如要生成相应的数字人，需要把相关人的音容笑貌、行为姿态和个人爱好等等信息通过学习的方法输入到模型中去，这其中怎么样保证它的数据安全，是很值得思考的。AI是缺乏价值判断能力的，导致生成的内容比如性别偏见、暴力等等涉及道德伦理与安全风险，AIGC的产权保护、配套的管理政策，目标是打造可信的AIGC应用和绿色的人工智能技术。最后，马利庄表示，目前AIGC应用中，最大的问题是成本问题：需要大量的数据带来的存储成本，需要大量算力带来的计算成本、能源成本。例如我们实验室需要大功率空调24小时协助散热，温度仍然偏高，带来的能源成本等等。

马利庄认为，三维视觉表达与理解是将来的一个重大的研究方向，数据加知识与认知产生未来的三维视觉智能，即三维的语义智能。将来配合显示器的全息投影技术，将目标识别与三维感知结合，利用人物-行为-场景的一体化视觉表达与理解技术，找出系列行为或事件中的因果关系。我们可以使得机器人一次性（或很少次）学会某些人的行为或动作，例如拿起杯子喝水，找到椅子坐下等等。解决与提高服务机器人的智能化，是我们的努力方向。相信未来将有更加智慧，充满创意，情感丰富的AIGC的作品；而且它能自我演化，自我学习，自我进化。人们可以在数字平行世界中沉浸式体验不同的人生，这就是AIGC未来的终极目标。

编辑：方子昭

后台-插件-广告管理-内容页尾部广告（手机）

标签：

上一篇：网易数帆上线对话式BI：AIGC+数据分析可信可控是核心

下一篇：返回列表

人工智能物联网_17aiot.com

马利庄：智能交互与创意：AIGC现状和应用

评论留言

我要留言

马利庄：智能交互与创意：AIGC现状和应用

相关推荐

评论留言

我要留言