前言
2023年,生成式人工智能的浪潮席卷全球,AI绘画凭借着快速的出图和易上手的使用,迅速掀起了大范围的讨论和实践。生产工具端,我们看到Open AI的DALL·E 每天平均生成超两百万张图像,也看到Midjourney凭借11人的团队打造了千万用户量级社区;在用户体验端,既有《太空歌剧院》在艺术领域崭露头角,也有不少类似无尽的三月七的整活体验。
今天我们邀请到了Infinity Ward Lead UI Engineer董晶晖、Tiamat创始人青柑、星引擎社团游戏设计师南瓜&资深美术Angel,一起来探讨AI能生成有趣的创作风格和元素吗?
-
董晶晖:Infinity Ward Lead UI engineer,参与开发《使命召唤:现代战争2》、《使命召唤:现代战争》、《使命召唤:战区》、《使命召唤:二战》和《Skylander Battlecasters》,同时个人专注 AIGC 创作,喜好探索不同的可能性,着迷于视觉元素和表达;
-
青柑:Tiamat创始人,相信科技和创意结合的浪漫,随时期待AI的新可能;
-
南瓜:星引擎社团游戏设计师,曾参与制作《幻想计划》《交响星辉》《星引擎Party》;
-
Angel:星引擎社团资深美术设计师,曾参与制作《仙剑OL》《龙之谷2》《交响星辉》《星引擎Party》。
-
成志&ROSA:主持人,AI+游戏市场观察者,GameTrigger投资副总裁
他们探讨的话题包括但不限于:
-
AI和人工作画有哪些区别?
-
AI绘画的出图管线探索
-
AI目前已经可以助力大型游戏开发了吗?
-
AI绘画如何助力小团队开发?
-
AI绘画想融入开发管线面临哪些挑战?
-
模型层面有哪些技术探索?
我们将他们的部分讨论整理成文,期待能带来新的思考和启发,Enjoy~
图灵测试:辨别AI作画
南瓜
我挑了些偏氛围感的插画,但里面只有一张是人画的,猜一猜是哪张(还有张是我自己用AI出的图)?这类氛围图主要传达大致的感觉,细节倒不那么重要。
Jim
我倾向于在3和4里面挑选。虽然我认为4确实有些冗余的地方,AI出图也很容易有画面脏的感觉,但我还是坚持4是人画的吧。
南瓜
正确答案是2。1和4出自我比较喜欢的AI创作者,氛围感很棒(图一:小红书@ZhouPengART,图四:小红书@灵言-01)。其实2虽然是人画的,但里面也有不少小细节处理得不够好。不过作为氛围图而言,已经能够传递出大部分感受,这种就没要去解读类似笔触等每个细节。
编辑补充:现场观众正确率不足30%
Jim
我这里四组图片对应的是不同主题,但不一定是一张人工、一张AI,可以猜猜看。
1.左上-真人题材组
南瓜
我觉得2是生成的,它的头发和五官有一点机器的影子在里面;1我感觉像是真人照修片。
Jim
其实 1是AI生成,2是真人,现在很多真人照片还挺难区分的。
2.右上-2D题材组
Jim
这里1是AI画的,2是真人。与写实照片相比, AI会更擅长把一些逻辑性的细节添加在作品里,但是如果在写实照片里有太多元素就很可能出现细节问题。
3.左下-创造性题材组
Jim
这组两张都是AI画的。它们的作者很擅长用AI进行世界观创作,你很难直接通过内容去反推prompt,复刻的难度很大。
4.右下-3D渲染组
Angel
我猜左边的是AI,因为它光影上比较假,太理性了。
Jim
对,以及左边的图会有细节冗余,比如头上的线,没有太多意义。
青柑
我之前也有过美术经历,最初AI出来的时候我是自愧不如的,而这几张图不管是对于事情本身的表达,还是对于设计的感受,都让我印象深刻,可以猜猜哪一张是人画的。
答案是4,我们也一直在探索AI表现出的氛围、意境,在插画领域能否有足够好的表现。如果再稍微修一下图,就更难准确的去判断了。
Angel
我这里只有一张是人画的,都是二次元、卡通风格的人物角色。
Jim
我猜是4,主要是人物细节从设计上看比较符合逻辑性。比如左边角色脚下并不是没画好的阴影,而是穿的冰靴。
Angel
对,答案是4。
董晶晖Jim分享:AI出图管线探索
我本职是参与《使命召唤》系列的UI开发,个人平常在用Midjourney、Stable Diffusion进行角色和世界观搭建的创作。尽管我并不是直接的美术岗,但设计都有相通性,都在用不同工具去解决问题满足需求。那今天我的分享就从如何用AI工具进行角色设计、寻找合适的管线展开,希望对大家有启发。
(小红书@Jim Huihui)
我将以近期在探索的S项目(个人AIGC作品)为例,希望既能通过AI工具创作出新的视觉元素, 整条管线也能满足角色的设计需求。
在开始前,我们首先需要了解所使用的工具,关于Midjourney,有四个特点想跟大家分享:
1. 第一,它拥有强大的素材库,也可以说它拥有强大的模型,某种意义上甚至可以把它当成一个图片搜索工具;
2. 第二,它具有很强的艺术风格模仿能力,对比SD必须训练模型或者Lora,MJ能在相同资源前提下表现更佳。
3. 第三是关于MJ的劣势,它很难保证出图一致性,尤其是以工业标准去审视时;
4. 第四是无法避免的Prompt污染,多个提示词间可能相互影响,比如输入红色的衣服、蓝色的天空,出图可能变成蓝色的衣服和红色的天空。
具体来说,我希望通过S项目达成以下的设计目标:
1. 避免开盲盒的出图流程,提高出图率,在个人使用时反复修改提示词或出图,固然能在几十张里面找到一两张满意的,但这种开盲盒流程一是不能到达工业管线要求,二是容易造成注意力分散,沉浸于开盲盒的眩晕中;
2. 找到稳定出图流程,当我有新需求时,当前的流程不需要进行大的修改,只需要做细微调整,这也是AI工具达到工业标准的目标之一 ;
3. 我希望设计需求优先级更高,不能因为AI限制而妥协;当AI工具无法实现需求时,不应该因此调整需求;同时也是在探索AI工具的上限;
4. 尽可能保证出图一致性,尽管对比于SD,一致性并不是MJ所擅长的,但我还是希望尽可能达到这样的目标。
接下里,我介绍一下希望设计出的人物形象:
-
她是一个擅长在雨天进行任务的杀手,擅长使用各种自制武器,这些武器日常伪装会被成工具甚至玩具;她的外在形象不具有威胁性,以便降低目标的警觉性,但实际却有强大的行动力和攻击性。
-
基于此我提炼出三个关键词:杀手、反差、雨水。
接下来是我的出图流程,总体可以分为四个步骤:
1. 第一步我称为0.5版本,主要是收集素材。
因为这个人物喜欢在雨天出击,所以我着重收集了雨衣或是防水材质衣服的素材;同时我希望它的造型不仅具备功能性,也具备一定的装饰性,所以也收集了类似雨衣设计的时尚领域素材。
同时,我会尽可能的收集现实中的真实照片。主要是因为,第一,素材需要尽可能高质量、高分辨率;第二,我想避免使用其他美术已经出现的出图或设计,在最早期我不想引入他人的美术风格、设计特点到管线内。
最后是尽可能收集全身图素材,这对于生成全身像的人物设计比较重要。
2. 0.8版本使用MJ Blend出图,找到贴近目标的设计。
之所以使用Blend模式,主要是因为更能掌握变量,可以比对A+B和A+C提示词下的出图结果;而Imagine模式下,为了达到设计需求势必会加入多个提示词,这样就很难通过排除或添加某一个提示词来清晰的知道影响,容易陷入多样性有限的集合;
且Blend也可以通过限制Prompt数量来减少提示词污染。我不需要像Imagine模式里用最仔细清晰的提示词描述设计细节,避免不必要的元素引入或者冗余信息。
最后我选择了一些带有符合需求方向的设计元素的出图,比如衣服贴近防水材质、具备宽大和半透明的袖子、运动服、人物全身像等。
3. 0.9版本使用MJ Imagine,试图达到稳定、一致的风格和成果。
以上一步的素材作为引子,再添加关于细节和艺术风格相关的提示词。我把艺术风格提示词作为提升一致性的工具,可以通过Describe功能去找一些认为不错的艺术风格素材。
4. 1.0版本最终在Photoshop处理图片,加入元素和细节,把同样用AI生成的武器和道具最后添加到素材当中,完成基本人物出图。
可以看到在这个效果图中,人物的衣服材质接近于雨衣,具有宽大的袖子,戴着战术手套;在左边也可以看到他们的武器,有匕首气钉枪以及装有腐蚀液的水枪,主要用于刺杀过程中的攻击,以及刺杀结束后逃离。人物的衣服款式、材质、武器装备等都比较符合最初的雨中杀手设定。
5. 回顾整个管线,我着重想解决的就是Prompt污染问题和一致性问题,但离工业化水平仍有差距。且目前存在难以生成手持武器或装备状态的人物,面部风格也很难做到完全一致。
基于上述流程可以总结出关于AI画图工具的四点阐述:
-
多样性:可以从艺术风格和生成元素两个维度探索,但会受到模型限制;
-
一致性:目前很难达到工业标准的一致性,设计需求的复杂性和出图一致性成反比,尽管像SD有提供强大插件试图解决,但目前最有效的方式仍是能通过大量的素材训练解决,甚至一个模型只服务于一个角色。在这种情况下,反而是工业级别的团队才有能力去进行操作。
-
可控性:工具可控部分有限但发展迅速,对用户愈发友好;不管是闭源还是开源的AI工具,势必要有更多对用户友好的接口,才能让大家更好的去使用和去了解;
-
创造性:产出率决定于使用者的方式和创造性,我希望能用大家更为熟悉的元素和文化作为基础,创造新的视觉元素,创造出让人熟悉、但是又新颖的体验,创造出符合我们感同身受的形象,甚至是IP。
最后总结:
AI为行业整体带来的正面影响大于负面。从工程学的角度来说,我们还没有将AI工具发挥到极限,如同最初的摄影师只追求还原真实,我们还处于新技术的眩晕当中,我希望我们能创造出让大家“熟悉又新颖“的事物。
Tiamat青柑分享:模型层面的技术发展
关于Tiamat:
我们最早在22年3月份开始在小红书上发布模型生成的结果,比DellE 2和MJ公测都稍早,包括Tiamat这个名字都是最早期我们核心的、帮助我们测试模型和反馈数据的用户一起投票投出来的。我们也比较了解和支持开源生态,且非常相信开源生态会带给整个行业变革。
目前公司产品有三个,一是更加专业的网页版Tiamat,二是小程序版本,三是QQ频道版本。我们希望做最有温度、最亲民的AI。
关于工作流:
我对于游戏立绘方面很感兴趣,公司也做了不少落地的项目,在这以角色设计为例讲一下我们的工作流。其实像Jim老师刚才出的那种设计稿离实际游戏内还有一段距离,在我们接触的案例中,通常是已经做好了设计草图,在得知角色的形象细节、衣服材质、整体设计观感等要素后,我们要做的是产生实际可上线游戏的素材图。
-
用Tiamat生成角色剪影
在有了设计稿后,我们主要关注剪影和游戏设定的感官是否一致,比如这张立绘是一个站立的角色,有倒梯形的剪影,这里不太关注角色每个设计元素是否准确,而是先定草图。
此外还要注意版权问题,所有东西都是从零生成,或是基于客户给的内部素材。
-
人工调整
在生成剪影的基础上,我们需要人工将相关素材贴上剪影,此时有很多设计细节仍需要人工调整,包括材质、光影等,这一步最后的质量需要达到一般二游首页立绘的水平。
Jim老师刚才说的一致性问题现在就暴露出来了,比如我现在做出来一张角色阶段一,当他变为阶段二时,我要怎么样保证他的脸、气质等设计都不变。目前解决方案仍主要靠抠图换脸,哪怕相关元素已经设计好了,要做成实际使用的产品都需要先用AI从零生成一个剪影,人手去把元素贴上去,再去用类似的技术生成出图,最后再调整面部、饰品、材质等细节。
尽管经历了上述一个不短的路径,生成的立绘依旧不能过于复杂,如果设计元素过多,AI仍无法很好地处理。
关于创作中的问题:
-
AI缺乏联想能力
我们比较专攻二次元游戏,而二游角色的魅力非常依赖设计细节、人物背景、世界观设定,而AI还不能完全理解这些内容。比如上图中的牧师形象,她背后的天平、小树枝等元素来自于人拿到素材或设计要求后大脑展开的联想。而AI目前的联想触手范围不足,很难从零到一的把这些步骤做好,也没有办法做精细的联想。
-
技术上有局限
在技术细节上,存在图像细节充分,但并不代表它的单图像素足够高,就算训练素材高清、高像素,出图却不一定有充分的细节、并且满足项目需要的像素清晰度。
-
背景图类美宣实现落地
AI作为一个辅助工具,在帮助快速将设计好的元素、有意思的设计落地上,已经是打通了的。在游戏领域,背景图类美宣已经能实现不错的效果,相比于对角色形象的高敏感度,人类对背景图的关注没那么强。接下来我们会着重在设计审美和想象力本身的工作上下功夫。
南瓜分享:小团队怎么样用AI
南瓜
我主要是以游戏制作人的身份展开,更偏向于前期概念跟企划上面。我们社团在AI美术上贯彻的观点是:使用AI作为工具,但我们不要变成AI的工具。AI对于我来说是作为传递感受的工具,哪怕细节上存在错误,但其他岗位的同学可以直观的了解我想要的感受,如果只读文字的话,不同人脑内产生的画面可能会有比较大误差。相比于以前策划案上可能出现的“灵魂绘图“,现在AI已经能传递出理想的氛围感。
将AI应用在背景说明上,既可以避免前面提到的问题,又能最大化发挥作用。作为概念设计图,传递感受就是目的,只有到了真正的游戏立绘上,细节才会变成目的。氛围图就是传递感受的,图像里面所有的信息都是配角,作为概念设计图,有八根手指也不会影响它氛围是那样的。但落地到真正的游戏立绘上,只有细节画的很好玩家才愿意氪金,这点我们觉得目前的功能还差的蛮远。
推荐一个我认为目前已经不错的落地场景:AI插画。比如B站上有小说音频会配一些AI的插图,尽管插图和小说内容可能不太相关,但读者的主要注意力并不在图片上,主要是配合文字传递氛围,而如果请画师去画一套,成本将非常高。
以我们制作的一个Demo为例,早期Demo的人员、资金投入非常有限,而现在各个工种非常细分,对于小团队更是容易出现人员上的捉襟见肘。
当时我们想做一个网络迪厅感的Demo,而这种会非常依赖场景和特效。但这个背景里所有的人物、场景、小的光影效果其实都是AI做的,我们只投入了两三个人,总共用时不到四小时,其中AI工具上花了两、三个小时。当后续专业的场景、美术同学接入后,会对后续方向有感知,而不是面对一张白纸或三次元参考图,节省了大量讨论和迭代成本。
我们几个初始做demo的同学使用AI作为工具生成一些我们认为很对的方向和效果,它生成的质量在该时间段是不重要的,而是传递出我们未来会有一堆观众、在一个这样子的地方,再通过一些语言描述或者配图配置,新进来的同学就能快速了解方向。
Jim
我的那套管线在探索上前前后后花了有一周多,但是流程找到后出图达到人物效果大概也是几小时左右。
ROSA
Jim老师有提到您那一套管线其实更适合大公司去做,一个模型只产出一个角色,为什么会有这个观点?
Jim
我在解决一致性问题时,发现当使用很多素材去训练其实是能达到一定的精准度。而公司它本身有自己的素材库,完全有条件、有资源、有成本去承担针对角色的训练。但面对创造新内容的场景时,大量素材就不一定完全适用了。类似南瓜老师的思路,我们不要指望AI一劳永逸的出图直接用,而是作为辅助工具,针对不同的场景去使用,这个才是目前对于大部分个人或者团队来说更好的思维方向。
ROSA
有没有可能把您那套管线像咱们传统开发的时候进行分拆,比如说草稿、三视图、以及后续物件角色的细化,让不同的同学帮你一起完成。
Jim
我觉得可以,但目前较难实现,因为会涉及到一致性问题。但如果只是作为出发点,展示表达设计需求、设计逻辑和元素,其实目前是可以的。之前提到的人物拿武器或不同姿势的状态图、服饰道具、面部等方面进行细化扩展。
北美游戏行业的AI使用情况
成志
我们对北美游戏行业的印象更多是偏成熟的、工业化的项目,对稳定性要求都更高,同时北美也是AI可能更加发达,讨论热度更高的一个地区,那实际上大家从业者或公司之间有没有在用这些工具?
Jim
各大公司一直在关注,但让AI落地于管线还需要时间。对于成熟的管线来说,我们希望有达到当前标准、直接应用的工具,另一个让人哭笑不得的事实是,当有大量的素材去训练时,其实往往有成本更低的管线去达到相同的目的。对于公司层面来说是处于保持探索和观望的态度。
从个人的角度,北美有大量的AI开发者、创作者。他们很喜欢用AI去构建虚拟世界,不只专注于人物形象本身,我自己也希望不是只专注单张的的出图,而是处于一个大世界观的框架里。
Angel分享:资深美术怎么用AI
Angel
我觉得AI可以把一些想象中很飘渺的东西变得比较落地,能够帮你把设计的想象边际拉的更宽。
我曾经有很多特别牛的想法却因为能力不足难以表达出来,比如说我想做钻石头发、黑胶裙子,这种基本要把技法练到最厉害才可能把想法落地。但AI不需要可以帮助减少这种顾虑,所有天马行空的想法都可以先用AI尝试制作。
我个人的使用流程中,人工调整的这个时间跟自己绘画的时间相比其实差别不大。如果只基于AI成品调整,反而容易被它束缚。所以一般是调整角色光影、创意广度等情况下会用到AI,接下来还是以手绘为主,或是先丢进AI渲染看看参考效果。
发行视角:AI能否助力发行
成志
对于普罗大众而言,是不是也可以开发出某种工具,尤其二次元产品讲究同人氛围,大家能更好的生成自己想象中的OC。比如想给我们喜欢的游戏做一套漫画,现在是可以落地的吗?
青柑
目前让漫画从业者来看是不够的,但如果只是自己玩OC、四格漫画类是可以的。虽然一致性还不强但也够用。四格漫画对于分镜的要求很高,AI还没有在这方面做专门优化。
技术侧的探索方向
成志
接下来这一年你觉得AI作画会朝什么方向发展,学术上在探索什么?
青柑
一是更多模态的输入带来的控制,二是更精确的文本控制。
目前AI在控制生成内容上的能力并不强,主要是跟数据集和训练方法有关,CLIP技术是OpenAI的,但开源出来的不是完整版,基于此做的文本图像配对可控性肯定不如DellE 3,基于此延展出两个可能的方向:一是把语言的精细控制做到最强,同时打通视觉模型,把AI当作乙方,不断的修改生成结果。
二是在图片输入侧增加更多模态的输入,就像刚才Jim老师提的为什么第一步用blend而不是Imagine,就是希望用图片自带的信息去生成。
控制变得更加精细,其实变相把不同人使用工具的差距拉开了。我们都还处于技术最早的探索阶段,但如果它要上升成工具,人参与的程度要变得更重。只有人与人之间使用工具的能力拉开很明显差距,它才能帮助我们去做更好的创作和设计。
但最后,非常精细的控制是不是创作者所需要的呢?因为文字的模糊性可以带来想象力,这也是为什么最早文生图能火的很快,让每个人都能把自己的创意表达出来。带有一定模糊性的Midjourney把审美做的很好,又富有想象力,所以它的社区氛围也好,大家用它的动力很强。
注:以上内容仅代表嘉宾个人观点,不形成任何普适性结论。
评论留言