AIGC深度报告：迭代加速，颠覆人机交互模式，内容生产进入新时代

2023-09-25 13:09:07 AIGC ℃

后台-插件-广告管理-内容页头部广告（手机）

（报告出品方/分析师：中银证券卢翌）

人工智能应用已经进入高速发展阶段

AI 能力迭代速度加快

人工智能的研究目的是使机器能够模拟人类的智能行为，从而扩展人类的能力。

于是研究者通过赋予智能主体听觉（语音识别、机器翻译等）、视觉（图像识别、文字识别等）、自然语言能力（语音合成、人机对话等）、思考（人机对弈、专家系统等）、学习（知识表示，机器学习等）和行动（机器人、自动驾驶汽车等）的能力来实现。

AI 技术自诞生以来，经历了多个技术研究以及应用方向，目前已经进入了飞速发展阶段，智慧能力愈发强大且迭代速度加快。

AI 诞生以及规则驱动时期（1943-1980s）：

1950 年，艾伦·麦席森·图灵（Alan Mathison Turing）提出了“图灵测试”，其目的是检验机器是否可以表现出与人类难以区分的智能，这一想法引发了机器产生智能的探讨。

1956 年的达特茅斯会议首次提出了“人工智能”概念和理论。随后，人工智能领域出现了符号主义、联结主义（神经网络）等不同的研究方向，也取得了许多重要成果，如机器定理证明、跳棋程序和人机对话等。

在 1957 年，Frank Rosenblatt 设计了第一个计算机神经网络，被称为感知机，它被认为是第一个成功应用神经网络原理解决实际问题的算法。随后的 1958 年，赫伯特·西蒙和艾伦·纽厄尔演示了第一个人工智能程序，名为逻辑理论家（LT-Logic Theorist）。

早期的 AI 研究重点在于利用规则系统来模拟人类思维，采用一系列预先设定的规则来完成推理、分类等任务。

知识系统时期（1980s）：

从 1970 年代开始，学术界开始接受了一种新的思路：人工智能不仅需要研究解决问题的方法，还需要引入知识。1977 年的世界人工智能大会上，提出了“知识工程”的概念。

专家系统应运而生，它们模拟人类专家的知识和经验，用于解决特定领域的问题，这标志着人工智能从理论研究转向了实际应用。

日本的第五代计算机计划和英国的阿尔维计划等一系列计划推动了专家系统的高速发展。在这个时期，卡内基梅隆大学的 XCON 系统和 Stanford 医学专家系统等重要成果的出现使得专家系统在医疗、工业、金融等领域得到广泛应用。

人工智能的研究方法也从逻辑推理、搜索算法等领域扩展到了知识表示、推理和学习等多个方面。

机器学习时期（1990s-2010 年）：

在这一时期，机器学习成为了 AI 发展的焦点，这种学习方式是通过算法根据给定的输入数据和对应的输出数据进行学习，从而发现规律和模式，并且能够对新的样本做出判断、识别或预测。机器学习方法包括支持向量机、决策树、朴素贝叶斯等。

IBM 成为了彼时 AI 领域的领导者：1997 年，由 IBM 开发的超级电脑“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫，这是人工智能在智力运动方面的一次重大胜利。2006 年，企业开始引领 AI 发展，谷歌的塞巴斯蒂安·特龙领导了自动驾驶汽车项目，企业对人工智能的投资也为其发展注入了强劲动力。

深度神经网络时期（2011 年至今）：

2010 年代以来，AI 在以深度神经网络为代表的发展过程中，取得了在感知方面的重要进展，例如语音处理、图像分类、视频处理、知识问答、人机对弈、无人驾驶等。

2011 年，IBM 的沃森（Watson）在一档美国电视智力竞赛节目《危险边缘》(Jeopardy！) 中战胜人类选手获得冠军；同年，苹果推出了自然语言问答工具 Siri。

谷歌于 2012 年正式发布谷歌知识图谱（Google Knowledge Graph）。2015年，马斯克等人共同创建 OpenAI，其发布的热门产品包括 OpenAI Gym 和 GPT 等。2016年，谷歌旗下 DeepMind 公司推出的阿尔法围棋(AlphaGo)战胜围棋世界冠军李世石。2018年，谷歌发布了自然语言生成模型 BERT，成为 NLP 领域的重要进展。

同时，DeepMind 发布的新版本阿尔法围棋(AlphaGo Zero)在没有人类知识的情况下自我学习并战胜前一版阿尔法围棋(AlphaGo)。2019 年，OpenAI 发布了语言生成模型 GPT-2；2022 和 2023 年先后发布了 GPT-3.5 和 GPT-4.0。

自主学习时期（未来方向）：

这个阶段是指未来的发展趋势，AI 系统能够自己收集、整理和分析数据，并根据这些数据进行自我学习和优化，不断改进自己的性能，具备更高的智能水平，并逐渐适应更加复杂和多变的环境和任务，甚至可能出现自我意识。

AIGC 多模态交互能力持续进化从应用类型来看，AI 可以分为四类，但这四种类型不是完全独立的，实际中的 AI 应用可以涵盖多种类型的技术。本篇报告主要讨论的是生成式 AI 应用（AIGC）。

1）感知型 AI：基于计算机视觉、语音识别等感知技术的 AI 应用，应用于人脸识别、目标行为识别、工业场景视觉识别、全屋智能家居等。这类 AI 通常是通过对输入数据进行分类、聚类等简单处理来实现对环境的理解，而且通常不需要进行复杂的推理和决策。

2）决策型 AI：通过与外界的交互，自主学习并不断优化策略，以实现最优的决策和行动，应用于棋类策略游戏、无人驾驶、铁路调度系统、投资决策系统等等。

3）分析型 AI：基于数据挖掘、机器学习等数据分析技术的 AI 应用，主要通过对大量数据的分析和挖掘，构建模型和算法来预测未来趋势、发现隐藏规律、优化决策等。应用于内容推荐、金融保险风控、商业分析、拦截垃圾邮件等场景。

以字节跳动的推荐算法“灵驹”为例，该算法通过对平台用户的基本特征、行为数据进行归纳分析，打上专属标签，实现内容和广告的精准推送。

Instagram、YouTube 等社交媒体巨头使用的核心推荐算法有 Reels、Feed 等，亚马逊则通过 FBT 算法（Frequently Bought Together）推荐用户搜索过的类似商品。

4）生成式 AI：即 AIGC，是指利用生成式 AI 技术，例如深度学习、自然语言处理等，让机器能够自动地创造文本、图像、音频、视频等多媒体内容。

其工作方式是基于学习和推理，通过大量数据训练来学习规律并创造新的内容，而非仅仅分析现有的数据。

生成式 AI 可以通过输入一些参数或者文本，生成出符合语义的自然语言或者图像，应用场景包括自然语言生成、机器翻译、图像生成、音频合成等。

AIGC 的发展与整体人工智能技术的发展历程基本相同，但在机器学习和深度神经网络发展阶段获得了加速进步。

小范围探索应用 (1950s-1960s)：

早在 1957 年，第一支由计算机创作的弦乐四重奏《依利亚克组》就已经出现。随后，第一款可与人进行对话的机器人“Eliza”于 1966 年问世。80 年代中期，IBM 创造的语音控制打字机 Tangora 也出现在市场上。

然而，由于高昂的成本以及难以商业化的原因，从 80 年代末到 90 年代中期，AIGC 仅能进行小范围的实验和应用，资本投入也因此受到了限制。

自主化生成能力尚弱(1990s-2010s)：

AIGC 正逐渐从实验性向实用性转变，开始探索利用人工智能技术生成新闻、音乐、诗歌等内容。其中包括世界上第一部完全由人工智能创作的小说《1 The Road》。然而，在这一阶段，AIGC 仍然受限于算法瓶颈和模板的缺陷，只能通过预先设置的规则和算法来生成内容，缺乏个性化和创意性。因此，AIGC 尚未达到真正的自主化水平。

深度学习促进快速发展 (2010s-至今)：

AIGC 的发展得到了深度学习算法不断迭代更新的助力，例如生成对抗网络（GAN）、变分自编码器（VAE）和语言模型等。AIGC 内容变得百花齐放，往往能在短时间内快速生成，在一定程度上达到人类难以分辨的效果。

这引起了许多知名机构和公司的关注和投入，他们开始大量研发和应用 AIGC 技术：2017 年微软人工智能产品“小冰”推出世界首部 100%由人工智能写作的诗集《阳光失了玻璃窗》；NVIDIA（英伟达）2018 年发布 StyleGAN 模型可自动生成图片；DeepMind 于 2019 年发布 DVD-GAN 模型可生成连续视频。

2022 年，OpenAI 推出了人工智能聊天原型 ChatGPT，这种文本生成模态应用模型能理解并生成文字；同年，Diffusion 扩散化模型出现，直接推动了 AIGC 技术在图像生成领域的突破性发展。

由于文本生成 AI 模型研究较早、应用较多，因此本篇报告将主要围绕以 GPT 模型为代表的文本生成 AI 进行探讨。

经过多年的发展，自然语言生成 AI 经历了从早期的简单语义匹配到如今交互式生成文本的演变。早期的客服机器人通过简单的语音关键词识别，仅能提供固定的答案，无法真正理解用户的意图。随着神经网络的发展，端到端的深度学习算法逐渐被应用到各个领域，以 DSSM 为典型代表的神经网络匹配模型被提出，可以更灵活地进行文本相似度匹配运算。

2018 年，OpenAI 提出了第一代 GPT 模型，将自然语言处理带入大规模预训练语言模型时代，使得交互式文本生成成为可能，可以生成高质量的自然语言文本，包括新闻、对话、小说等。

在自然语言生成 AI 领域，GPT 和 BERT 是最具代表性的两个语言模型。

它们都基于 Transformer 架构演变而来，但是分别对应 Transformer 架构的不同部分：Transformer 模型由编码器和解码器两部分组成，编码器用于将输入序列编码成抽象的表示，解码器用于将这个抽象表示解码成输出序列。

GPT 模型主要是基于 Transformer 的解码器（Decoder）部分，主要用于文本生成任务，如文本自动完成、对话生成、文章摘要等；而 BERT 模型主要是基于 Transformer 的编码器（Encoder）部分，主要用于自然语言理解任务，如问答系统、文本分类、相似度比较等。

这两种模型的不同特点，使得它们在不同的自然语言处理任务中发挥着重要的作用，对于 AI 技术的发展也有着重要的推动作用。同时，它们的成功也为更多的 AI 模型和应用提供了借鉴和启示。

图像生成 AI 通过分析转换用户输入的文字，生成符合客户需求的图像。

代表性的图片生成模型包括 Stability AI 的 Stable Diffusion Reimagine、OpenAI 的 DALL-E 2 和 Midjourney，三款应用各有所长。

Stable Diffusion Reimagine 是一种基于扩散化模型的深度学习模型，它采用了先进的概率推理算法，用户只需要上传一张图片，该平台会自动生成 3 张联想图片，并且支持更细致化的编辑；与传统的生成式 AI 相比，Stable Diffusion Reimagine 在生成内容时可以更好地控制输出结果的多样性和一致性。

基于开源的 Stable diffusion，清华大学在自研大模型 Chat GLM 中组合了 FlagStudio 功能，支持中英文双语、多种风格艺术的图片生成，包括国画、摄影、油画、水彩等。Midjourney 是一家人工智能生成艺术内容平台，使用深度学习技术和生成对抗网络（GAN）来生成图片。

技术路径主要涉及两个阶段：

第一阶段是使用 GAN 生成一系列随机噪声图像，然后在第二阶段中，使用一个预训练的图像分类器来筛选出最优图像。这种方法可以帮助生成具有高度复杂性和多样性的图像，并且可以根据所需的风格和主题进行调整和优化。

DALL-E 2 是 OpenAI 推出的一款文本到图像的生成模型，它可以根据给定的文字描述自动生成对应的图片。DALL-E 2 基于 GPT 系列模型和 GAN 系列模型进行训练，具有较高的生成质量和可控性。

视频生成式 AI：目前视频生成技术成熟度尚不及文字和图片，生成的视频时长较短，清晰度和连续性有待提高。此外，为了生成高质量的视频，需要使用大量的计算资源和大量的数据进行训练。

有部分科技公司已经开始了尝试：Meta 于 2022 年 9 月发布 Make-A-Video，通过生成 1 张连续的 64X64 像素的 RGB 图片，再提升 768×768 像素，生成高分辨率和帧率的视频。谷歌 2022 年 10 月发布的 Imagen Video 可以生成一个每秒三帧，分辨率为 24 x 48 像素的 16 帧电影。

Adobe 于 2022 年发布了名为 Project Clover 的视频生成工具，该工具使用了深度学习技术，可以自动生成视频素材和场景，并将它们组合成完整的视频。

在实际运用上，Netflix 与微软小冰、日本制作室 WIT STUDIO 共同创作的首支 AIGC 动画短片《犬与少年》，于 2021 年 3 月 4 日首次发布，AI 负责部分动画场景的绘制，以人与 AI 协同创作的模式提升动画创作的效率。

音频生成式 AI：目前音频生成 AI 的应用主要涵盖两个方面：音频转文字和音乐生成。

Microsoft 的 OneNote 提供的“人工智能支持”语音听写技术支持超过 50 种语言和多种命令，用户无需使用鼠标或键盘即可将音频转换成文字。而 Google 的音乐生成 AI MusicLM 可以根据输入的文字、图片和标题的组合，生成相应风格的音乐。

为了提升音频生成 AI 的质量，Google 在 FMA（Free Music Archive）数据集上训练了 SoundStream 和 w2v-BERT 模型。相比于其他基于文本生成音乐的基线方法（如 Mubert、Riffusion 等），MusicLM 所生成的音频质量更高。然而，由于可能涉及盗用创意内容的潜在风险，目前 MusicLM 尚不能发布。

AIGC 领域历经多种技术路线演化

大语言模型的主要技术路径均基于 Transformer

目前，在文本类 AIGC 领域，预训练大语言模型（LLM，如 GPT、BERT 等）是表现最为突出的技术。语言模型是自然语言处理（NLP）的重要组成部分。

早期的语言模型以 n-gram 模型为代表，主要基于统计方法。

但这类方法在捕捉长距离依赖（句子中相隔较远的词汇之间存在语法或语义关系）和复杂的语言结构等方面存在局限性。随后，NNLM 开创了神经网络在自然语言处理领域的应用，Word2Vec、ELMo 等神经网络模型引入了新的方法并推动了预训练模型的发展。

2017 年，Transformer 架构摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），完全基于自注意力机制来处理序列数据，从而开启了 NLP 的 Transformer 时代。

2018 年，基于 Transformer 架构的三大主要产品问世，它们是 GPT、BERT 和 T5。

GPT 是一种自回归模型，只使用了 Transformer 的 Decoder 部分，训练时只考虑了给定词汇前的上下文信息，输出词汇依赖于先前生成的词汇，因此理论上具备更强的生成能力。

BERT 则是一种双向语言模型，使用了 Transformer 的 Encoder 部分，在训练中随机对输入序列中的部分词汇进行遮蔽后尝试预测，因此有能力同时捕捉上下文词汇的双向信息。

而 T5 模型则采用了完整的 Transformer 架构，其中的 Encoder 部分负责理解输入文本，而 Decoder 部分则生成目标文本。

随着计算资源的增加，GPT 系列的参数量和语料库规模不断提高。

在 2020 年，GPT-3 诞生，它拥有 1750 亿个参数，是空前规模的超大模型，开启了超大模型时代。

在后续的优化中，OpenAI 引入了基于人类反馈的强化学习方法，并借助涌现能力的加持，推出了具有惊人能力的 ChatGPT。

要获得类似 ChatGPT 的产品，首先我们需要具备优质架构下的大规模预训练模型。预训练可以采用自监督学习方法，例如掩码语言模型或自回归模型。

在这一阶段，需要使用大量无标签文本数据对模型进行预训练，从而使模型学习文本的潜在结构、语法、语义等信息。具备预训练模型后，还需要进行大量微调、优化和针对性的调整，以满足具体应用的需求。由于语言模型本身致力于预测可能性较高的下一个词汇，而非满足人类需求的答案，因此在解决该不一致性时，基于人类反馈的强化学习（RLHF）起到了重要的作用。

RLHF 的主要步骤如下：

第一步是训练监督策略模型：在数据集中随机抽取问题，由专业标注人员给出高质量答案，形成问答对（QAG）。然后，使用这些人工标注好的数据以回答正确为目标来微调预训练模型，使得模型能够根据输入数据预测相应的输出标签，从而学习两者之间的关系。

第二步是训练奖励模型（RM）：这个阶段主要通过人工标注训练数据来训练奖励模型。在数据集中随机抽取问题，使用第一阶段训练得到的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序，并使用这个排序结果数据来训练奖励模型，以建立人类反馈模型。

第三步是使用反馈模型进行强化学习：利用第二阶段训练好的奖励模型，通过给微调后 GPT 模型输出的结果打分来持续训练，形成模型与纯自然语言数据的反馈闭环。

通过 RLHF，在提升回答质量、适应用户需求、减少不良内容、提高泛化能力等方面，ChatGPT 具备了比前几代模型更好的表现。

“涌现能力”令人惊艳，但原理仍是谜团

对于 ChatGPT 表现出的惊艳效果，模型规模和海量数据带来的涌现能力（Emergent Capabilities）功不可没。

涌现能力是一种不可预测的广泛存在于如物理学、经济学等领域的现象，当一个复杂系统由很多微小个体构成，这些微小个体凑到一起，相互作用，当数量足够多时，在宏观层面上展现出不同于其部分的行为，就可以称之为“涌现现象”。

例如，自然界中雪花、气流漩涡的形成，金属中电子的超导性，宏观经济展现出不同于微观经济简单集合之后的特征等。

在大语言模型领域，涌现能力指的是当模型规模超过一定阈值后，模型可以完成更加复杂的任务并大大提高精度，甚至具有未经过明确训练的能力。

研究者发现，“涌现能力”通常出现在由多步骤构成的复杂任务解决中，而在知识密集型的任务中，模型表现仍然保持较为线性的“伸缩法则”（Scaling Law），即随着模型规模的不断增长，任务效果也持续增长。

目前 GPT 等大语言模型表现出来的惊人的上下文学习能力（in-context learning）就是涌现效应的部分证明。

上下文学习能力（in-context learning）是指不对模型参数进行调整，而是给大模型几个示例，AI 就可以从类比中学习，但是这种能力需要超过 40B 的参数数量才能够达到。

在 GPT 模型表现出的 ICL 之前，很多语言模型都需要针对下游任务进行微调（fine-tuning），但微调过程需要大量的样本参数，否则效果很差，然而标注数据的成本高昂、标注量有限，并且如果数据较少的话，容易导致过拟合，致使模型的泛化能力下降。

ICL 不需要 fine-tuning，既节省时间与算力资源，还提升了模型性能。

业内对大模型涌现能力背后的原理有很多研究和探讨，但目前尚未形成公认的研究结果，包括上文所说的上下文学习能力（in-context learning）也仍是未解之谜。总体来说，涌现能力可能源自于大模型内部神经网络之间的相互作用。

1）大语言模型内部产生自组织，自组织是指在无中心化的情况下，系统中的个体或部件可以根据相互作用的规则自行组织形成一种结构、模式或行为。

在人工智能领域，自组织就是神经网络的节点（或神经元）之间可以通过反向传播算法进行联合学习和自适应调整，网络内部的节点和连接逐渐形成了一种高度优化的结构，以最大限度地适应训练数据和任务需求。

这在任务指标不够平滑时可能尤其凸显。例如，某个任务的评价指标要求很严格，要求一字不错才能通过，那么涌现现象就会出现；但是如果把问题形式换成多选题，给出几个候选答案让模型选择，那么随着模型不断增大，任务效果在持续稳定变好，涌现现象却消失了。

相关猜想是，如果评价指标不够平滑，那么在大模型内部，可能存在一些相互作用的神经元或神经网络，它们之间的相互作用可以放大一些微小的信号，从而产生了在训练集之外的新能力。

2）大语言模型通过分层抽象的方式来学习复杂的特征和知识，即神经网络将输入的信息进行逐层抽象和提取，从低级别的特征（如边缘、颜色等）到高级别的概念（如物体、场景等），并在不同层次之间进行信息交互和整合，从而构建出具有复杂性和多样性的特征和知识。

例如在“国际象棋”任务中，“吃掉对方的将”是 AI 的最终任务，而每一手棋是达成最终任务下的子任务，这些子任务的效果往往会随着模型规模的增大而不断提高，符合“伸缩法则”（Scaling Law），在某个阈值之后，多个子任务之间产生了更高层次的相互作用和协同效应，导致整个模型的效果得到了大幅提升，涌现效应出现

大模型的涌现能力和人类大脑学习知识在最终表现上具有相似性。

人类大脑通过不断接收和处理信息，建立起对世界的认知和理解，这一过程中涉及到的神经元之间的连接不断加强，从而形成更为复杂和准确的认知结构。

类似地，大模型也是通过不断接收和处理海量数据，建立起对自然语言或图像等领域的认知和理解，这一过程中涉及到的模型参数之间的连接也会不断加强。

不同的是，大模型的学习和推理过程是由算法和数学模型来实现的，而人类大脑则通过一系列生物介质信号，更加复杂和灵活。

此外，AI 研究者也尝试使用不同的方法提升大模型输出结果的准确性，涌现能力则为这些能力的实现提供了基础。

例如，思维链（chain of thought）就是训练大模型的典型方法，它引导模型先展示中间步骤后再引出结论，帮助大型语言模型根据已经理解的内容，自动推理出一些隐含的逻辑关系和推论，从而表现出类似于人类思维链的能力。

另外，训练数据中加入的海量代码、数据等也可以帮助大语言模型在算数、推理、常识方面具备更好的表现。加强大模型的复杂推理能力是未来 AI 研究的重点课题。

其他模态 AIGC 基于各自领域小模型发展

图像类 AIGC：该类 AIGC 优势之一就是在技术端的成果往往能较快转化为商用，生成效果较突出的产品包括 DALL-E 2、Stable Diffusion 和 Midjourney。

目前主流的图像生成类 AI 技术是 CLIP 与 Diffusion：

1）CLIP 是一种大一统技术框架，可以将图像域和文本域的特征对齐，允许模型同时理解图像和文本；它由 OpenAI 团队开发，并且已经被广泛应用于图像分类、图像检索、图像生成等多个领域。

2）diffusion（扩散）是一种用于生成高质量图像的技术，它通过将原始图像转换为图像噪声域并逐步改善图像，以生成逼真的图像。它的核心思想是将原始图像与噪声混合，并在每个时间步长中逐渐减小噪声的强度，直到图像不再有噪声为止。这个过程类似于将水分子在溶液中扩散开来，因此也被称为"扩散"。

以 OpenAI 发布的一个图像生成模型 DALL-E 2 为例，其工作流程为：

1）将输入文本转化为 CLIP 文本：这个步骤使用 CLIP 模型将输入的自然语言描述转换成向量形式的文本表示；

2）转化为初步图像：使用一个编码器网络将 CLIP 文本向量转换为一个初步的图像表示，这个图像通常是一张噪声图像；

3）使用扩散模型将图像转变后再生成：DALL-E 2 通过多次对初步图像进行随机噪声注入和扩散的操作，从而逐渐改善图像的质量，最终生成符合要求的高质量图像。

音频类 AIGC：音频类 AIGC 可视同为语音合成（TTS），即根据文本内容和语音素材，生成自然语音的技术。

以下是常用于 TTS 中的技术步骤：

1）文本处理，首先使用 NLP 技术，如词性标注、句法分析和语义分析，对文本进行分析和理解；

2）韵律建模，韵律是指语音的节奏、语调和强调，这涉及使用统计模型或基于规则的方法为每个音素或音节生成音高、持续时间和能量模式；

3）声学建模，涉及创建一个表示组成语音的声波的模型可以使用深度神经网络（DNNs）、对抗式生成网络（GANs）等技术来完成；

4）语音合成，可以使用参数、拼接和端到端等不同方法；

5）声音转换，这是一种用于修改合成语音输出的声音特征的技术，例如更改说话人的性别或年龄，可以通过神经语音转换或基于源-滤波器模型的转换等技术来完成。

国内发展大语言模型面临的挑战

自从大语言模型 ChatGPT 发布之后，公众对 AIGC 的关注迅速上升。国内外的互联网厂商看到通用大模型在许多领域应用的商业价值，纷纷加快了布局。实际上，国内互联网巨头百度、阿里、腾讯、字节跳动等过去都在 AI 技术上有所积累，但应用方向比较垂直，以快速实现商业价值为导向，例如辅助驾驶、工业设备控制、广告推送等。这些 AI 技术的研究路径与 AIGC 有所不同，需要公司调整研究方向和资源。

目前大语言模型厂商所使用的架构基本基于 Transformer，因此其成本结构也类似，主要可分为数据成本、算法团队成本和算力成本，三部分成本也分别对应了人工智能的三大要素数据、算法和算力。在这一部分我们将以 GPT-3 与 ChatGPT 为例从人工智能的三大要素的角度剖析大语言模型的成本构成并提炼和总结现阶段国内发展 AIGC 的几点主要挑战。

数据成本：海量的优质数据以及处理数据的经验方法

数据是人工智能的三大要素之一，数据成本指图片、文本、音视频的数据的收集、清洗、人工标注以及建立用户反馈机制所带来的成本，我们将其简单拆分为数据获取成本与数据处理成本。

根据 wikipedia，具有 1750 亿参数的 GPT-3 的预训练过程中基于以下几个数据集，主要来自网络爬取、书籍、维基百科以及 GitHub，其中 80%以上的数据来自公开互联网中的网页、文章、图片、视频、音频等各种形式的信息。

在模型训练中"# Tokens" 可以理解为数据集中的词汇数量以衡量数据集的规模和复杂性。大量 Tokens 可以为模型提供丰富的信息，有助于模型学习更复杂的语言结构和语义关系。

数据集中占比 60%的 Common Crawl 主要是累积多年的网络爬虫数据集，约有 320TB 文字信息，但主体信息为英文，其中中文信息占比约 5%。

该数据集整体质量较低，OpenAI 在根据各数据及质量赋予权重的同时，也对数据集进行了过滤、去重、加入高质量数据等处理。获得处理后的数据集后，GPT-3 还通过研发人员、外包标注人员以及所建立的用户反馈机制进行数据优化。

整体而言，GPT-3 的数据获取成本较低，其数据处理成本应占比更高。然而，OpenAI 随着后续模型训练数据量的扩大，预计数据获取难度将逐步提高，数据获取成本持续上升，在包含研发、标注、以及用户参与相关的成本后，预计 OpenAI 目前的数据成本超过 1 亿美元。

对于国内相关厂商而言，由于产业积累相较北美更为薄弱，现成的、针对中文的大规模数据集相对较少。

根据 IDC，2021-2026 中国数据规模 CAGR 达全球第一，但总量上相较北美仍有较大差距。同时，英文作为世界语言，具备更广泛的用户基础以及更丰富的优质数据累积。

另外，数据作为新的生产要素，在国内互通壁垒较为明显，同时不乏较低质量的信息引起的噪音问题，这对国内厂商的数据积累、收集以及最终的清洗能力提出了较高的要求。

除了数据体量非常重要，数据的质量以及如何处理获取数据同样极为关键。

现实世界的数据存在很强的长尾特征，长尾数据指的是在数据分布中出现频率较低，但却有很多种类的数据，包括低频词汇（医学诊断、学术术语等）、小众兴趣、反洗钱、反欺诈等。相对于分布中出现频率较高、种类相对较少的数据，长尾数据更加稀缺且难以获取。

这些长尾数据对于某些 AI 任务可能非常重要，但由于它们数量稀少，因此需要特别的方法来获取和处理。

一种较为根本且长期的方法是通过强化 AI 模型的能力来适应数据的长尾特征，例如数据增强（对原始数据进行处理得到过更多训练数据，从而扩充数据集）、非监督学习（利用未标注数据进行预训练，从而提高模型在有限标注数据下的表现等）、元学习（让模型学习如何学习的方法）等。

另一方面大模型的“增长飞轮”效应也能在一定程度上巧妙缓解长尾数据问题，即利用公开数据，快速建立一个大致可用的 AI 大模型，随着模型不断被用户使用，大量的多样化的场景/对话/行为/反馈数据被采集，帮助模型不断更正和扩大任务范围，同时也获取到大量长尾数据，由此模型会变得更加准确和强大，从而能够解决更加复杂和具有挑战性的任务。

而这又会带来更多的数据和更多的资源，可以用来进一步扩大和训练模型，形成一个循环的正反馈机制。

作为 AIGC 的典型应用代表，ChatGPT 在应用层展现出了出色的潜力。自发布以来仅仅用了两个月的时间，就吸引了一亿用户，打破了 TikTok 保持的九个月记录，成为了史上用户增长速度最快的消费级应用程序之一。

因此 ChatGPT 更有机会从全球用户的使用过程中获取到大量有价值的稀缺数据。

而各大国内厂商先后快速推出大模型，并邀请不同行业、业务场景下的企业接入大模型，或是希望通过这种工程化的方法更快获取到公开领域很难获取的长尾数据。

我们认为，能够获取到更多专业细分商业场景的数据、更具有数据处理经验，或者拥有更好的 AI 基础设施（例如快速试验室帮助更快找到适合处理长尾数据的最佳模型）等的国内企业能够形成较坚固的护城河。

算法开发成本：富有经验的工程师人才

人工智能的第二大要素是算法，AI 的算法设计、训练流程、调优等步骤均对厂商研发、人才累积有非常高的要求。算法开发成本指在模型架构的搭建、技术迭代和优化等流程中产生的成本，其中主要是研发人员薪酬。

以 ChatGPT 为例，算法团队成本方面，公司设立 ChatGPT 项目组进行开发，共有 87 人对项目做出贡献。其中，华人学者是一支重要的科技创新力量，共 9 人，占比近 10%。

由于 OpenAI 团队个人薪资相关公开资料较少，且海内外人才市场状况不同，因此我们以人均薪资做了简单的推算。

假设在模型的训练阶段和运营阶段，算法团队的人数一致（87 人），且按照 OpenAI 公司平均薪酬每人每年 50 万美元发放，则保守估计每年算法团队相关成本为 4350 万美元以上。

参考 OpenAI 等海外头部团队，公司的执行架构往往围绕业内顶级的头部人才，从而能更好的把握资源投入以及模型设计的方向并最终突破技术瓶颈。

目前国内 AI 相关顶尖技术人才缺口较大，近期人才流动性较高，显示出行业内已开始新一轮人才争夺战。

算力成本：超大规模的计算资源与资本投入

人工智能的最后一大要素是算力。大规模的算力能够大幅缩短模型的训练时间，加快研发进度。高质量的算力设备和架构也能显著提高并行计算能力并提升训练效率。超大规模的模型参数数量通常达到百亿级别，对算力资源提出了非常高的要求。

目前人工智能相关产业对算力的获取方式主要有两种：

1）从云平台租用算力，如亚马逊 AWS、微软 Azure、Google Cloud、阿里云和腾讯云等，OpenAI 使用公有云平台 Microsoft Azure 满足算力需求；

2）自建算力，这部分成本主要涉及到硬件购置和能源成本，硬件购置成本里中央处理器（CPU）和图形处理器（GPU）占比较高，能源成本主要指运营中的电力成本。

（1）在云平台租用算力的模式下，从部署阶段的角度，不包含物业设备成本、基本经营费用等支出，我们将算力成本大致分为开发成本（预训练和训练阶段）与运营成本。

根据 CSDN，参考谷歌使用 GCP TPU v4 芯片训练 PaLM 模型，如果在与 GPT-3 一致的 3000 亿个 token 的文本上训练 1750 亿参数模型，目前的训练成本会大幅缩减至 140 万美元。

尽管随着技术的迭代成本有望进一步缩减，但以上计算建立在行业顶尖的硬件设备与架构之上，对国内厂商而言，在高质量硬件难以获取且顶级人才稀缺的情况下，成本预计会成倍提高。

基于 ChatGPT 的访问情况，我们大致推算了大模型的运营成本：根据 similarweb，ChatGPT 2023 年的月访问量约为 10 亿，根据 Fortune 估算的单次互动算力云服务成本，2023 年 2 月运营阶段所需的算力成本至少为 1000 万美元。

（2）自建算力的情况下，开发成本主要可以分为算力基础设施构建以及能源成本。

根据负责云计算和人工智能的微软执行副总裁 Scott Guthrie，为了向 OpenAI 的前沿研究提供支持，微软为 ChatGPT 打造了一台由数万个 A100 GPU 组成的大型 AI 超级计算机，自建成本或超过数亿美元。

能源成本指 ChatGPT 在训练以及堆集服务器、做负载均衡以及搭载网络安全策略等运营环节产生的大量电力消耗。根据柏克莱加州大学计算机科学教授大卫·帕特森的论文，GPT-3 在训练阶段耗能约 1287MWh。

在运营阶段，ChatGPT 月独立访客数约 1.5 亿，假设单用户提问 10 个，产生 450 亿单词，假设每个单词在 A100 GPU 上需要 0.35 秒处理时间，A100 GPU 月工作时长约 437.5 万小时，Azure 数据中心中 A100 GPU 的功耗约 46W-407W，每月电力消耗约 1780MWh。

受算力成本的需求快速增加、算法开发人才的时代红利以及规模效应等因素的影响，未来的成本将呈降低趋势。

虽然随着硬件设计的提升，大模型的硬件成本和能量利用率持续提升，但国内硬件方面与海外存在代差，且专用于 AI 训练的芯片仍在开发中，预计中近期内算力问题也将是国内厂商发展大语言模型的重大挑战。

尽管面临以上诸多挑战，国内各大互联网厂商、高校和独立研究机构仍决心大力投入研发大型预训练语言模型，以实现关键核心技术的自主可控。

虽然这些国产大模型的综合实力与海外顶级公司相比还存在一定差距，但在功能和应用领域展现出了独特的竞争力和创新优势，尤其是在中文 NLP 任务、行业垂直领域任务以及训练与优化策略等方面取得了一定的成果。

AIGC 颠覆人机交互模式，创造全新内容形态

人机交互形式正在发生颠覆式变化

与传统 AI 的规则引擎和决策树相比，大语言模型具有明显优势。它不仅可以完成基础的识别、预测和分辨等任务，还能够与人类自然地进行对话，精准生成各种基于上下文语义和语境的内容。

虽然目前 AIGC 模型主要以文本形式与人交互，但语音交互是未来研究的重点领域，而多模态交互也是人工智能生态的一个重要发展方向，能够实现交互形式的范式变革。我们预计，未来基于各类 AI 模型的交互系统将成为操作系统的主要形式，应用程序与指令逻辑将根据 AI 交互平台进行重新设计。

目前，AI 大模型已逐步取代了一些应用的传统操作模式，随着算力成本的降低和 AI 模型的轻量化，预计其可替代操作模式将进一步泛化，广泛应用于智能家居、工业自动化、智能物流、智慧城市以及其他 2C 应用领域。

人机交互（HMI/HCI），是指人类通过各种形式的交互手段，如语音、触摸、手势等，与计算机或其他机器之间进行单向或双向信息交流和共享的过程，其中单向人机交互通常为人类发出指令或提供输入，而机器则按照指令执行操作或产生输出，但不会主动与人类沟通或提供反馈；双向人机交互中人类可以发出指令或提供输入，同时机器会基于用户提供的输入或上下文来产生反馈或提问，从而进一步推动交互的进行。

人机交互整体可区分为四个环节：输入、信息处理、输出、反馈，其中单向的人机交互过程由于基本不存在内容输出与反馈，因此在我们的后续分析中单向人机交互仅包含人机交互中的前两个环节。

在输入环节，传统的人机交互模式要求用户使用多种设备向计算机输入可识别的指令，而这些指令对于用户的操作水平、知识储备等提出了较高的要求。

然而，通过大语言模型加持，用户可使用以语音为代表的自然语言进行多轮交互，易于捕捉用户意图，降低输入门槛的同时，语音和文字输入的便利性大幅扩充了输入场景。

在信息处理环节，大型模型的自然语言理解和推理能力将输入的自然语言转化为各种机器可识别的信息，大大提升了交互体验和效率，同时丰富了交互对象。

在以人工智能为操作中枢的平台上，复杂的自然语言指令还可以被拆分为多个子指令，并行控制多个设备对象。

传统单向人机交互仅包括以上两部分，这种交互方式要求人类更加明确和清晰地表达需求，因为机器不能主动了解人类的意图或需求。

因此，传统单向人机交互主要依赖按钮等精确且指令简单的操控方式。

然而，双向人机交互模式则有望结合物联网打造高度整合的控制中枢。以智能家居为例，AI 大模型有能力更好地理解用户的需求，提供更为智能、自然和人性化的控制和服务，从而显著提升用户体验。

在未来，随着 AI 技术的不断发展，双向人机交互的方式将越来越普及，进一步改善人机交互体验。

大模型在输出环节的变革主要体现在内容质量上。

传统交互模式的输出环节在大语言模型加持下有能力对内容进行再整合并以合适形式呈现，输出内容将更贴合用户需求，此外大模型的可塑性也使得千人千面的输出形式和个性化的交互体验成为可能。

传统的人机交互模式需要用户根据计算机输出结果来判断是否满足预期，如果不符合预期，用户需要调整输入并启动新一轮的人机互动。以搜索引擎为例，传统的搜索行为往往需要经历长时间的判断过程和多轮的互动。

相比之下，大语言模型凭借其自然语言理解能力，显著降低了人机互动的循环轮次。此外，大语言模型还能根据过往的反馈自我调整，持续提升交互效率。因此，相比传统模式，大语言模型可以显著提高交互效率、准确性和用户满意度。

完整的人机交互模式在与计算机交互的领域已有充分的应用，而大语言模型及其他工具有望重构目前的交互模式。

目前 ChatGPT 插件系统上线后，用户已可以通过插件功能实现多种工具使用、联网查询等能力，目前已支持的第三方插件有餐厅推荐、旅行计划、购物、AI 语言老师、网上店铺，以及学术界知识应用 Wolfram、应用库等 5000 多个应用，覆盖人们的衣食住行、工作学习。

目前，以 OpenAI 旗下的 GPT 为代表的大型语言模型已经在搜索引擎、办公软件等领域得到了初步的应用。例如，微软推出的基于 GPT-4 模型的搜索引擎 New Bing，能够提供准确实时的搜索结果并给出链接，同时还支持聊天、画图、编程等功能。

相比传统搜索引擎，New Bing 支持自然语言输入，省去了用户选取关键词的过程，也基本抛去了用户筛选结果的环节。此外，New Bing 还具备幽默感，可进行定制化的交互，显著提升用户体验。

大语言模型在办公领域的应用可以显著提升办公效率，优化工作流的各个环节，并降低人力和沟通成本。大语言模型具有全面而优质的自然语言处理能力，可以更准确、更流畅地处理和生成文本。当任务的复杂性达到足够的阈值时，其优势尤为明显。

我们预计在未来，大语言模型将能够有效地帮助各个工作环节释放创造力、提高生产力，并升级各种技能。

基于 GPT-4 的实验性应用程序 Auto-GPT 为 AI 自动实现复杂命令提供了可能性。

在 Auto-GPT 的架构下，GPT 系列扮演着思考、推理和决策的“大脑中枢”角色，各类 AI 工具则各司其职，协同工作。

在获得最新信息、检索知识库、代表用户执行操作等外部条件的支持下，用户仅需制定目标并提供少量人工干预，Auto-GPT 便能以目标为导向，自主制定并执行一系列复杂任务，如自主编码和调试、自动开发并管理各种业务项目、制作网页等。

此外，Auto-GPT 还具备自主迭代、内存管理等功能。尽管 Auto-GPT 仍然存在成本高昂、问题分解不充分、无法区分开发与生产、陷入死循环等问题，但其引入了生成智能体(Agent)委派任务的概念，进一步展示了 AI 的潜力，并解锁了新的使用场景。

内容生产效率提升，创新的内容形态正在酝酿

AIGC 在内容行业带来的变革主要体现在两个方面：

1）降低生产成本，提升创意实现效率；2）新的人机交互形式带来全新的内容体验，提高内容付费上限。

在降本增效方面，传统的内容生产需要经历书写、口述、绘画、拍摄、编程等复杂的过程才能生成对应的内容。

而 AIGC 则只需要输入一些提示信息，就可以在短时间内生成大量的内容，用户只需要对生成的作品进行评估和调整即可。这

显著提高了内容生产的效率，并降低了生产成本和门槛，同时也有助于激发新的创意。此外，低成本的各种内容形式，如图片、视频等，也将大幅降低用户间的沟通成本。

另外，大语言模型等 AI 技术结合新的交互形式，将为创作带来全新的可能性。通过 AI 技术的帮助，内容生产者可以更快速地掌握新的知识和技能，从而不断开拓新的创作题材。

同时，AIGC 生成的内容也可以为创作提供新的灵感和素材。这种新的创作方式，将为内容生产者带来更广阔的发展空间，也将推动内容生产的创新发展。

随着内容消费量不断增加，消费者对内容质量的要求也越来越高，同时内容生成呈现出个性化和开放化的趋势，因此降低内容生产门槛和提高生产效率成为了行业的迫切需求。

AIGC 正符合内容消费的这一发展趋势，预计未来将广泛应用于各种内容生产场景，为广大内容生产者提供支持，并有望成为未来互联网内容生产的基础设施。

以下是不同行业领域通过 AIGC 技术提升生产效率，并触发新内容形式诞生的具体场景。

美术领域：为图像创作提供可视化工具。在一些重复性高、技术性强的美术任务上，如图像编辑、设计等，AIGC 的辅助可以大大提高效率。

AIGC 可以通过图像识别、图像生成等技术，辅助美术师进行图像处理、图像合成和图像创作等任务。

此外，AIGC 还可以根据输入的样式和风格，为艺术家提供灵感和创意。在 AI 与人工配合下，角色创意、场景概念、营销素材等高耗时环节的生产效率未来有望被大幅提升。

未来随着复杂计算机视觉算法和深度学习技术不断发展和优化，图层分割若能够实现，将为图像处理领域带来更多的可能性和创新。

图像的图层可以包含不同的元素，例如文字、背景、前景、特效等，通过将图像分解成多个图层，可以对每个图层进行单独的编辑、修改和控制，而不影响其他图层。另外也有利于图像的合成、组合、渲染。

通过将图像分解成多个图层，可以将不同的元素进行组合和合成，创造出更加复杂和丰富的图像效果，同时也可以让设计师更好地控制图像的层次感和视觉效果。

建模、动捕领域：AIGC 通过图像处理技术可以识别现有的三维模型，并自动生成类似的模型。它能够学习大量的三维模型，提取它们的特征和规律，建立带有标记的 3D 模型资产数据库和有效的 3D 数据，并生成新的三维模型。

此外，AIGC 还可以利用深度学习技术生成高质量的纹理、光照和材质，从而使生成的模型更加逼真。目前，英伟达已经参投了 Nerf 领域的独角兽 Luma，同时也推出了文本提示转 3D 模型技术 Magic3D。

Unity、Unreal、Cocos、LayaAir、松应科技等国内外厂商也已开始探索并应用 AIGC。

配音行业：相对于传统的人工配音，AI 配音具有更高的效率、更低的成本和更好的普适性。AI 配音可以完美地模拟各种语音和情感，实现自然流畅的语音输出，为用户带来更好的音频体验，在市场上受到广泛好评。AI 配音主要有声音克隆、声音合成和音色转换三种应用方向。

据 Market.us 的统计，2022 年全球 AI 语音生成市场规模约为 12.1 亿美元，预计到 2032 年，该数据将增长至 48.89 亿美元，年复合增长率为 15.4%。

编程领域：AIGC 可以通过分析代码、识别模式和预测行为来辅助编写代码。使用者可以直接使用自然语言来获取所需的代码。借助 AIGC，代码编写过程可以更加快速、准确，同时大大减少代码错误和 bug 的出现。

此外，AIGC 还能够提供自动化的重构和重写建议、智能代码补全、自动生成文档和代码注释等功能，以优化代码的质量和可读性。

文本、数据分析与总结：大语言模型可以以高效且准确的方式对复杂的文本数据进行识别、抽取、匹配和处理，其效率远高于人工分析。该技术有助于提高数据分析的效率，进一步挖掘数据的价值。

已有一些海内外研究机构和个人开始利用 New Bing、Research GPT 等工具进行文献阅读、关键信息提取、生成摘要和信息检索等任务，但这些产品目前仍处于测试阶段，暂时无法实现图像识别，同时在理解和翻译专业术语和公式方面可能存在一定的不准确性。

AIGC 产业链和主要标的

AIGC 产业链包括上游、中游和下游三个部分，上游企业为中游企业提供基础设施和硬件支持，中游企业将其技术和服务提供给下游用户，形成了 AIGC 产业链的完整生态系统。

上游企业：AI 模型训练需要庞大的算力支持，这种需求的增长速度甚至超过了摩尔定律。

OpenAI 的数据显示，从 2012 年到 2020 年，人工智能模型训练消耗的算力增长了 30 万倍，平均每 3 至 4 个月翻一番，这超过了摩尔定律每 18 个月翻番的速度。

在实际应用中，AI 计算主要依赖于 GPU、FPGA、ASIC 等芯片的加速计算平台为其提供训练和推理。GPU 因其性能高、通用性好是 AI 服务器首选加速方案，而 ASIC 缺点是灵活性不够，FPGA 缺点则在于开发难度大、价格高。

AI 计算分为训练和推断两个层面。在训练 AI 模型方面，英伟达是市场上绝对的领先者；但传统的英特尔 CPU 仍然承担着大部分推理任务，AI 芯片也在积极占据市场份额。除芯片外，液冷系统、传感器、存储设备、通信设备、超算中心等都是 AI 产业上游非常重要的子领域。

中游企业：人工智能产业中游企业主要提供 AI 算法、应用开发工具平台和解决方案等，让下游用户能够更加轻松地开发、部署和管理人工智能应用。

这些企业主要包括 AI 算法和软件的开发商、数据中心和云计算服务提供商、大数据分析公司、区块链技术服务商等。例如，亚马逊 AWS、谷歌云、微软 Azure 等云计算服务提供商，以及 IBM、百度、腾讯、阿里巴巴、华为等公司都是中游企业。

下游企业：下游企业是使用人工智能生成内容技术的终端企业，它们涵盖了娱乐文化、广告营销、教育、金融等不同领域。

些企业通过中游企业提供的 AIGC 服务，能够实现自身业务的智能化升级和效率提升。例如，在娱乐文化领域，使用 AIGC 技术可以生成音乐、电影、游戏等内容，提高创作效率和质量；在广告营销领域，使用 AIGC 技术可以实现个性化推荐、精准定位等功能，提高广告效果；在教育领域，使用 AIGC 技术可以提供智能化的在线教育解决方案，实现个性化学习等。