行业报告 | 2023年9月全球AIGC行业月报-论文篇

AIGC
后台-插件-广告管理-内容页头部广告(手机)
前言

在九月份,学术界取得了许多引人注目的研究成果,这些成果涵盖了各个领域的最新进展。在这些成果中,智能体、多模态基础模型、RLAIF、多模态大语言模型、多语言高质量数据集和扩散模型等都是被广泛讨论的关键议题。其中,多模态模型的研究成果尤其引人注目。

为了让读者更快速地了解过去一个月AI领域的学术成果,我们整理了九月份的热门论文,并简要概括了每篇论文的核心观点。这些论文涵盖了各种议题,从基础模型到应用实践,从单模态到多模态,从文本到图像等等。不仅展示了学术界在AI领域的最新进展,也为未来的研究方向提供了新的思路和启示。

基于大语言模型的智能体的崛起与潜力:一项调查(The Rise and Potential of Large Language Model Based Agents: A Survey)

◎ 摘要

人类长期以来一直致力于研发一种能够等同或超越人类的人工智能,而智能体(Agents)被认为是实现这一目标的有效途径。智能体是一种能够感知周围环境、独立作出决策并采取行动的人工智能实体。自20世纪中期以来,人们已付出大量努力来研发智能体。

然而,这些努力主要集中在改进算法或训练策略上,以增强智能体在特定任务上的特定能力或表现。实际上,我们缺乏的是一个全面且强大的模型,作为开发可适应各种不同场景的智能体的基础。

本篇文章从代理的概念出发,探讨了其哲学起源、在人工智能领域的发展以及大语言模型作为智能体基础的原因。在此基础上,提出了一种基于大语言模型的智能体概念框架,包括大脑、感知和行动三个部分,这个框架可定制以适应不同应用。

本文探讨智能体在三个场景的广泛应用:单一代理、多个代理和人机合作。此外,本文还深入研究了智能体社会,深入剖析了智能体的行为特征以及它们在构建社会时产生的各种现象。同时,文章还全面概述了这一领域的关键议题及面临的开放性挑战。

图1:描绘了一个由智能体组成的设想社会的场景,人类也可以参与其中。上图描绘了社会中的一些具体场景。在厨房里,一个代理正在点餐,而另一个代理负责计划和解决烹饪任务。在音乐会上,三个代理正在协作表演乐队。在户外,两个代理正在讨论制作灯笼,通过选择和使用工具来计划所需的材料和财务。用户可以参与这些社交活动的任何阶段。)

智能体,是一类能够自主感知环境、进行推理并实施行动的系统。这种系统需要具备获取环境信息输入、作出判断和决策、影响环境输出的综合能力。通用人工智能,是一种类似人类的广泛智能,能够学习各领域知识,利用知识解决多样任务。

在上个阶段,狭义的AI定义是仅能处理特定的领域和任务。构建通用智能仍面临挑战。近年来,随着计算能力的增强和大数据的积累,大语言模型在自然语言处理任务上取得了飞速进展。大语言模型在语言理解、推理、知识表达等方面展现出超过人类的强大能力,这些能力被视为实现通用人工智能的希望。

基于大语言模型作为基础构建真正的智能体是当前可行的研究方向。智能体与环境之间的交互主要依赖于对输入的感知、推理和决策以及输出。大语言模型在智能体构建中发挥着核心作用,并可以通过扩展实现感知与行动。

本文旨在全面探讨基于大语言模型的智能体框架的构建,以推动该领域的进一步发展,并使智能体具备出色的语言智能以及实际的交互能力。当前,构建一种基于大型语言模型的智能体框架,使其具备语言智能和实际交互能力,已成为人工智能领域的前沿课题。

◎ 文章核心观点

1. 基于大语言模型构建智能体框架,包含大脑、感知和行动三个组件。

2. 大脑模块作为控制器,承担记忆、思考和决策等基本任务。

3. 感知模块感知并处理来自外部环境的多模态信息,行动模块使用工具执行,并影响周围环境。

4. 大语言模型具有强大的自然语言理解生成能力,这使它可以与人类和其他智能体进行富有成效的交互。

5. 智能体需要具备理解用户意图、处理多轮对话、处理不确定性输入并进行试错的适应能力。

6. 智能体需要具备处理复杂推理和规划的能力,以及生成语义连贯的回应的能力。

7. 智能体需要具备多语言能力,能够处理英语、中文等不同语言的输入,并进行适当的响应。

8. 智能体需要具备处理视觉、音频等多模式感知的能力,

9. 大型语言模型(LLMs)的发展为代理的进一步发展带来了希望,已经在多个方面取得了显著的进步。LLMs 被认为是有助于实现 AGI 的火花,对于构建智能代理以促进人类和代理和谐共处的世界具有很高的价值。

来源

https://arxiv.org/abs/2309.07864

多模态基础模型:从专用模型到通用助手(Multimodal Fondation Models: From Specialists to General-Purpose Assistants)

◎ 摘要

本文对展示视觉和视觉语言能力的多模式基础模型的分类和演变进行了全面调查,重点介绍了从专业模型到通用助手的转变。

语言和视觉/多模态基础模型发展轨迹:

本文的研究领域包括五个核心主题,并分为两类。

1. 从已经确立的研究领域开始:针对特定目的预先训练的多模态基础模型,其中包括两个主题——①视觉理解视觉主干学习方法与②文本到图像生成。

2. 介绍探索性、开放研究领域的最新进展:旨在扮演通用助手角色的多模式基础模型,包括三个主题①受大语言模型(LLM)启发的统一视觉模型、②多模态大型语言模型(LLM)的端到端训练、③采用大语言模型(LLM)将多模态工具串联起来

◎ 文章核心观点

尽管流行的研究主题、方式和方法一直在发展,包括图像自监督学习、语言-图像对比学习、文本-图像生成、统一视觉建模以及大型语言-视觉助手。这些课题共同聚焦在一个共同的总体目标上:创造一个能够遵循人类的意图并毫不费力地执行普遍的视觉与视觉-语言任务的通用模型和系统。

1. 专用多模态基础模型:

在再训练阶段,主要的范式是在大量与问题相关数据上进行预训练,然后以零次或少数几次的方式转移到同一问题类型的许多现实世界场景中。

(i)视觉理解:针对可视化数据在图像、区域、像素等层次上的内容分析,发展出了独立的多模态基础模型。语言增强视觉模型这一类热门模型,为视觉理解任务的最新成功做出了贡献。

(ii)视觉生成:文本到图像(text-to-image)生成模型为图像合成提供了基础,这些模型已经被成功地拓展到允许用户以更加精细的方式进行控制和定制。此外,大量与问题相关的数据,因为其被创造出来以及可用性,在实现这些多模态基础模型钟起到了关键作用。

2. 通用辅助助手(General-purpose assistants):

这类辅助助手通常具备同一的网络结构,即统一的“输入-输出”数据格式、一般性交互界面,这些特性为人机交互提供了便利。

受到NLP领域LLM启发(如ChatGPT/GPT-4作为通用辅助助手应用于广泛的语言任务中),计算机视觉领域的研究者探索了大量的视觉任务的通用助手解决方案。根据LLM的使用方法分类,现有的工作可以被分为三个主题:

(i) 统一视觉模型:借鉴LLM中统一建模的思想,用于在不同层次以及交叉不同任务重构建统一视觉模型

(ii) 使用LLM进行训练:从预训练的LLM开始,将视觉数据连接到LLM进行端到端训练。

(iii) 与LLM链连:通过冻结LLM,可以通过提示词工程LLM触发当前的视觉专家以完成特定的视觉任务。

来源

https://www.aminer.cn/pub/650a56593fda6d7f067ea000/multimodal-foundation-models-from-specialists-to-general-purpose-assistants

AI反馈强化学习:采用AI反馈来拓展人类反馈强化学习(RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback)

◎ 摘要

人类反馈强化学习(RLHF)在将大型语言模型(LLM)与人类偏好对齐方面是有效的,但获取高质量的人类偏好标签是一个关键的瓶颈。

本文作者们对人类反馈强化学习(RLHF) 与人工智能反馈强化学习(RLAIF)进行了面对面的比较 - 一种由现成的 LLM 代替人类进行偏好标注的技术,进而发现这两种方式带来了相似的提升。

在摘要任务中,人类评估者在约 70% 的情况下接受 RLAIF 和 RLHF 的生成结果,而不是基于监督的微调模型。此外,当要求人类评估 RLAIF 与 RLHF 摘要时,人类对两者的偏好是平等的。这些结果表明,RLAIF 可以产生人类水平的表现,为 RLHF 的可扩展性限制提供了一个潜在的解决方案。

◎ 文章核心观点

1. RLAIF是一种新技术,使AI系统能够通过使用其他AI的反馈来递归地改进自己。它被用于强化学习训练,以微调AI系统的性能。

2. 在RLAIF中,一个经过精调的大型自然语言模型被用作裁判,为AI代理提供反馈和奖励。这个裁判模型是基于人类偏好训练的,能够预测人类会喜欢的总结。

3. RLAIF的训练过程包括以下步骤:情况简述、小样本给予(可选步骤)、需注释内容的范例、结论。

4. RLAIF与RLHF在训练过程和基本框架上完全一致。然而,RLAIF使用经过精调的大型自然语言模型作为裁判,而RLHF则使用人类标注师进行评估。

5. 在一个实验中,经过RLAIF训练的模型在总结能力方面表现出与经过RLHF训练的模型相当的效果。在71%的情况下,RLAIF模型超过了SFT基线的预训练模型的结果。

6. 研究人员还发现,使用无上下文示例提示和思想链的策略能够优化RLAIF的性能。此外,较大的模型在RLAIF训练后产生更高质量的反馈,从而导致更好的最终总结性能。

7. RLAIF具有很大的提升空间,可以通过改进提示工程和模型本身的能力来进一步提高其性能。

来源

https://www.aminer.cn/pub/64f59fc23fda6d7f0648f1fb/rlaif-scaling-reinforcement-learning-from-human-feedback-with-ai-feedback

FLM-101B: 一个开源LLM以及如何用10万美元预算对其训练(FLM-101B: An Open LLM and How to Train It with $100K Budget)

◎ 摘要

大规模语言模型(LLMs)在自然语言处理和多模态任务中取得了显著的成功。尽管取得了这些成功,但它们的发展面临着两个主要挑战:

(i)高计算成本;

(ii)难以进行公平客观的评价。LLMs 的成本过高,使得只有少数主要参与者承担其训练,从而限制了研究和应用机会。这突显了成本效益高的 LLM 培训的重要性。在本文中,作者们利用一种增长策略大大降低了 LLM 训练成本。他们证明了可以在 10 万美元的预算下训练一个具有 1010 亿参数和 0.31TB Toekn的 LLM。

他们还采用了一种系统化的评估范式,目的是对现有的LLMs 的智商(IQ)评估进行补充,因为现有评估更多地关注知识导向能力。作者引入了包括符号映射、itrule 理解、模式挖掘和抗干扰等重要智能方面的评估 benchmark。这样的评估最小化了记忆的影响。

实验结果表明,用 10 万美元的预算训练的FLM-101B模型 ,在智商基准评估方面,与强大且著名的模型(例如 GPT-3 和 GLM-130B)具有可比性能,尤其是在训练数据中未见到的上下文中的 IQ 基准评估。FLM-101B 的检查点将在 https://huggingface.co/CofeAI/FLM-101B 上开源。

◎ 文章核心观点

1. 大规模语言模型 (LLMs) 取得了显著的成功,并广泛应用于各种语言处理和多模态任务中。

2. 训练 LLMs 的成本很高,只有少数公司能够承担。

3. 当前的趋势是使用更多的训练数据,进一步推高了大型模型的研究成本。

4. LLM 研究中的另一个关键挑战是评估。主流评估方法可以分为两类:知识评估和 NLP 任务评估。

5. 知识导向的评估可能无法真正反映模型的能力。

6. 提出了采用增长策略来解决训练成本挑战的方法,首次尝试通过增长策略训练 100B LLM。

7. 增长策略是指在训练过程中,参数数量从较小的值扩展到较大的值。

8. 采用 aggressive growth strategy,可以最大程度地节省计算成本。

9. 增长操作符受到 MSG 的启发,可以实现 strict function-preservation 增长。

10. 开源了 F(ree)LM-101B 模型,该模型是基于 FreeLM 框架构建的。

11. FreeLM 框架具有两个由语言信号和教师信号引导的预训练目标,作者将这两个目标统一到了一个共同的语义建模范式中。

12. 除了低成本训练范式外,作者还提出了一个系统的基准来评估 LLMs 的 Intelligence Quotient (IQ)。

13. 作者希望他们的全面 IQ 评估框架能刺激这个领域后续的研究。

14. 这是第一个使用生长策略从头训练具有 100B+参数的 LLM 的尝试。同时,这也是成本最低的 100B+参数模型,仅需 100,000 美元。

来源

https://www.aminer.cn/pub/64fa84403fda6d7f06700975/flm-b-an-open-llm-and-how-to-train-it-with-k

语言模型是压缩(Language Modeling Is Compression)

◎ 摘要

这篇论文探讨了语言模型与压缩之间的关系。长期以来,人们已经认识到预测模型可以转化为无损压缩器,反之亦然。近年来,机器学习社区专注于训练越来越大的自监督(语言)模型。由于这些大型语言模型表现出令人印象深刻的预测能力,因此它们非常适合作为强大的压缩器。

在这项工作中,本文作者主张通过压缩的视角来看待预测问题,并评估大型(基础)模型的压缩能力。他们发现大型语言模型是强大的通用预测器,而压缩视角为其提供了关于缩放定律、标记化和上下文学习的独特见解。

例如,虽然 Chinchilla 70B 主要在文本上进行训练,但它将 ImageNet 补丁压缩到原大小的 43.4%,将 LibriSpeech 样本压缩到原大小的 16.4%,这分别优于领域特定的压缩器,如 PNG(58.5%)或 FLAC(30.3%)。最后,他们证明了预测与压缩之间的等价性,从而可以使用任何压缩器(如gzip)来构建条件生成模型。

◎ 文章核心观点

1. 信息论与机器学习密切相关,概率模型与数据的无损压缩之间存在本质等价性。

2. 源编码定理描述了最优熵编码器的预期比特数等于统计模型的负二进制对数似然。

3. 最大化二进制对数似然等同于最小化每个消息所需的比特数。

4. 霍夫曼编码、算术编码和不平衡数字系统等方法可用于基于概率模型的无损压缩。

5. 算术编码在编码长度方面被认为是最优的。

6. 大型预训练变形金刚在广泛的预测任务中取得了高度成功,因此它们是使用算术编码的有力候选者。

7. 变形金刚基于算术编码的压缩在在线和离线设置中都取得了最先进的成果。

8. 离线压缩在上下文中进行,具有固定的模型参数集。

Transformer基于算术编码的压缩在在线和离线设置中都取得了最先进的成果。

10. 基础模型可以被视为通用压缩器,因为它们具有上下文学习能力。

11. 提出了使用无损压缩研究基础模型失效模式的视角,并对大型语言模型的离线压缩能力进行了实证研究。

12. 证明了基础模型在不同的数据模态下可以实现最先进的压缩率。

13. 提出了关于规模法则的新观点,表明数据集大小在压缩性能方面为模型大小设置了硬限制。

14. 将预测框架通过压缩视角进行阐述,因为压缩包含了泛化:压缩性能好的模型泛化性能也好。

15. 提出了编码分布的概念,并对其进行了定义和约束。

16. 文章中考虑了 gzip,LZMA2 和训练过的模型三种压缩算法,以及 enwik9,ImageNet 和 LibriSpeech 三个数据集。

17. 对于具有有限上下文的压缩器,有两种方法可以压缩比上下文长度长的序列:逐字节滑动压缩器和将数据流分成多个长度序列。

18. 文章中采用了将数据集分成 2048 字节的长度序列,并逐个喂给压缩器的方法。

19. 由于传统的压缩器通常在压缩输出中包含一个较大的头部,因此对于所有批次,只计算一次头部,得到压缩率为(头部 +(压缩后的批次大小 - 头部))/ 批次。

20. 文章中还考虑了分块会降低传统压缩器的性能的问题,因此也报告了它们在不分块数据集上的压缩率。

来源

https://arxiv.org/abs/2309.10668

NExT-GPT:任意到任意多模态大型语言模型(NExT-GPT: Any-to-Any Multimodal LLM)

◎ 摘要

虽然多模态大型语言模型(MM-LLM)在近期取得了显著的进展,但这些模型的性能主要集中在输入侧的多模态理解上,尚不具备在多种模态中生成内容的能力。由于人类需要通过各种模式来感知世界并相互交流,因此开发出能够接受并传递任何模式的内容、任意到任意的MM-LLM对于实现人类水平的人工智能至关重要。为了弥补这一不足,本文作者提出了一个全新的“端到端通用多模态任意到任意MM-LLM系统”,名为NExT-GPT。

作者将一个大型语言模型与多模态适配器以及不同的扩散解码器相互连接,这使得NExT-GPT能够感知并处理任意组合的文本、图像、视频和音频输入,并生成相应的内容输出。

此外,作者通过利用现有的经过良好训练的高性能编码器和解码器,仅需对特定投影层的一小部分参数(仅1%)进行调整,这有利于降低训练成本,同时更方便地扩展到更多的潜在模态。

作者还引入了模态切换指令调整(MosIT)的概念,并手动策划了高质量的MosIT数据集。基于这一数据集,NExT-GPT获得了复杂的跨模态语义理解和内容生成能力。总的来说,本研究揭示了构建能够模拟通用模式的AI代理的广阔前景,为社区中更多的类似人类的AI研究铺平了道路。

◎ 文章核心观点

1. 大型语言模型 (LLM) 的崛起引人注目,例如 Flan-T5、Vicuna、LLaMA 和 Alpaca,它们展示了强大的人类级语言推理和决策能力,为人工智能通用智能 (AGI) 的道路指明了方向。

2. 纯文本基础的 LLM 被赋予了其他模态的理解和感知能力,例如视觉、视频、音频等。

3. 提出了多模态 LLM(MM-LLM),例如 BLIP-2、Flamingo、MiniGPT-4、Video-LLaMA、LLaVA、PandaGPT 和 SpeechGPT。

4. 缺乏输出多种模态内容的能力。

5. 实现真实 AGI 的关键在于探索任何到任何的 MM-LLM,即接受任何模态的输入,并以适当形式的任何模态输出。

6. 最近的 CoDi 在实现类似于人类的多模态转换方面取得了进展,但它缺乏 LLMs 的核心推理和决策能力,并且仅限于简单的成对内容生成。

7. 一些研究试图将 LLM 与外部工具结合,以实现近似的“任何到任何”多模态理解和生成。

8. 构建任意模态的端到端 MM-LLM 迫在眉睫。

9. 提出了 NExT-GPT,一个任意模态的 MM-LLM,可以无缝处理文本、图像、视频和音频的任意组合的输入和输出。

10. NExT-GPT 由三个层次组成,利用现有的编码器来编码各种模态的输入,并将这些表示投影到能够被语言模型理解的类似语言的表示中。

11. 利用现有的开源语言模型作为核心来处理输入信息以进行语义理解和推理,这个语言模型不仅直接生成文本标记,还生成唯一的“模态信号”标记,作为指令来指示解码层输出相应的模态内容。

12. 生成的具有特定指令的多模态信号经过投影后,路由到不同的编码器,最终生成相应模态的内容。

13. 引入了轻量级的对齐学习技术,包括编码侧的 LLM-centric 对齐和解码侧的指令跟随对齐,以最小的参数调整实现有效的语义对齐。

14. 注释了一个高质量的模态切换指令调整数据集,涵盖各种模态组合的复杂指令,如文本、图像、视频和音频,帮助 MM-LLM 具有类似人类的跨模态内容理解和指令推理能力。

15. 提出了一个通用的端到端任何到任何 MM-LLM,NExT-GPT,能够进行语义理解和推理以及生成自由的输入和输出组合的文本、图像、视频和音频。

16. NExT-GPT 能够处理各种模态的输入和输出,如文本、图像、视频和音频,使得它能够更好地理解和生成多模态内容。

17. NExT-GPT 的贡献包括:首次提出了一个通用的端到端任何到任何 MM-LLM,能够进行语义理解和推理以及生成自由的输入和输出组合的文本、图像、视频和音频。

来源

https://arxiv.org/abs/2309.05519

CulturaX:一个167种语言的、干净的、大规模、多语种、用于大型语言模型的高质量数据集(CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages)

◎ 摘要

这篇论文介绍了 CulturaX,一个集成了清理、文档精炼和数据去重功能的大规模多语言数据集。

大型语言模型(LLMs)的发展背后有多个驱动因素,其中最引人注目的是它们巨大的模型规模和广泛的训练数据集。随着自然语言处理的进步,LLMs经常被公之于众,以促进更深入的调查和应用。

然而,当涉及这些LLMs的训练数据集,尤其是最近的先进模型,们往往没有被完全公开。

为高性能LLM创建训练数据需要广泛的数据清理和去重以确保必要的质量水平。缺乏训练数据的透明度阻碍了研究LLM中的幻觉和偏见问题,并阻碍了复现工作和对社区的进一步发展。在多语言学习场景中,这些挑战变得更加突出,可用的多语言文本数据集往往被收集和清理不足。

因此,缺乏开源和现成可用的数据集来有效地训练多种语言的LLM。为了解决这个问题,本文作者提出了CulturaX,这是一个包含167种语言的6.3万亿Token的大量多语言数据集,专为LLM开发而定制。

该数据集通过多个阶段的严格处理进行细致的数据清理和去重,以实现模型训练的最佳质量,包括语言识别、基于URL的过滤、度量。为了推动多语言大型语言模型的研究和进步,CulturaX 在 HuggingFace 上完全公开了:https://huggingface.co/datasets/uonlp/CulturaX.

◎ 文章核心观点

1. 大规模语言模型(LLMs)已经从根本上改变了自然语言处理(NLP)的研究和应用,显著推进了众多任务的先进性能,并揭示了新的潜在能力。

2. LLMs 的主要变种有:仅编码器模型,例如 BERT 和 RoBERTa;仅解码器模型,例如 GPT;以及编码器 - 解码器模型,例如 BART 和 T5。

3. LLMs 的卓越能力主要是由模型规模和训练数据的不断扩大推动的,这被认为是实现最佳性能的规模法则。

4. 例如,从只有几百亿参数的 BERT 模型开始,最近的 GPT 模型已经扩展到包含数万亿参数。

5. 同样,LLMs 的训练数据也呈指数级增长,从 BERT 使用的 13GB 的文本数据(来自维基百科和书籍)增长到最新模型的数百亿字节数据,例如 Falcon、MPT、LLaMa、PolyLM 和 ChatGPT。

6. 随着领域快速进步,预训练 LLMs 通常会被发布到公共领域以促进进一步研究和进步。这些模型可以通过商业 API 获得,例如 ChatGPT,也可以通过开源倡议获得,例如 Falcon 和 LLaMa。

7. 然而,与公共可访问的 LLMs 相反,支撑最先进模型的训练数据大部分仍然严格保密,即使对于开源 LLMs 也是如此,例如 BLOOM、LLaMa、MPT 和 Falcon。

8. 这种缺乏透明度阻碍了深入分析和解码 LLMs,阻碍了针对训练数据产生的基本问题(如虚构、偏差和有毒内容)的重要研究。

9. 另一方面,隐藏训练数据限制了 LLMs 的发展,使其仅限于拥有丰富资源的少数利益相关者,从而限制了技术的民主化和平民化,并加剧了其在更广泛社会中的偏见。

10. 为了实现 LLMs 的透明度和民主化,创建大规模、高质量的训练数据集以训练高性能 LLMs 至关重要,同时确保其公开可访问,以促进更深入的研究和进步。

11. 高质量的 LLM 训练数据集通常通过广泛的数据清洗和去重过程来创建,旨在从大量的文本集中消除嘈杂和重复的内容。

12. 现有开源 LLM 数据集大多数是针对英语语言定制的,这限制了应用于非英语语言时的利用率和性能,特别是那些语言资源有限的语言。

13. CulturaX 是目前为止最大的开源多语数据集,为 LLM 和 NLP 应用进行了深度清洗和去重。

来源

https://arxiv.org/abs/2309.09400

DreamLLM:协同多模态理解和创造(DreamLLM:Synergistic Multimodal Comprehension and Creation)

◎ 摘要

本文提出了DreamLLM学习框架,该框架首次实现了利用多模态理解和创造之间常被忽视的协同作用的各种多功能大型语言模型(MLLMs)。

DreamLLM基于两个基本原则:

其一是通过在原始多模态空间中的直接采样对语言和图像后验进行生成建模,这种方法避免了像CLIP这样的外部特征提取器固有的局限性,并获得了更全面的多模式理解;

其二是DreamLLM促进原始、交织的文档的生成,同时建模文本和图像内容以及非结构化的布局,这使得DreamLLM能够有效地学习所有条件、边缘和联合的多模式分布。

因此,DreamLLM是第一个能够生成自由形式交织内容的多模态大型语言模型。全面的实验表明,DreamLLM作为零样本多模式通才的卓越性能,得益于增强的学习协同作用。

◎ 文章核心观点

1. 内容理解和多模态创作对于机器智能的重要性。

2. 现有的多模态大语言模型 (MLLMs) 已经取得了在视觉领域前所未有的多模态理解能力。MLLMs 通过将图像作为多模态输入,如 CLIP 特征,来增强 LLMs,以实现语言输出的多模态理解。

3. 目前的研究还没有充分发挥多模态创作和理解之间的学习协同作用。

4. DREAMLLM 是一种多模态语言模型,能够学习图像和文本的关联,并在创作和理解方面相互协作。它采用了Interleaved Generative Pre-Training (I-GPT)方法,能够生成包含图像和文本的混合序列。DREAMLLM在各种视觉语言理解、内容创作和纯语言任务上表现出了出色的性能。除此之外,DREAMLLM还是一种自回归生成模型,可以处理长度为T的序列,并且能够处理包含K个图像的多模态理解,每个图像都经过视觉编码器处理。

5. 扩散模型 (DMs) 是一种概率生成模型,可以通过连续的信息扩散学习数据的潜在结构。

6. 多模态信号具有特定的信息结构,但其语义是互补的,这允许我们利用深度语言理解来增强跨模态图像生成。

7. 现有的策略将成功的扩散模型与 MLLMs 相结合,以最小化对齐损失。

8. CLIP 模型主要学习模态共享的语义,往往忽略了模态特定的信息,导致模态间隙问题。

9. 本文提出了替代学习方法,利用 MLLMs 直接通过对像素空间进行采样来建模分布。

10. 图像后验在类似 DeepDream 的方式下进行学习,使用 MLLMs 的条件参数化。

11. 用于合成图像的是 Stable Diffusion (SD) 作为图像解码器,条件投影器 M ψ 也是一个线性层。

12. 将所有自然文档视为携带文本 - 图像交织信息的载体,关键在于赋能模型学习生成自由形式的交织文档,形成所有可能的分布。

13. 提出使用一系列可学习的 dream 查询来建模交织结构,并在训练期间,DREAMLLM 被训练预测表示图像出现位置的特殊标记。

14. 该研究的目标是统一所有形式因果条件后验分布的最大似然估计:I-GPT 预训练。

15. I-GPT 预训练阶段通过生成建模学习联合视觉 - 语言分布。

16. 训练使用了大约 200 万选择性过滤的 MMC4-Core 文档,并遵循 CLIP 分数阈值为 0.25。

来源

https://arxiv.org/abs/2309.11499

FreeU:扩散模型U-Net中的免费午餐(FreeU: Free Lunch in Diffusion U-Net)

◎ 摘要

在这篇论文中,作者探讨了扩散U-Net尚未发掘的潜力。U-Net作为一种“免费午餐”,能够在不增加额外训练或微调的情况下显著提高生成质量。

本文首先研究了U-Net架构对去噪过程的关键贡献,并发现其主要骨干主要有助于去噪,而其跳过连接主要将高频率特征引入解码器模块,致使网络忽略骨干语义。基于这一发现,本文提出了一种简单而有效的方法,称为“FreeU”,该方法可在不增加额外训练或微调的情况下提高生成质量。

作者的关键见解是,战略性地重新加权来自U-Net的跳过连接和骨干特征图的贡献,以利用U-Net架构的两个组件的优势。

在图像和视频生成任务上取得了令人鼓舞的结果表明,本文的FreeU可以轻松集成到现有的扩散模型中,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion,只需几行代码即可提高生成质量。只需要在推理过程中调整两个缩放因子即可。

项目页面:https://chenyangsi.top/FreeU/。

◎ 文章核心观点

1. 扩散概率模型是一种先进的生成模型,特别适用于计算机视觉相关任务。

2. 扩散模型与其他生成模型如变分自编码器(VAE)、生成对抗网络(GANs)和向量量化方法不同,引入了一种新的生成范式。

3. 扩散模型使用固定马尔可夫链来映射潜在空间,实现复杂映射以捕捉数据集中潜在结构复杂性。

4. 最近,扩散模型的生成能力令人印象深刻,从生成的示例的细节到多样性,推动了计算机视觉应用的突破。

5. 扩散模型包括扩散过程和去噪过程。

6. 在扩散过程中,高斯噪声逐渐添加到输入数据,最终将其破坏为近似纯高斯噪声。

7. 在去噪过程中,通过学习的一系列逆扩散操作从其噪声状态中恢复原始输入数据。

8. 通常,训练一个 U-Net 来迭代预测每个去噪步骤需要去除的噪声。

9. 现有研究主要集中在利用预训练的扩散 U-Net 进行下游应用,而扩散 U-Net 的内部性质仍然很大程度上未被探索。

10. 本文对扩散 U-Net 在去噪过程中的有效性进行探究,以更好地理解去噪过程。

11. 为了更好地理解去噪过程,我们首先将研究视角转向傅里叶域,探讨扩散模型的生成过程,这是一个之前受到有限关注的研究领域。

12. 扩散模型在图像合成、图像编辑、图像到图像转换和文本到视频生成等计算机视觉应用中取得了突破性进展。

13. 扩散模型的去噪过程在潜在空间中的表现可以观察到低频和高频信息的渐变。

14. 在去噪过程中,高频率信息的变化比低频率信息更明显。

15. 本文通过对比去噪过程中噪声数据的傅里叶变换结果,进一步证实了这一观察结果。

此外,论文还提出了“FreeU”策略,该策略可以在不增加额外训练或微调的计算开销的情况下提高样本质量。实验结果表明,“FreeU”框架在集成到现有扩散模型时表现出无缝的适应性,并在各种基于扩散的方法中显著提高了样本质量。

来源

https://arxiv.org/abs/2309.11497

LongLoRA:长语境大型语言模型的有效的微调(LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models)

◎ 摘要

论文介绍了一个名为LongLoRA的方法,该方法能够有效地对大型语言模型进行fine-tuning,并在计算成本有限的情况下扩展模型的上下文大小。通常,对于具有长上下文大小的语言模型进行训练需要大量的计算资源和时间。例如,与2048的上下文长度相比,8192的上下文长度需要16倍的计算成本。本文提出了两种方法来加速语言模型的上下文扩展。一方面,在推理过程中需要使用全局注意力,但是使用稀疏的局部注意力进行fine-tuning可以实现高效的计算。

通过引入所提出的shift short attention方法,可以有效地扩展上下文,并且与使用传统注意力进行fine-tuning相比,可以节省非常可观的计算资源,同时具有相似的性能表现。尤其值得一提的是,在模型的训练中,只需要加入两行代码即可实现该方法,而在推理过程中可以选择是否使用。另一方面,在上下文扩展的fine-tuning过程中,作者重新审视了参数有效的fine-tuning机制。

值得注意的是,作者发现在可训练的embedding和normalization的前提下,上下文扩展的LoRA机制表现良好。LongLoRA在从7B/13B到70B的LLaMA2模型上展示了强大的实证结果。在由单个8x A100机器上对LLaMA2 7B模型的上下文从4k扩展到100k,或对LLaMA2 70B模型的上下文从32k扩展到70B的情况下,LongLoRA仍然能够维持模型的原始架构,并且与大多数现有技术(如FlashAttention-2)兼容。

此外,为了使LongLoRA能够实际应用,作者收集了一个名为LongQA的数据集,用于有监督的fine-tuning,其中包含超过3k个长上下文的“问题-答案对”。

◎ 文章核心观点

1. 本文研究了在预训练大型语言模型(LLMs)时,扩展上下文窗口的效率问题。

2. 对比了全微调、普通 LoRA 和 LongLoRA 的性能和效率。

3. 通过 FlashAttention-2 和 DeepSpeed stage 2 对 LLaMA2 7B 在不同上下文长度上进行微调。

4. 普通 LoRA 基线 GPU 内存成本有限,但随着上下文长度的增加,困惑度变得更差。

5. LongLoRA 在计算成本大大降低的同时,实现了与全微调可比性能。

6. 通常大型语言模型(LLMs)是使用预先定义的上下文大小进行训练的,例如 LLaMA 的 2048 个标记和 LLaMA2 的 4096 个标记。

7. 预定义大小限制了 LLMs 在许多应用场景,例如总结长文档或回答长问题。

8. 为了解决这个问题,一些最近的研究通过训练或微调 LLM 来扩展长上下文。

9. 但是,从头开始训练具有长序列的 LLM 会带来计算挑战,而预先训练的 LLM 的微调也相当昂贵。

10. 直接通过低秩适应(LoRA)对预训练的 LLM 进行微调是一种简单的方法。

11. 本文的实证研究发现,用这种方法训练长上下文模型既不充分有效也不高效。

12. 普通低秩适应在长上下文扩展中会导致高困惑度。

13. 无论是否使用 LoRA,随着上下文大小的扩展,计算成本都会显著增加,主要原因是标准自注意力机制。

14. 本文提出了 LongLoRA,一种高效微调方法,可以扩展预训练 LLMs 的上下文窗口。

15. 类似地,本文发现短注意力在训练过程中也能近似长上下文。

16. 本文提出了 shift short attention(S2-Attn)作为标准自注意力的有效替代。

17. 本文将上下文长度划分为几个组,并分别对每个组进行关注。

18. 在一半的关注头中,本文通过一半组大小来移动标记,以确保相邻组之间的信息流动。

19. 例如,本文使用 S2-Attn 和组大小 2048 来近似总的 8192 上下文长度训练。

20. 这种方法与 Swin Transformer 有着高层次的相似性。

21. 通过对 S2-Attn 进行微调,可以在推理过程中保留原始注意力架构。

22. 短注意力类似于预训练阶段 LLMs 的注意力方案,而其他高效的注意力机制,如膨胀或稀疏注意力,在预训练阶段与标准风格之间存在很大的差距。

23. 通过可学习嵌入层和归一化层来解锁长上下文 LoRA 微调的关键。

24. 在实验中,本文展示了 LongLoRA 的有效性和高效性。

25. LongLoRA 可以在单个 8×A100 机器上,将 LLaMA2 7B 的上下文窗口扩展到 100k,或者将 70B 模型的上下文窗口扩展到 32k。

26. 本文提供了一个用于监督微调(SFT)的数据集 LongQA。

来源

https://arxiv.org/abs/2309.12307

- END -

作者 | 虹岸

审核 | 秋平


- 推荐阅读 -

行业洞察 | 全球风险投资遇冷,AIGC赛道能否一枝独秀? | AI在金融领域:技术引领未来的同时,面临人才和数据的双重挑战 | 创意变革与市场颠覆:AIGC对广告行业的全面影响|数字人与生成式AI未来的创造力和机遇 | AIGC如何革命性提效内容营销|行业数据+场景:AI风口下,率先利好的是这样的公司|AI+金融:引领以交易为中心转向用户为中心的增长变革|探索未来:AI-Agents引领人工智能革命|从创意到收益:AIGC展现崭新商业化视角|跨境电商的AI时代:从工厂创新到客户服务的全面转型

公司调研 | 百度|寒武纪|昆仑万维|蓝色光标|科大讯飞

行业报告 | 2023年8月全球AIGC行业月报 | 2023年H1全球AIGC行业半年报

行业图谱 | 2023年中国AIGC行业图谱V3.0

更多历史文章及报告合集请戳

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。