揭秘腾讯云存储针对AIGC大模型业务的应对之道

2023-09-26 08:38:58 AIGC ℃

后台-插件-广告管理-内容页头部广告（手机）

AIGC，即人工智能生成内容，是指利用人工智能技术，根据用户的需求和意图，自动生成文本、图片、音视频等多种形式的内容。AIGC具有高效、多样、创新的特点，可以应用于娱乐、教育、营销、新闻等多个领域，为用户带来更丰富的体验和价值。

比如我这篇文章的配图，就是用AIGC生成的。我在bing图像创建器里面输入提示词“一个聊天机器人在给病人做心理咨询”，就可以得到上面的图片。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

而大模型是指具备海量参数和复杂结构的人工智能模型。例如，GPT-3是一种具有1750亿个参数的大型语言模型，具备惊人的语言理解和生成能力。大模型的训练需要大量的计算资源和数据，但其带来的创作能力和自动化程度是前所未有的。大模型可以通过输入一小段文本，自动生成连贯、有逻辑的文章，为创作者提供了强大的辅助工具。

有大模型加持的AIGC随着chatGPT的火爆，已经是路人皆知了。很多企业也纷纷加入了这个领域的竞争。对大模型AIGC的支持也成了很多先进企业选择云基础设施重点考虑的因素。

而腾讯云作为国内领先的云计算服务商，为AIGC大模型场景提供了全面的解决方案。今天，我们就从存储的视角，看看腾讯云存储给AIGC场景提供哪些针对性的解决方案。

我的解读主要基于2023年5月底举办的Techo Day腾讯技术开放日活动中，腾讯云存储产品负责人崔剑分享的相关内容。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

在会上，崔剑老师先分享了AIGC业务场景的需求痛点，然后给出腾讯云存储团队的解决方案。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

崔剑作为腾讯云存储产品团队的一员，他从腾讯云存储团队的角度，向大家介绍他们对AIGC场景的思考以及目前的工作和未来计划，旨在帮助国内从事AIGC相关业务的公司更好地进行大模型训练。

大规模训练对于开发者朋友们来说并不陌生。崔剑解释说，大规模训练可以分为两个阶段：训练和推理。在训练阶段，AIGC团队从各个网站收集各种待训练素材，包括他们自己生成的素材。这些初始素材经过初步清洗和标注后，被送入GPU进行训练。训练完成后，训练结果被输入到神经网络中，使得大模型训练的神经网络变得越来越智能。

在训练场景中，数据存储起着至关重要的作用。为了满足不断增长的数据规模和多样化的数据类型，训练场景对存储系统有以下关键要求：

1. 数据湖统一存储：训练场景需要一个统一的数据湖存储系统，能够容纳不同来源和格式的数据。这种统一存储能够将数据集中管理，提供一致的接口和访问方式，简化数据管理和查询操作，从而提高效率。

2. 自由流动的数据：在训练场景中，数据的自由流动至关重要。存储系统应该提供高效的数据交换和传输机制，以便数据在不同业务之间自由流动。这样可以实现数据共享和协作，避免数据孤岛的问题，并且促进跨部门和跨团队的合作。

3. 高吞吐、低时延：由于训练场景通常涉及大规模数据处理和计算，存储系统需要具备高吞吐和低时延的能力。高吞吐能够支持快速读写操作，提供稳定的数据传输速度。低时延可以减少数据访问的延迟，确保训练任务能够及时响应和迭代。

综上所述，训练场景对存储系统有着数据湖统一存储、自由流动的数据、高吞吐和低时延的关键要求。满足这些要求的存储系统能够支持高效的数据管理、协作和处理，为训练场景的成功实施提供可靠的基础。

基于这些训练结果，业务团队将其进行推理和应用的封装。推理和应用包括文本生成、图像生成、视频生成等功能。终端用户可以提供输入，例如一段文本，希望生成相应的图像或古诗。输入进入推理系统后，系统基于神经网络的积累，通过服务端返回结果。在这个过程中，还有一些重要的旁路模块，如内容审核。由于所有内容都由机器生成，可能涉及政治、色情或恐怖主义等问题，各大平台都投入了大量资源进行内容审核。

推理的结果可以应用于2B或2C的平台。对于2B平台，需要对推理结果进行管理，可能还需要下游内容管理的解决方案。崔剑表示，腾讯云在AIGC领域投入了大量精力，提供全面的解决方案，包括计算、存储、网络、容器和云原生等调度能力。时间有限，崔剑仅从存储团队的角度介绍了他们在腾讯云AIGC解决方案中的贡献。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

AIGC的核心要素包括内容生成、内容审核和内容智理三个维度。内容生成是指利用深度学习模型，根据用户输入的关键词、语句或图片等信息，生成相应的内容。内容审核是指对生成的内容进行合法性、合规性和质量的检测和筛选，防止出现违规、低俗或不符合用户期望的内容。内容智理是指对生成的内容进行结构化、分类、标签化等处理，提高内容的可检索性和可利用性。

腾讯云作为国内领先的云计算服务商，为AIGC场景提供了全面的解决方案，其中和云存储相关的包括：

- COS对象存储数据湖：基于腾讯云对象存储服务，为AIGC提供海量、安全、低成本的数据存储空间，支持多地域部署和跨地域复制，满足AIGC数据管理的需求。

- GooseFS数据加速：基于腾讯云自研的分布式缓存系统，为AIGC提供高性能缓存服务，利用GPU节点的内存或NVME SSD作为缓存介质，实现数据与计算节点的就近访问，提升数据访问效率。

- 数据万象内容审核：基于腾讯云数据万象服务，为AIGC提供全方位的内容审核服务，包括文本审核、图片审核、音视频审核等，利用业界领先的语义模型和海量的违规词库，快速识别出生成内容中包含的违规、低俗或不合适的信息。

- 企业网盘数据智理：基于腾讯云企业网盘产品，为AIGC提供高效的数据智理服务，包括对用户的数据集、Fine-tuned models、生成的内容进行结构化、分类、标签化等处理，并支持多模态检索和跨平台分享。

通过以上解决方案，腾讯云为AIGC场景提供了端到端的支持，帮助开发者们快速搭建AIGC应用平台，实现内容生成革命。

西瓜哥做存储很多年，采用对象存储做数据湖，采用分布式文件系统做大模型训练加速，这都是业界的常见做法，我也很容易想到，相信其他公有云厂商也是如此。但是，腾讯云引入了成熟的数据万象内容审核平台，帮助用户解决AIGC的合规问题，尤其有价值。并且最后通过网盘对AIGC的产出内容进行高效的管理，让AIGC的价值充分释放，我觉得也是腾讯云的一个亮点。

针对腾讯云存储的AIGC解决方案，有四个重要的步骤，崔剑给出了更多的详细介绍。

Step.1

揭秘腾讯云存储针对AIGC大模型业务的应对之道

第一步是数据集下载和预处理，在这一关键步骤中，国内的公司与国外的ChatGPT存在一些差距。崔剑认为，这种差距主要体现在两个方面。首先是算法方面，虽然ChatGPT在早期的几个版本中公开了一些算法，但新版本的算法并没有公开，因为他们认为这是他们的核心竞争力之一。其次是标注能力，这可能是大家容易忽视的因素。质量好坏与标注的准确性有关。对于经典的AI标注来说，例如对一张图片进行标注，判断其中是否有人物或风景，如果是人物，还要判断性别和肤色等，这些问题可以通过简单的问答进行标注。

然而，在大规模模型训练中，对结果的精确度要求非常高，且复杂度较高，因此标注环节的技术要求较高。问题不在于是否能正确回答问题，而在于提问者如何提出问题，问题的质量将决定标注数据的水平，而标注数据集的质量则决定了最终产物的质量，这也是一个核心竞争力所在。

由于国内公司在这方面的积累时间相对较短，可能会根据自身的技术积累进行标注，也会从国外网站获取数据。国外有一些网站提供了这样的服务，用户可以免费下载已标注好的数据作为训练素材集的冷启动。

对于从国外网站获取数据这个场景，国内许多公司的第一步是拉取数据，但面临一个问题，即如何快速将这些数据拉回国内。在这方面，腾讯云提供了多种解决方案，包括离线、在线、存量和增量数据等。针对这个场景，腾讯云的解决方案是MSP腾讯数据迁移平台。它是一个PaaS平台，通过可视化操作，可以将数据从国外网站快速拉取到国内存储桶中，这就完成了第一步的操作。

Step.2

揭秘腾讯云存储针对AIGC大模型业务的应对之道

第二步就是训练了。在训练过程中，存储在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍贵性，我们必须在存储方面做好数据拉取加速，以更好地提供数据给GPU，避免浪费时间，并尽快将数据传输给GPU，从而减少GPU等待时间，提高GPU算力的利用率，从而节省成本。为了实现这个目标，我们需要分析整个训练流程是怎样的。

整个训练流程中，涉及到大量的IO操作。原始素材由用户汇集在云上对象存储的存储桶中，上面架设了GPU。训练模型这一方面会进行高带宽的数据拉取，将待训练的素材批量拉取到本地，方便对待训练素材进行向量化压缩和本地模型运算。然而，在进行本地模型算力过程中，会不断进行Checkpoint的回写操作。不同厂家的回写策略不同，但都会周期性回写一次Checkpoint大文件，这对存储侧的写带宽和读带宽都有较高的要求。

为了满足用户对带宽和IO性能的高要求，腾讯云提供了一套方案。COS对象存储汇集用户全量素材的产品，决定要拉取哪些数据可能会根据每日或每周的待训练任务而变化。推荐用户通过预热的方式将数据Load到GooseFS中。GooseFS是部署在用户计算端或近计算端的本地文件系统，它有效利用了GPU本地的SSD资源。在常见的GPU卡中，都搭载了三到四块SSD盘，我们可以充分利用多台GPU本地SSD盘，将其构建成一个统一的GooseFS文件系统。一旦数据拉到本地GooseFS后，用户即可以在GPU本地进行更高效的读写训练操作。

在这个方案中，腾讯云希望持续打磨GooseFS这一层的能力，充分发挥方案价值。如果用户直接从COS读取数据可能会在性能上存在一些瓶颈，从绝对的数据角度来看，各家COS服务商根据单个逻辑桶提供OPS，一个单桶可能只能提供3万OPS，也只能提供2GB的带宽，即15-16 GBps。这显然是不够的。然而，如果能事先一次性将数据Load到GPU本地，运行本地的GooseFS，释放本地SSD的带宽，那么GooseFS可以达到TB级的带宽，能够充分满足GPU本地训练框架的性能要求。整体的训练加速比可以提升数十倍。此外，除了GooseFS层面的加速，如果需要的话，还可以进行AZ级服务端加速，进一步提升整个训练过程的效率。

Step.3

揭秘腾讯云存储针对AIGC大模型业务的应对之道

第三步就是推理了。在推理阶段，腾讯云已经走得比较快，开始考虑商业化或产品化的封装，这一步非常重要。腾讯云提供了一套内容审核方案，整个流程相对简单易懂。用户首先在AIGC产品客户端输入一个要执行的任务，但是用户输入的文字需要经过审核，因为有些描述可能不合规范。因此，腾讯云先进行审核，检查用户输入的内容是否有问题。如果没有问题，数据就会传递到模型大脑这一层。模型大脑根据输入进行分析和理解，并指导用户获取他们想要的结果。然后，在第③步中，产出的结果会再次发送到腾讯云内容审核的服务端进行审核。一旦审核通过，结果将在第④步和第⑤步之后再次返回给用户。

崔剑介绍，腾讯云存储数据万象产品提供了数据处理和数据审核服务，已经成功运营多年。在审核能力和精准度方面，腾讯云在行业内处于领先地位。

Step.4

揭秘腾讯云存储针对AIGC大模型业务的应对之道

最后就是结果的管理了。在最后一步中，推理产物的使用者可能是个人，也可能是一家公司。对于后者，可能需要涉及到下游流程。根据业务需求，公司通过接口请求获取推理产物，并需要进行管理。这个产物可能会作为知识库的一部分存储在公司内部，也可能需要在公司内部进行分发或汇总。为了解决这个问题，腾讯云存储团队提供了企业网盘作为最终闭环的解决方案。企业网盘是一种常见的SaaS办公软件，可以提供文件多人协作、一对多、多对多、多对一的文件分发和共享功能，同时支持移动办公。

在上面的四个部分，比较触动俺西瓜哥的其实是第一步。因为我知道，数据的收集和整理是最难的，也是工作量最大的。腾讯云能够提供很多自动化的数据迁移和标注工具，这个对用户的帮助是真的很大。俗话说，数据管理汇-存-算-管-用，汇是第一步。腾讯云的AIGC解决方案也覆盖了所有的这些标准动作，形成了闭环。

除了在AIGC产品中提供闭环解决方案外，腾讯云存储还在底层不断升级引擎，降低成本、提高性能和可靠性。在产品能力方面，腾讯云存储拥有三个核心产品。首先是公有云存储COS，其次是私有云存储TStor，该产品将存储技术集成到一体机中，可供企业进行线下部署。最后是智能存储的核心产品数据万象CI，它可以帮助用户处理存储在云上的数据，例如为图片打水印、进行转码和审核等智能存储功能。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

腾讯云存储团队孵化了许多PaaS和SaaS级存储产品，包括数据湖存储GooseFS、企业网盘和视图计算等。这些产品旨在满足不同行业和使用场景的需求。

腾讯云存储团队与腾讯云的各个行业团队紧密合作，为各个行业提供定制的解决方案，以满足其特定需求。不论您所在的行业是哪个，腾讯云存储团队都致力于提供优质的服务。

揭秘腾讯云存储针对AIGC大模型业务的应对之道

根据崔剑老师的介绍，我们了解到腾讯云存储针对AIGC的解决方案主要包括以下几个方面：

-在数据集的下载和预处理阶段，提供 MSP 数据迁移平台，帮助用户快速将标注好的数据迁移到云上对象存储桶。

- 在大模型训练阶段，提供 GooseFS 分布式文件系统，利用 GPU 本地的 SSD 资源，加速数据的拉取和缓存，提高 GPU 算力利用率，实现训练加速。

- 在推理阶段，提供数据万象的内容审核服务，对用户输入和推理产物进行质量把控，防止涉政、涉黄、涉恐等问题。

- 在推理产物管理阶段，提供企业网盘服务，支持文件多人协作、共享、分发和移动办公，帮助用户管理和利用推理产物。

西瓜哥的简单解读就到这里了，我们看到，腾讯云存储团队为 AIGC 领域提供了一套全面、高效、智能的解决方案，从数据集的下载和预处理，到大模型训练，再到推理和推理产物管理，展现了强大的技术实力和创新能力。这些解决方案不仅降低了用户的成本和时间，提高了用户的效率和质量，还为用户带来了更多的可能性和价值。

后台-插件-广告管理-内容页尾部广告（手机）

标签：

上一篇：AIGC全方位解析

下一篇：返回列表

人工智能物联网_17aiot.com

揭秘腾讯云存储针对AIGC大模型业务的应对之道

评论留言

我要留言

揭秘腾讯云存储针对AIGC大模型业务的应对之道

相关推荐

评论留言

我要留言