【科技快讯】在家训练LLM,成为自己的大数据中心

大数据
后台-插件-广告管理-内容页头部广告(手机)

#科技快讯# 最近我发现了两篇关于在家训练 LLM 的文章,觉得一起看更棒:

1. 构建家庭 GPU 集群:https://felix-red-panda.github.io/blog/home_gpu_cluster_diy/。这篇文章详细介绍了在家里构建 GPU 集群时需要考虑的各个方面,比如 PCIe 带宽、电力需求、电源选择、冷却需求、GPU 选择、内存需求、存储需求、软件配置以及通风和其他一些需要注意的事项。它不仅提供了实用的建议和技巧,而且帮助读者构建出高性能且可靠的家庭 GPU 服务器。就是为了助你在家训练 LLM,成为自己的大数据中心!

2. 现在你可以在家训练一个 70 亿参数的语言模型了:https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html。这是 Jeremy 和团队开发的一个开源系统,使用普通台式机上的两块 24 GB 游戏显卡就能高效地训练超大规模的语言模型。这个系统结合了 FSDP 和 QLoRA 两种技术,让大型模型能够分布在多个 GPU 上并行训练,而 QLoRA 技术则通过量化和低秩适配器(LoRA)的方式,减小模型尺寸以适应较小显存的 GPU。文章详细讲解了这两种技术的结合方式,以及他们在开发过程中遇到的各种挑战,还有其他一些优化手段的应用。这个系统将让训练大型 AI 模型的能力不再只限于那些拥有昂贵数据中心 GPU 的大公司和机构,而是赋予普通个人和小型实验室参与创建属于自己个性化模型的机会。

简而言之,一个帮你构建硬件环境,一个帮你解决软件环境,完美搭配!

另外,在读第二篇文章的时候,我发现了一个根据模型参数量(B)快速计算显存大小的方法:70B 参数,每个参数占用 2B(16bit),所以总共需要 140GB 的显存空间。就是说,模型参数量(B)乘以每个参数大小(字节)等于模型所需的显存大小(GB)。这个计算方式真是太实用了!

 
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。