理性看待去中心化算力网络

币灵灵财经 2024-11-16 02:56 1419

TL;DR

通过Together和Gensyn.ai两个初创公司的案例，分别从技术优化和激励层设计的角度说明了去中心化的分布式算力网络整体的研究方向和具体思路。

一、分布式算力—大模型训练

理性看待去中心化算力网络

(NVIDIA NeMo Megatron Framework）

1.整体训练流程

重复训练步骤：重复上述步骤，直到完成所有批次的训练，或者达到预定的训练轮数（epoch）。

2.通信开销的瓶颈：

需要注意的是，通信的瓶颈也是导致现在分布式算力网络做不了大语言模型训练的原因。

GPT-3模型有1750亿个参数，如果我们使用单精度浮点数（每个参数4字节）来表示这些参数，那存储这些参数就需要～700GB的内存。而在分布式训练中，这些参数需要在各个计算节点之间频繁地传输和更新。

OpenAI 训练 GPT-3 的过程中采用了一种叫Megatron的模型并行框架来解决通信开销的问题。Megatron 通过将模型的参数分割并在多个 GPU 之间并行处理，每个设备只负责存储和更新一部分参数，从而减少每个设备需要处理的参数量，降低通信开销。同时，训练时也采用了高速的互连网络，并通过优化网络拓扑结构来减少通信路径长度。

理性看待去中心化算力网络

（Data used to train LLM models）

3.为什么分布式算力网络不能做这些优化

4.数据安全和隐私的挑战

ZK协议的复杂度：设计和实现一个适用于大模型训练的ZKP协议会非常复杂。这个协议需要能够处理大规模的数据和复杂的计算，并且需要能够处理可能出现的异常报错。

二、分布式算力—模型推理

理性看待去中心化算力网络

(Power LLM inference with NVIDIA Triton)

1.挑战

通信延迟：

2.可行性

三、项目

1.Together

理性看待去中心化算力网络

（RedPajama from Together）

Together是一家专注于大模型的开源，致力于去中心化的AI算力方案的公司，希望任何人在任何地方都能接触和使用AI。Together刚完成了Lux Capital领投的20m USD的种子轮融资。

Together由Chris、Percy、Ce联合创立，初衷是由于大模型训练需要大量高端的GPU集群和昂贵的支出，并且这些资源和模型训练的能力也集中在少数大公司。

Step1. 开源模型

Step2. 分布式算力在模型推理上落地

Step3. 分布式算力在模型训练上落地

理性看待去中心化算力网络

（Overcoming Communication Bottlenecks for Decentralized Training的算力网络示意图）

通信压缩优化

Together提出了对于前向激活和反向梯度进行通信压缩，引入了AQ-SGD算法，该算法提供了对随机梯度下降收敛的严格保证。AQ-SGD能够在慢速网络（比如500 Mbps）上微调大型基础模型，与在中心化算力网络（比如10 Gbps）无压缩情况下的端到端训练性能相比，只慢了31%。此外，AQ-SGD还可以与最先进的梯度压缩技术（比如QuantizedAdam）结合使用，实现10%的端到端速度提升。

项目总结

Together团队配置非常全面，成员都有非常强的学术背景，从大模型开发、云计算到硬件优化都有行业专家支撑。并且Together在路径规划上确实展现出了一种长期有耐心的架势，从研发开源大模型到测试闲置算力（比如mac）在分布式算力网络用语模型推理，再到分布式算力在大模型训练上的布局。— 有那种厚积薄发的感觉了:)