币灵灵财经
首页 > 币圈新闻 > 文章正文

理性看待去中心化算力网络

币灵灵财经 2024-11-16 02:56 1419

TL;DR

通过Together和Gensyn.ai两个初创公司的案例,分别从技术优化和激励层设计的角度说明了去中心化的分布式算力网络整体的研究方向和具体思路。

一、分布式算力—大模型训练

理性看待去中心化算力网络

(NVIDIA NeMo Megatron Framework)

1.整体训练流程

重复训练步骤:重复上述步骤,直到完成所有批次的训练,或者达到预定的训练轮数(epoch)。

2.通信开销的瓶颈:

需要注意的是,通信的瓶颈也是导致现在分布式算力网络做不了大语言模型训练的原因。

GPT-3模型有1750亿个参数,如果我们使用单精度浮点数(每个参数4字节)来表示这些参数,那存储这些参数就需要~700GB的内存。而在分布式训练中,这些参数需要在各个计算节点之间频繁地传输和更新。

OpenAI 训练 GPT-3 的过程中采用了一种叫Megatron的模型并行框架来解决通信开销的问题。Megatron 通过将模型的参数分割并在多个 GPU 之间并行处理,每个设备只负责存储和更新一部分参数,从而减少每个设备需要处理的参数量,降低通信开销。同时,训练时也采用了高速的互连网络,并通过优化网络拓扑结构来减少通信路径长度。

理性看待去中心化算力网络

(Data used to train LLM models)

3.为什么分布式算力网络不能做这些优化

4.数据安全和隐私的挑战

ZK协议的复杂度:设计和实现一个适用于大模型训练的ZKP协议会非常复杂。这个协议需要能够处理大规模的数据和复杂的计算,并且需要能够处理可能出现的异常报错。

二、分布式算力—模型推理

理性看待去中心化算力网络

(Power LLM inference with NVIDIA Triton)

1.挑战

通信延迟:

2.可行性

三、项目

1.Together

理性看待去中心化算力网络

(RedPajama from Together)

Together是一家专注于大模型的开源,致力于去中心化的AI算力方案的公司,希望任何人在任何地方都能接触和使用AI。Together刚完成了Lux Capital领投的20m USD的种子轮融资。

Together由Chris、Percy、Ce联合创立,初衷是由于大模型训练需要大量高端的GPU集群和昂贵的支出,并且这些资源和模型训练的能力也集中在少数大公司。

Step1. 开源模型

Step2. 分布式算力在模型推理上落地

Step3. 分布式算力在模型训练上落地

理性看待去中心化算力网络

(Overcoming Communication Bottlenecks for Decentralized Training的算力网络示意图)

通信压缩优化

Together提出了对于前向激活和反向梯度进行通信压缩,引入了AQ-SGD算法,该算法提供了对随机梯度下降收敛的严格保证。AQ-SGD能够在慢速网络(比如500 Mbps)上微调大型基础模型,与在中心化算力网络(比如10 Gbps)无压缩情况下的端到端训练性能相比,只慢了31%。此外,AQ-SGD还可以与最先进的梯度压缩技术(比如QuantizedAdam)结合使用,实现10%的端到端速度提升。

项目总结

Together团队配置非常全面,成员都有非常强的学术背景,从大模型开发、云计算到硬件优化都有行业专家支撑。并且Together在路径规划上确实展现出了一种长期有耐心的架势,从研发开源大模型到测试闲置算力(比如mac)在分布式算力网络用语模型推理,再到分布式算力在大模型训练上的布局。— 有那种厚积薄发的感觉了:)

2.Gensyn.ai

理性看待去中心化算力网络

(Gensyn.ai)

……

首先,算力网络中的solver通过bid的方式竞争处理user提交的任务的权利,并且根据任务的规模和被发现作弊的风险,solver需要抵押一定的金额。

验证

Solver在更新parameters的同时生成多个checkpoints(保证工作的透明性和可追溯性),并且会定期生成关于任务的密码学加密推理proofs(工作进度的证明);

Solver完成工作并产生了一部分计算结果时,协议会选择一个verifier,verifier也会质押一定金额(确保verifier诚实地执行验证),并且根据上述提供的proofs来决定需要验证哪一部分的计算结果。

通过基于Merkle tree的数据结构,定位到计算结果存在分歧的确切位置。整个验证的操作都会上链,作弊者会被扣除质押的金额。

项目总结

四、对未来的一点思考

https://www.together.xyz/blog/neurips-2022-overcoming-communication-bottlenecks-for-decentralized-training-12

https://www.together.xyz/blog/redpajama

https://docs.gensyn.ai/litepaper/

https://www.nvidia.com/en-in/deep-learning-ai/solutions/large-language-models/

https://indiaai.gov.in/article/training-data-used-to-train-llm-models