币灵灵财经 2024-11-16 02:56 1419
TL;DR
通过Together和Gensyn.ai两个初创公司的案例,分别从技术优化和激励层设计的角度说明了去中心化的分布式算力网络整体的研究方向和具体思路。
1.整体训练流程
重复训练步骤:重复上述步骤,直到完成所有批次的训练,或者达到预定的训练轮数(epoch)。
需要注意的是,通信的瓶颈也是导致现在分布式算力网络做不了大语言模型训练的原因。
GPT-3模型有1750亿个参数,如果我们使用单精度浮点数(每个参数4字节)来表示这些参数,那存储这些参数就需要~700GB的内存。而在分布式训练中,这些参数需要在各个计算节点之间频繁地传输和更新。
OpenAI 训练 GPT-3 的过程中采用了一种叫Megatron的模型并行框架来解决通信开销的问题。Megatron 通过将模型的参数分割并在多个 GPU 之间并行处理,每个设备只负责存储和更新一部分参数,从而减少每个设备需要处理的参数量,降低通信开销。同时,训练时也采用了高速的互连网络,并通过优化网络拓扑结构来减少通信路径长度。
(Data used to train LLM models)ZK协议的复杂度:设计和实现一个适用于大模型训练的ZKP协议会非常复杂。这个协议需要能够处理大规模的数据和复杂的计算,并且需要能够处理可能出现的异常报错。
通信延迟:
Together是一家专注于大模型的开源,致力于去中心化的AI算力方案的公司,希望任何人在任何地方都能接触和使用AI。Together刚完成了Lux Capital领投的20m USD的种子轮融资。
Together由Chris、Percy、Ce联合创立,初衷是由于大模型训练需要大量高端的GPU集群和昂贵的支出,并且这些资源和模型训练的能力也集中在少数大公司。
Step1. 开源模型
Step2. 分布式算力在模型推理上落地
Step3. 分布式算力在模型训练上落地
(Overcoming Communication Bottlenecks for Decentralized Training的算力网络示意图)通信压缩优化
Together提出了对于前向激活和反向梯度进行通信压缩,引入了AQ-SGD算法,该算法提供了对随机梯度下降收敛的严格保证。AQ-SGD能够在慢速网络(比如500 Mbps)上微调大型基础模型,与在中心化算力网络(比如10 Gbps)无压缩情况下的端到端训练性能相比,只慢了31%。此外,AQ-SGD还可以与最先进的梯度压缩技术(比如QuantizedAdam)结合使用,实现10%的端到端速度提升。
项目总结
Together团队配置非常全面,成员都有非常强的学术背景,从大模型开发、云计算到硬件优化都有行业专家支撑。并且Together在路径规划上确实展现出了一种长期有耐心的架势,从研发开源大模型到测试闲置算力(比如mac)在分布式算力网络用语模型推理,再到分布式算力在大模型训练上的布局。— 有那种厚积薄发的感觉了:)
……
首先,算力网络中的solver通过bid的方式竞争处理user提交的任务的权利,并且根据任务的规模和被发现作弊的风险,solver需要抵押一定的金额。
验证
Solver在更新parameters的同时生成多个checkpoints(保证工作的透明性和可追溯性),并且会定期生成关于任务的密码学加密推理proofs(工作进度的证明);
Solver完成工作并产生了一部分计算结果时,协议会选择一个verifier,verifier也会质押一定金额(确保verifier诚实地执行验证),并且根据上述提供的proofs来决定需要验证哪一部分的计算结果。
通过基于Merkle tree的数据结构,定位到计算结果存在分歧的确切位置。整个验证的操作都会上链,作弊者会被扣除质押的金额。
项目总结
https://www.together.xyz/blog/neurips-2022-overcoming-communication-bottlenecks-for-decentralized-training-12
https://www.together.xyz/blog/redpajama
https://docs.gensyn.ai/litepaper/
https://www.nvidia.com/en-in/deep-learning-ai/solutions/large-language-models/
https://indiaai.gov.in/article/training-data-used-to-train-llm-models
热门文章
为华为手机提供摄像头模组?欧菲光董事长回应
萨尔瓦多比特币浮盈8300万美元!Tim Draper:将成最富裕国家之一
大模型独角兽“智谱 AI”正以200亿元估值进行新一轮融资,此前阿里腾讯等已投资25亿
跨境理财通2.0正式起航 个人投资者额度提高到300万元
9月8日涨停复盘:捷荣技术8天7板 华映科技7天6板
又一城缩减住宅限购范围!已有7个省会城市全面取消限购
Voyager赔偿用户需再等!清算计划修正版待法院批准才能分配代币
5.24 是多还是空 我们该如何抉择?
3年内禁止参加军队采购!奥维通信围标串标被罚 影响几何?
未来健康获罗斯柴尔德家族1亿美金投资,与国际NMN医药集团合作打造全球首创NMN期货产品