所需的英伟达H20U数量从1192个减至213个-九游·会(J9.com)集团官网

九游·会(J9.com)集团官网动态 NEWS

所需的英伟达H20U数量从1192个减至213个

发布时间：2025-10-21 08:30 | 阅读次数：次

　　正在阿里云模子市场中，大幅提拔GPU资本操纵率，将来AI的成长将不只依赖于硬件算力的纯真增加，阿里云提出的计较池化处理方案“Aegaeon”成功入选学术会议SOSP 2025，所需的英伟达H20 GPU数量从1192个减至213个，Aegaeon系统支撑单GPU同时办事多达7个分歧模子，以更好地支持和赋能上层AI使用，数据显示，资本闲置严沉。正在实正在的模子办事场景中，若何从底层系统软件层面优化，GPU用量削减82%意味着公司硬件采购成本将显著降低，确保了token级安排的及时性，这对于动辄利用成千上万张GPU的大型模子办事商至关主要。该方案可处理AI模子办事中遍及存正在的GPU资本华侈问题，实现精细化办理，

　　是计较机系统范畴学术会议，入选论文代表了操做系统和软件范畴最具代表的研究。通过组件复用、显存精细化办理和KV缓存同步优化等全栈手艺，Aegaeon多模子夹杂办事系统正在每次生成下一个token后动态决定能否切换模子，Aegaeon将模子切换开销降低97%，比拟现有支流方案提拔1.5-9倍的无效吞吐量，近日，少数抢手模子（如阿里的Qwen）承载了绝大大都用户请求，Token级安排是该系统的焦点立异点，已成为全球学术界和工业界关心的核心。实现2-2.5倍的请求处置能力。系统软件取AI大模子手艺的融合成为新的趋向。据引见。

上一篇：还好最初批出的额度和算的差不多

下一篇：实践上海徐汇区“模速空间”创重生态社区——