阿里云推出全新AI計(jì)算解決方案：大模型所需GPU狂降82%！

2025-10-22 14:12:56來源：快科技閱讀量：3262 評(píng)論

　　10月21日消息，在近日于韓國(guó)首爾舉辦的頂級(jí)學(xué)術(shù)會(huì)議SOSP 2025（操作系統(tǒng)原理研討會(huì)）上，阿里云發(fā)布了其“Aegaeon”計(jì)算池化解決方案。

　　Aegaeon方案的核心在于解決AI模型服務(wù)中普遍存在的GPU資源浪費(fèi)問題，尤其針對(duì)那些需求突發(fā)或不可預(yù)測(cè)的大型語言模型。

　　它打破了傳統(tǒng)的“一個(gè)模型綁定一個(gè)GPU”的低效模式，而是在Token級(jí)別虛擬化GPU訪問，這意味著單個(gè)GPU可以被多個(gè)不同模型共享服務(wù)，實(shí)現(xiàn)精細(xì)化的資源調(diào)度。

　　阿里云Aegaeon系統(tǒng)作為一種推理時(shí)間調(diào)度器，它能在每次生成下一個(gè)token后，動(dòng)態(tài)決定是否切換模型，從而將微小的工作片段安排到共享池中。

　　通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù)，Aegaeon將模型切換開銷降低了97%，確保了token級(jí)調(diào)度的實(shí)時(shí)性，可支持亞秒級(jí)的模型切換響應(yīng)。

　　在阿里云模型市場(chǎng)為期超三個(gè)月的Beta測(cè)試中，Aegaeon系統(tǒng)在服務(wù)數(shù)十個(gè)參數(shù)量高達(dá)720億的大模型時(shí)，所需的NVIDIA H20 GPU數(shù)量從1192個(gè)銳減至213個(gè)，削減比例高達(dá)82%。

　　GPU用量的大幅削減，對(duì)于硬件采購成本高昂的大型模型服務(wù)商而言，意味著成本將顯著降低。

　　目前，這項(xiàng)核心技術(shù)已成功應(yīng)用在阿里云百煉平臺(tái)。

上一篇：DNE 佛山基地迎土耳其VIP團(tuán) 共拓合作新局

下一篇：匠心守護(hù)“玻璃心臟” 佳星玻璃維修班長(zhǎng)李野的熱與愛

版權(quán)與免責(zé)聲明：1.凡本網(wǎng)注明“來源：興旺寶裝備總站”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-興旺寶合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：興旺寶裝備總站”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源（非興旺寶裝備總站）的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí)，必須保留本網(wǎng)注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。 3.如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

我來評(píng)論

昵稱驗(yàn)證碼匿名