4月18日,以“AI for All,讓世界充滿AI”為主題的聯想創新科技大會(2024 Lenovo Tech World)在上海舉辦。
聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬以《異構智算 釋放AI基礎設施新動能》為主題進行了演講,分享聯想在AI基礎設施領域的戰略布局、核心能力與技術創新成果。
“在人工智能1.0時代,基于全球智慧和本地創新,聯想打造了全面的基礎設施產品組合,包括計算、存儲、網絡、邊緣和超融合,并在通用計算、科學計算和AI計算等不同算力領域獲得大量的最佳實踐,幫助千行百業的客戶取得成功。”陳振寬表示,如今大模型開啟的AI 2.0時代已經邁著大步朝我們走來,我們需要重塑過去積累的技術,來升級聯想基礎設施。
聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬
為解決用戶面臨的挑戰,聯想AI基礎設施將聚焦三大領域實現科技創新,即超強算力、核心算法和液冷創新,釋放AI基礎設施新動能。他介紹說,基于三大領域,聯想已經積累了八項核心能力,包括高性能、高可靠性以及液冷技術等。他重點分享了針對AI 2.0時代的五大創新技術,包括:算力匹配魔方、GPU內核態虛擬化、聯想集合通信算法庫、AI高效斷點續訓技術、AI與HPC集群超級調度器。
此外,陳振寬在大會上正式發布了聯想萬全異構智算平臺。“聯想萬全異構智算平臺是AI 2.0時代聯想中國基礎設施戰略框架的核心。”他說,作為聯想“全棧AI”戰略布局的中堅力量,聯想中國基礎設施業務正以“一橫五縱”戰略框架,通過構建布局完整、穩定高效的AI導向的基礎設施,為企業智能化轉型打造堅實可靠的智算底座。
聯想AI基礎設施聚焦三領域,應對AI 2.0時代的算力挑戰
過去40年,聯想積累了包括全球供應能力、全球研發能力以及全球生態能力的全球智慧,并引領了一個又一個的中國IT技術發展浪潮。在通用計算領域,聯想的x86服務器可靠性連續9年第一,截至2023年底已斬獲536項性能世界紀錄;在科學計算領域,聯想9次實現中國HPCTOP 100 NO.1,助力中國在科學計算、仿真、氣象等前沿領域的創新突破;聯想基于中國特色需求設計了完整AI基礎設施組合,助力中國客戶贏得AI 1.0時代的發展。
在AI 2.0時代,AI大模型具備超強的泛化、生成能力,促使人工智能進入更廣的應用場景和更深的業務流程中。陳振寬提到,在制造、金融、醫療、交通、能源、政府等各行業中,大模型在產品設計、金融評估、辦公輔助、自動駕駛、能源調配等方方面面,顛覆式地改變生產方式,極速促進生產效率。然而,陳振寬也認為,隨著AI 2.0時代對于AI算力的需求快速增加,算力使用者在使用AI基礎設施的時候正在面臨巨大的挑戰。
陳振寬進一步介紹了AI 2.0時代用戶在AI基礎設施領域面臨四大挑戰:
如何選擇和匹配算力是第一大挑戰。陳振寬指出,目前已經有五種以上主流算法框架和十種以上算子庫來支持不同的應用場景。同時,不同類型的GPU、服務器、存儲和網絡組成了上百種不同的集群配置。場景、算法和集群之間的選擇和驗證,不但技術繁雜而且周期長。
其次是如何減少故障中斷時間。陳振寬強調,目前千卡集群每月至少有15次的故障斷點。在常規的斷點續訓手段下,每次恢復訓練需要幾個小時,產生的額外費用超過百萬元。隨著AI集群規模從千卡到萬卡,故障中斷次數及恢復所需時間呈指數級增長。
第三大挑戰是如何改善AI算力利用率。陳振寬引用行業通用的指標MFU(模型算力利用率)來作闡述,他指出當前業內MFU普遍在30%左右,頂尖的集群利用率也只能做到50%。行業需要解決GPU卡利用率,集群通訊效率,AI故障恢復,算法匹配度等系統性問題。
第四大挑戰是如何突破散熱瓶頸,降低PUE。陳振寬指出,在算力升級帶來的能耗飆升的情況下,如何通過先進的散熱技術,突破芯片在系統中的散熱瓶頸,同時提升能效,降低數據中心PUE。
聯想AI基礎設施持續聚焦三大領域
為解決上述用戶面臨的挑戰,陳振寬強調,聯想AI基礎設施持續聚焦三大領域,實現科技創新。首先是超強算力,智能匹配:為用戶匹配經過驗證優化的最佳算力;其次是核心算法,極致提效:以核心算法挖掘算力潛力,提升計算效率。第三,液冷創新,算力綠化:以先進的液冷技術幫助用戶節能增效,并突破芯片散熱的瓶頸。
公布五大技術創新,首發萬全異構智算平臺
“聯想在這三大領域里面長期耕耘,積累了八項核心能力。”陳振寬重點介紹了聯想為AI 2.0時代帶來的五大技術創新:
第一,用戶智能匹配算力的算力匹配魔方。基于海量的硬件評測和AI算子算法集成工作,聯想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。用戶只需輸入場景和數據,算力魔方即可自動加載最優算法,并調度最佳集群配置。
陳振寬介紹聯想五大技術創新
第二,逼近GPU算力極限的GPU內核態虛擬化。聯想研究院開發了在GPU驅動層的內核態虛擬化算法,新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。
第三,提升網絡通信效率的聯想集合通信算法庫??蓪崿F對多類型網絡拓撲的實時感知,并以先進算法使數據在拓撲中以最佳路徑進行傳輸。以千卡規模集群為例,采用集成了聯想集合通信庫的聯想異構智算平臺做管理調度,可使網絡通信效率提升超10%,并且集群規模越大,效果越顯著。
第四,減少AI訓練中斷時間的AI高效斷點續訓技術。聯想異構智算平臺對大量的AI訓練故障進行了特征采樣,開發了預測AI訓練故障的AI模型,實現“用AI來預測AI”。在斷點前提前優化備份,由此能將斷點續訓恢復時間縮減到分鐘級,大幅提升了訓練效率,以千卡集群為例,每月可節約上百萬元算力費用支出,讓寶貴的AI算力持續可用。
第五,AI與HPC集群超級調度器。這是針對混合集群做資源共享的前沿技術。聯想AI與HPC超級調度器架構于AI和HPC調度之上,能夠切換AI和HPC的調度溝通,能全局監控任務和動態共享資源,使得用戶可以充分利用基礎設施的每一分算力。
除了公布以上五大技術創新,陳振寬還在大會上正式發布了“聯想萬全異構智算平臺”。他表示,聯想萬全異構智算平臺是AI 2.0時代聯想中國基礎設施戰略框架的核心,它融合了聯想的五大技術創新,是AI 2.0時代大模型訓練和推理的基礎設施底座。
對于未來的研究方向,陳振寬透露,聯想將挑戰超過萬卡規模集群的通訊算法優化,挑戰秒級的斷點續訓,深入研究相變式液冷技術,布局模塊化液冷數據中心。這些技術幫助AI算力朝著更強大、更穩定、更高效和更綠色的方向,高質量發展。
“人工智能技術給我們帶來的新時代是百花齊放,百舸爭流的時代,也將是英雄輩出的時代。”陳振寬表示,聯想將持續投入,堅持創新,持續升級萬全之力,為英雄助力,成就英雄。加速中國智能化轉型,釋放社會進步新動能。