站長資訊網
最全最豐富的資訊網站

聯想陳振寬:異構智算 釋放AI基礎設施新動能

4月18日,以“AI for All,讓世界充滿AI”為主題的聯想創新科技大會(2024 Lenovo Tech World)在上海舉辦。

聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬以《異構智算 釋放AI基礎設施新動能》為主題進行了演講,分享聯想在AI基礎設施領域的戰略布局、核心能力與技術創新成果。

“在人工智能1.0時代,基于全球智慧和本地創新,聯想打造了全面的基礎設施產品組合,包括計算、存儲、網絡、邊緣和超融合,并在通用計算、科學計算和AI計算等不同算力領域獲得大量的最佳實踐,幫助千行百業的客戶取得成功。”陳振寬表示,如今大模型開啟的AI 2.0時代已經邁著大步朝我們走來,我們需要重塑過去積累的技術,來升級聯想基礎設施。

聯想陳振寬:異構智算 釋放AI基礎設施新動能

聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬

為解決用戶面臨的挑戰,聯想AI基礎設施將聚焦三大領域實現科技創新,即超強算力、核心算法和液冷創新,釋放AI基礎設施新動能。他介紹說,基于三大領域,聯想已經積累了八項核心能力,包括高性能、高可靠性以及液冷技術等。他重點分享了針對AI 2.0時代的五大創新技術,包括:算力匹配魔方、GPU內核態虛擬化、聯想集合通信算法庫、AI高效斷點續訓技術、AI與HPC集群超級調度器。

此外,陳振寬在大會上正式發布了聯想萬全異構智算平臺。“聯想萬全異構智算平臺是AI 2.0時代聯想中國基礎設施戰略框架的核心。”他說,作為聯想“全棧AI”戰略布局的中堅力量,聯想中國基礎設施業務正以“一橫五縱”戰略框架,通過構建布局完整、穩定高效的AI導向的基礎設施,為企業智能化轉型打造堅實可靠的智算底座。

聯想AI基礎設施聚焦三領域,應對AI 2.0時代的算力挑戰

過去40年,聯想積累了包括全球供應能力、全球研發能力以及全球生態能力的全球智慧,并引領了一個又一個的中國IT技術發展浪潮。在通用計算領域,聯想的x86服務器可靠性連續9年第一,截至2023年底已斬獲536項性能世界紀錄;在科學計算領域,聯想9次實現中國HPCTOP 100 NO.1,助力中國在科學計算、仿真、氣象等前沿領域的創新突破;聯想基于中國特色需求設計了完整AI基礎設施組合,助力中國客戶贏得AI 1.0時代的發展。

在AI 2.0時代,AI大模型具備超強的泛化、生成能力,促使人工智能進入更廣的應用場景和更深的業務流程中。陳振寬提到,在制造、金融、醫療、交通、能源、政府等各行業中,大模型在產品設計、金融評估、辦公輔助、自動駕駛、能源調配等方方面面,顛覆式地改變生產方式,極速促進生產效率。然而,陳振寬也認為,隨著AI 2.0時代對于AI算力的需求快速增加,算力使用者在使用AI基礎設施的時候正在面臨巨大的挑戰。

陳振寬進一步介紹了AI 2.0時代用戶在AI基礎設施領域面臨四大挑戰:

如何選擇和匹配算力是第一大挑戰。陳振寬指出,目前已經有五種以上主流算法框架和十種以上算子庫來支持不同的應用場景。同時,不同類型的GPU、服務器、存儲和網絡組成了上百種不同的集群配置。場景、算法和集群之間的選擇和驗證,不但技術繁雜而且周期長。

其次是如何減少故障中斷時間。陳振寬強調,目前千卡集群每月至少有15次的故障斷點。在常規的斷點續訓手段下,每次恢復訓練需要幾個小時,產生的額外費用超過百萬元。隨著AI集群規模從千卡到萬卡,故障中斷次數及恢復所需時間呈指數級增長。

第三大挑戰是如何改善AI算力利用率。陳振寬引用行業通用的指標MFU(模型算力利用率)來作闡述,他指出當前業內MFU普遍在30%左右,頂尖的集群利用率也只能做到50%。行業需要解決GPU卡利用率,集群通訊效率,AI故障恢復,算法匹配度等系統性問題。

第四大挑戰是如何突破散熱瓶頸,降低PUE。陳振寬指出,在算力升級帶來的能耗飆升的情況下,如何通過先進的散熱技術,突破芯片在系統中的散熱瓶頸,同時提升能效,降低數據中心PUE。

聯想陳振寬:異構智算 釋放AI基礎設施新動能

聯想AI基礎設施持續聚焦三大領域

為解決上述用戶面臨的挑戰,陳振寬強調,聯想AI基礎設施持續聚焦三大領域,實現科技創新。首先是超強算力,智能匹配:為用戶匹配經過驗證優化的最佳算力;其次是核心算法,極致提效:以核心算法挖掘算力潛力,提升計算效率。第三,液冷創新,算力綠化:以先進的液冷技術幫助用戶節能增效,并突破芯片散熱的瓶頸。

公布五大技術創新,首發萬全異構智算平臺

“聯想在這三大領域里面長期耕耘,積累了八項核心能力。”陳振寬重點介紹了聯想為AI 2.0時代帶來的五大技術創新:

第一,用戶智能匹配算力的算力匹配魔方。基于海量的硬件評測和AI算子算法集成工作,聯想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。用戶只需輸入場景和數據,算力魔方即可自動加載最優算法,并調度最佳集群配置。

聯想陳振寬:異構智算 釋放AI基礎設施新動能

陳振寬介紹聯想五大技術創新

第二,逼近GPU算力極限的GPU內核態虛擬化。聯想研究院開發了在GPU驅動層的內核態虛擬化算法,新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。

第三,提升網絡通信效率的聯想集合通信算法庫??蓪崿F對多類型網絡拓撲的實時感知,并以先進算法使數據在拓撲中以最佳路徑進行傳輸。以千卡規模集群為例,采用集成了聯想集合通信庫的聯想異構智算平臺做管理調度,可使網絡通信效率提升超10%,并且集群規模越大,效果越顯著。

第四,減少AI訓練中斷時間的AI高效斷點續訓技術。聯想異構智算平臺對大量的AI訓練故障進行了特征采樣,開發了預測AI訓練故障的AI模型,實現“用AI來預測AI”。在斷點前提前優化備份,由此能將斷點續訓恢復時間縮減到分鐘級,大幅提升了訓練效率,以千卡集群為例,每月可節約上百萬元算力費用支出,讓寶貴的AI算力持續可用。

第五,AI與HPC集群超級調度器。這是針對混合集群做資源共享的前沿技術。聯想AI與HPC超級調度器架構于AI和HPC調度之上,能夠切換AI和HPC的調度溝通,能全局監控任務和動態共享資源,使得用戶可以充分利用基礎設施的每一分算力。

除了公布以上五大技術創新,陳振寬還在大會上正式發布了“聯想萬全異構智算平臺”。他表示,聯想萬全異構智算平臺是AI 2.0時代聯想中國基礎設施戰略框架的核心,它融合了聯想的五大技術創新,是AI 2.0時代大模型訓練和推理的基礎設施底座。

對于未來的研究方向,陳振寬透露,聯想將挑戰超過萬卡規模集群的通訊算法優化,挑戰秒級的斷點續訓,深入研究相變式液冷技術,布局模塊化液冷數據中心。這些技術幫助AI算力朝著更強大、更穩定、更高效和更綠色的方向,高質量發展。

“人工智能技術給我們帶來的新時代是百花齊放,百舸爭流的時代,也將是英雄輩出的時代。”陳振寬表示,聯想將持續投入,堅持創新,持續升級萬全之力,為英雄助力,成就英雄。加速中國智能化轉型,釋放社會進步新動能。

延伸閱讀:

  • 本文素材來自互聯網,如有侵權,請聯系將及時刪除!
贊(0)
分享到: 更多 (0)
網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
精品香蕉一区二区三区| 久久亚洲精品成人777大小说| 日韩乱码人妻无码中文字幕视频| 一色屋成人免费精品网站| 999精品久久久中文字幕蜜桃| 九九精品免视看国产成人| 久久99精品国产麻豆婷婷| 精品一区二区三区AV天堂| 一区二区日韩国产精品| 国产精品自在在线午夜出白浆| 2021最新国产精品网站 | 无码国产精品久久一区免费| 精品国产福利一区二区| 2022国产精品手机在线观看| 日韩精品专区AV无码| 久久精品99久久香蕉国产| 国产国拍亚洲精品mv在线观看| 中文字幕在线精品视频入口一区| 久久久久国产日韩精品网站| 精品成人av一区二区三区| 国产精品.XX视频.XXTV| 亚洲精品老司机在线观看| 亚洲国产成人精品91久久久| 成人国产精品一区二区网站| 日本精品自产拍在线观看中文| 日韩免费无砖专区2020狼| 日韩a级毛片免费观看| 青青草99热这里都是精品| 午夜国产精品无套| 亚洲一区无码精品色| 国产成人AV无码精品| 久久99热这里只有精品国产| 国产三级精品三级在专区| 久久精品?ⅴ无码中文字幕| 久久er国产精品免费观看8| 在线中文字幕精品第5页| 国内精品伊人久久久久AV影院| 国产在线不卡午夜精品2021| 国产精品国产三级国产普通话| 亚洲AV无码国产精品麻豆天美| 久热综合在线亚洲精品|