當前,智慧算力需求倍增,千卡計算集群成為大模型訓練標配,巨量參數、海量數據是人工智慧大模型研發的必經之路。以ChatGPT為代表的多模態AI大模型成為人工智慧邁向通用智慧的里程碑技術,2018年—2024年OpenAI公司先後發佈GPT-3.5、GPT-4、Sora等大模型,參數規模突破萬億,模型訓練數據量達TB級別,應用場景覆蓋文生文、文生圖、文生視頻等多模態計算任務。參數規模在百億到千億區間、訓練數據TB級別以上,已成為研發具備涌現能力大模型的必備條件。
2003年—2023年20年間智慧算力需求增長百億倍,遠超摩爾定律提升速度。以ChatGPT為代表的人工智慧大模型突破性進展激發全球智慧計算發展熱潮,大模型算力需求遠超半導體增長速度,算力需求增長與芯片性能增長之間逐漸不匹配。根據公開數據測算,以AlexNet為代表的傳統卷積神經網絡模型訓練計算量以5~7個月翻倍增長,當前基於Transformer的大模型計算量以4~5個月翻倍增長;然而芯片側,CPU依舊延續摩爾定律以兩年性能翻倍的速度發展,GPU芯片通過架構創新持續強化並行計算能力,實現十年千倍增長速度(int8算力)。現階段,業界通過算力堆疊以及芯片、軟體、互聯等協同技術系統性能提升以滿足大模型智慧算力激增要求,千卡算力芯片構建的集群成為千億參數大模型訓練的標配。
芯片、軟體、互聯等技術創新是算力提升關鍵
多維度架構創新實現芯片性能倍增。與通用計算芯片不同,智慧計算芯片微架構創新對其算力提升影響超過工藝製程。英偉達重視GPU微架構創新,2010年以來已累計實現9次架構升級,結合工藝升級實現了十年千倍的性能提升。最新Blackwell GPU架構內置第二代Transformer引擎和專用RAS安全引擎,全面提升計算效率和部署穩定性。第二代Transformer引擎支持微張量縮放和動態範圍管理算法,擴展支持新型FP6、FP4精度計算,實現自動調整精度以達到芯片最優算力性能;RAS引擎基於人工智慧的預防性維護技術完成芯片運行狀態的診斷,最大化延長系統運行時間和降低運營成本。
深度學習框架和軟體棧間接口高效適配成為芯片好用的關鍵。深度學習框架在支撐應用開發的同時,需要完成與底層芯片軟體棧的高效適配。開發框架方面,提供分佈式調度、訪存優化、模型並行、數據並行等開發能力,支持分佈式大模型高性能訓練與推理已成為框架高效應用的關鍵。PyTorch採用類Python語法降低使用門檻,動態計算圖設計思路便於靈活調試,加快模型的訓練和優化過程,是當前算法應用開發的主力産品。軟體棧方面,重點強化大模型加速庫能力建設,通過向用戶提供易用、高效的芯片編程接口,提高開發人員的工作效率,目前已推出針對深度學習計算、優化模型推理和加速科學計算、圖形計算的專用加速庫,滿足多樣化智慧計算需求。
高速互聯是大規模算力集群構建的基礎。芯片間、服務器間、集群間的高速互聯、無損網絡能力建設,是支撐千卡、萬卡智慧算力集群計算需求的必備條件,英偉達新一代NVLink 5高帶寬互聯技術支持GPU間、GPU與Grace CPU直連,帶寬從H100的900Gb/s提升到1800Gb/s,與NVLink交換機聯合使用可最高支持576個GPU高速通信,是H100芯片最大直連數量的2倍,為支持萬億參數大模型訓練提供基礎。
巨頭蜂擁智慧計算賽道
寡頭壟斷與多體系並存
計算核心企業加快智慧計算産品端到端體系化佈局,搶佔産業生態主導權。英偉達鞏固GPU芯片性能優勢的同時,向CPU、服務器架構、雲平臺等下游滲透,借助B200、H100芯片和DGX SuperPOD計算集群主導地位開闢雲服務DGX Cloud,使企業能夠立即訪問生成式AI應用和訓練模型所需的基礎設施與軟體。AMD強化“CPU+GPU”雙芯片戰略佈局,CPU方面,通過改進分支預測、增加浮點支持指令等持續迭代升級芯片性能,GPU方面,發佈基於CDNA 3架構的人工智慧芯片MI300A和MI300X以搶佔大模型算力市場份額。英特爾圍繞高性能計算優勢領域,逐步向GPU、ASIC等面向人工智慧技術路線的産品體系佈局,推出Habana Gaudi 2、Xe GPU等産品。但從全球智慧計算芯片市場的規模來看,英偉達主導地位明顯,市場佔有率超80%,短期內領先的市場格局不會改變。
雲平臺及AI企業向底層芯片領域滲透,但僅少量自研芯片實際部署應用。谷歌、微軟、亞馬遜等雲廠商依託雲計算優勢向底層芯片領域滲透。谷歌自研張量處理器芯片TPU歷經五代迭代創新,于2023年8月發佈新一代定制TPU v5e用於大模型訓練和推理,目前已批量應用於自研LLaMA大模型訓練推理任務中。微軟于2023年11月發佈Maia 100和Cobalt 100芯片,Maia 100專為Azure雲生成式AI業務設計,提供自然語言處理、計算機視覺、推薦系統等計算服務,已在Bing和Office AI産品上完成測試;Cobalt 100是基於ARM架構的通用計算芯片,當前已為Microsoft Teams等應用提供支持;然而上述兩款芯片至今僅支持微軟自家雲服務,尚未向合作夥伴和客戶開放芯片産品供應。微軟自研推理芯片Inferentia和訓練芯片Trainium,2023年4月更新的Inferentia 2芯片進一步提升計算性能,通過多卡高速互聯可完成千億參數大模型推理任務。但從實際應用來看,國內外雲廠商僅在有限的特定算法場景中使用自研芯片,對外提供的穩定、可靠的高性能智慧算力服務均基於英偉達加速卡産品實現。
智慧計算生態軟硬深度綁定發展
計算企業均構建了與自研芯片相對應的端到端軟體棧。目前國內企業均構建了與自研芯片相對應的端到端軟體棧(含驅動層、編譯器、加速庫、工具鏈等),存在兼容英偉達CUDA生態和自研軟體棧等技術路線。一方面,英特爾、AMD等企業在工具鏈API接口協議等方面與CUDA對應一致,便於把CUDA程序快速遷移到自研GPU硬體平臺,降低芯片應用門檻,滿足不同應用開發及調試需求。另一方面,谷歌自研TPU芯片應用時,自研軟體棧編譯器等工具,針對特定算法應用進行優化,實現處理效率和性能的提升。
國內軟體生態豎井及碎片化發展,應用跨平臺遷移難度大、成本高。“框架+工具鏈+硬體”緊密耦合的長鏈條,端到端緊耦合、接口互不兼容,致使上層應用與特定系統鎖定,是形成繁多豎井生態的根本性因素。對於應用開發者而言,應用開發人員在使用多芯片異構算力進行AI算法實現過程中,不同廠家開發的框架應用程序接口、編程庫和操作系統尚不統一,DSA架構專用芯片編程範式和軟體棧互不兼容,需在OpenCL、OpenACC、OpenMP等多種模型範式間切換。開發框架、軟體棧豎井式的開發生態增加了應用開發人員的開發成本,應用企業為開發出能夠適配多種異構AI芯片算力的算法程序,需建立多支開發團隊、維護多個程序版本,成為業界運用異構算力的主要瓶頸。