英特爾發布Project Battlematrix(戰斗陣列)推理工作站軟件更新,英特并計劃在第三季度末發布功能更全面的推理強化版LLM Scaler。
今年5月,工作英特爾發布了代號為Project Battlematrix(戰斗陣列)的站軟推理工作站。推理工作站具有廣闊的英特發展前景,主要表現在:一是推理安全部署,數據可在本地進行處理;二是工作易于設置,將所有軟件置于容器中,站軟提供一站式解決方案;三是英特易擴展,可靈活配置不同數量的推理顯卡;四是在成本效益上具有顯著優勢。Project Battlematrix推理工作站最多可支持八塊英特爾銳炫 Pro B60 24GB GPU,工作提供高達192GB的站軟VRAM,運行高達1500億參數的英特中等規模且精度高的AI模型。
英特爾采用容器化方案來幫助客戶解決軟件部署的復雜性問題。在容器內部,工作對大語言模型進行了大量的優化,包括Linux軟件棧的支持、驗證以及分階段的軟件發布。基于全新的推理優化軟件棧,Project Battlematrix還能夠簡化英特爾銳炫Pro B系列GPU的部署,加速英特爾GPU和AI戰略的落實。
全新的軟件棧在設計時充分考慮了易用性和行業標準,是專為Linux環境構建的容器化解決方案。經過優化,該方案能夠借助多GPU擴展和PCIe P2P數據傳輸,帶來卓越的推理性能。與此同時,該方案還具備企業級的可靠性和可管理性,如ECC、SRIOV、遙測和遠程固件更新等。
LLM Scaler容器1.0版本對于前期客戶支持至關重要,英特爾進行了以下更新:
vLLM:
·針對長輸入長度(>4K)的TPOP性能優化:在32B KPI模型上,40K序列長度的性能提升高達1.8倍;在70B KPI模型上,40K序列長度的性能提升高達4.2倍
·與上一版本相比,8B-32B KPI模型的輸出吞吐量性能優化約10%
·逐層在線量化,減少所需的GPU內存
·支持vLLM中的PP(流水線并行)(實驗性)
·支持torch.compile(實驗性)
·推測解碼(實驗性)
·支持嵌入和重排序模型
·增強的多模態模型支持
·最大長度自動檢測
·數據并行支持
OneCCL基準測試工具支持
XPU Manager:
·GPU功耗
·GPU固件更新
·GPU診斷
·GPU內存帶寬
英特爾表示此版本將按照5月初發布時公開的時間表順利交付,并計劃在第三季度末發布功能更全面的強化版LLM Scaler,同時積極爭取在第四季度發布完整版本。