<menu id="c4sau"></menu><xmp id="c4sau"><nav id="c4sau"></nav>
  • <menu id="c4sau"></menu><xmp id="c4sau"><nav id="c4sau"></nav>
    易商訊
    星緣文化
    當前位置: 首頁 » 經濟 » 金融 » 正文

    分享 | 昆侖芯研發總監周保玉:智能算力構筑產業數智基石

    放大字體  縮小字體 發布日期:2022-08-15 10:20:51
    導讀

    分享 | 昆侖芯研發總監周保玉:智能算力構筑產業數智基石

    近日,2022中國算力大會在山東省濟南市成功舉辦。大會上,中國通信標準化協會互聯網與應用委員會數據中心工作組共同承辦“智能凝聚新動力,算力開創新未來”分論壇。邀請中國信通院云計算與大數據研究所、新華三集團、昆侖芯科技、百度智能云等優秀產業界代表進行主題分享,共話智能新時代的算力未來。

    作為國內最早布局AI加速領域的芯片企業,昆侖芯科技具備先進工藝、成熟的量產能力、易用的軟件棧和完備的支持生態,在互聯網、智算中心、智能制造等場景已實現規模部署,成為助推千行百業智能化升級的“芯”力量。

    會上,昆侖芯科技研發總監周保玉結合昆侖芯產品的軟硬件架構和豐富落地場景,向與會嘉賓生動展示昆侖芯以強大AI算力賦能千行百業,幫助政府、企業加速產業智能化布局的最新成果和應用實踐。

    本篇以下內容整理于昆侖芯科技研發總監周保玉題為“昆侖芯AI芯片:智能算力構筑產業數智基石”演講實錄。

    昆侖芯科技研發總監周保玉

    大家好,非常榮幸借算力大會這個機會和大家分享昆侖芯在AI芯片領域的進展。

    今天我的演講分為四部分:

    昆侖芯科技公司介紹;

    昆侖芯AI芯片軟硬件架構;

    昆侖芯產品矩陣及特點;

    昆侖芯最新進展與應用案例。

    過去十多年是AI發展異常迅猛的十多年,大家可以感受到AI帶來的巨大沖擊和變化。最初,AI在互聯網、金融等具備數據場景的行業里有所應用。后來,在智慧城市、智慧交通,甚至科研領域等千行百業里,我們都能看到AI的落地應用??梢灶A見,未來幾年AI會有更大的發展,甚至是突破性發展,并向各行各業有更好地滲透。

    基于一些眾所周知的原因,這幾年我國整個算力體系發生了較大變化。從數據庫中間件到操作系統,從服務器整機到芯片,國內群雄并起,取得了比較大的成績。

    未來,AI算力一定是支撐國計民生的重要部分。AI芯片是非常有潛力且有必要發展國產化的領域。然而,目前AI芯片行業還處在比較早期的階段,需要我們站在更高的角度去看、也還有更多工作要做。正是在這樣的背景下,昆侖芯應運而生。

    昆侖芯科技公司介紹

    昆侖芯科技前身是百度智能芯片及架構部,是國內最早布局AI加速領域的團隊,深耕十余年,在體系結構、芯片實現、軟件系統和場景應用上均有深厚積累。

    從技術角度看,2017年,昆侖芯核心團隊就已經提出100%自研的、面向通用人工智能計算的核心架構——昆侖芯XPU,研究成果在Hot Chips和ISSCC等國際頂級學術大會上均有發表。目前,公司已經成功研發兩代芯片產品,均已實現扎實落地,是當前業界為數不多的實現大規模落地的云端AI芯片產品。

    上圖是昆侖芯科技的十年歷程,可以看到:

    2011年:啟動FPGA、開始投身AI加速器的研發;

    2015年:FPGA在百度內部部署超過5000片,2017年部署過萬片;

    2018年:正式啟動昆侖芯產品研發;

    2020年:昆侖芯1代AI芯片實現規模部署;

    2021年4月:完成獨立融資,更好地發展和服務于各個行業的客戶;

    2021年 :昆侖芯2代AI芯片實現量產,回片當天成功點亮,同年實現大規模部署。

    昆侖芯1代AI芯片制程為14nm,昆侖芯2代AI芯片為7nm,制程更加先進?;诶鲂?代和2代AI芯片,我們研發了多款AI加速卡,包括K100、K200和R200,以及R480-X8加速器。昆侖芯3代正在研發過程中,昆侖芯4代也已經布局,且均為更加先進的制程。

    昆侖芯AI芯片軟硬件架構

    昆侖芯2代AI芯片采用7nm先進工藝,FP16的算力是128TFLOPS,內存32G,內存帶寬512GB/s。整體功能完備,支持硬件虛擬化,具備芯片間互聯技術和視頻編解碼模塊的集成。

    相比于1代,昆侖芯2代整體上的通用計算能力得到顯著增強,2代搭載的架構是昆侖芯XPU-R,可以更好的支撐AI算法和演進,提升資源投入使用效率。

    另外,高性能分布式AI系統能夠加速AI數據并行和模型并行中的高速數據交換,后面就此展開。

    上圖是昆侖芯芯片架構昆侖芯XPU,它是繼通用GPU后的新一代計算架構,誕生于AI場景因此能夠滿足多樣的AI模型和場景需求,提供較好的性能和能耗效率,在結構上也較為易用。

    最大的計算單元分為CLUSTER和SDNN:CLUSTER是通用計算單元,支持標量和向量計算,具備良好的通用性和可編程性,在實際運用過程中開發者接觸更多;SDNN是AI芯片的核心,它定義了神經網絡引擎,主要做張量計算、卷積和矩陣乘等計算,大部分開發者不會直接進行操作。

    目前內存采用GDDR6,它是高速內存,在國內較少使用,我們是國內率先支持GDDR6的廠商之一。

    中間的Shared Memory是共享內存,它保證所有計算單元進行高并發、低延時的訪問。

    片間互聯提供200GB/s通信帶寬,可以提高大規模分布式訓練中的傳輸效率。

    PCIe支持第四代接口,可靈活搭配業界已上市AI服務器。

    上圖是昆侖芯軟件的整體架構,可以看到:

    中間標藍部分為SDK的核心,包含驅動運行時庫,還有硬件虛擬化的支撐。

    開發者套件編譯器、圖編譯引擎,這是做推理優化核心中的核心。

    高性能算子庫是各家比拼實力的重點,水平可能會相差幾倍甚至更高。

    上層是飛槳、PyTorch和TensorFlow通用框架,還有UNIX開源規范的支持。

    無論硬件設計還是軟件優化,昆侖芯的整體性能在一些組織的模型測試中都處于市場領先水平。

    昆侖芯2代產品矩陣及特點

    昆侖芯AI加速卡R200主要用于高性能推理和訓練,INT8算力為256TOPS,FP16算力為128TFLOPS,FP32算力為32TFLOPS。該卡性能相當于同價位GPU卡的1.5倍,在使用中具有較高優勢。R200的內存提供了兩個版本,分別為16G和32G,可以根據場景選擇合適的版本,整體的芯片算力是一樣的。

    昆侖芯AI加速卡R300是一個加速模塊,算力與R200相同,區別在于兩者適用不同的服務器。R200是PCIe插槽,主要用于大規模的集群訓練,因為在目前實際的部署過程中,絕大多數推理環境都是單卡,一般單卡就足夠,多機多卡主要是用來做訓練的。

    R480-X8加速器組主要用于推理和訓練,采用UBB服務器基板,片間互聯通信帶寬是200GB/s,每臺服務器可以提供1P的算力,并且可以提供多機多卡的訓練環境。

    在昆侖芯2代AI加速卡上還集成了一個編解碼子系統。在當前整個AI應用場景里,音視頻處理是非常重要的一部分。為什么要在芯片上集成這個編解碼模塊?它的核心邏輯是讓負載處理更加連貫、通信效率更高、內存使用效率更高。形象來講,昆侖芯2代實現了編解碼+AI一站式處理,數據不用在CPU和昆侖芯XPU上搬來搬去。這個性能提升非??捎^,在不同應用場景里會有不同表現,一般情況下效率可以提高十幾倍。

    昆侖芯硬件虛擬化的支持也是為了更好提升資源使用率,尤其是一些大規模部署的客戶。

    昆侖芯有幾個特性:

    性能隔離:每個VF獨占一個計算單元和訪存帶寬,免受其它VF的影響,避免出現性能波動;

    顯存隔離:每個VF占用顯存物理隔離,僅可以訪問授權地址空間,安全性更高;

    異常隔離:每個VF發生故障之后,其他實例不受異常影響,穩定性更高。

    上圖是一個示意圖。簡單來說,昆侖芯分布式的集群系統支持單機多卡和多機多卡。整體來講,是基于芯片間互聯技術構建分布式硬件集群系統,支持規?;姆植际紸I模型訓練,主要用于大規模訓練場景。比如你需要8個到64個,甚至更多的節點,一般都是采用R480-X8加速器組。

    對于單機互聯,單個節點上基于芯片間的互聯技術,實現昆侖芯XPU互聯,通信鏈接組成2個環路,提供200GB/s的雙向聚合帶寬。

    對于多機互聯,單機上每個芯片都是通過PCIe Switch連接網卡,每8個節點可以通過一個網絡設備連接組成一個SU組,每個SU組上可以含64個芯片,每32個可以組成一個POD集群,整個POD集群的全部芯片都可以通過網絡交換機實現多點完整互聯。這是當前昆侖芯已經實現的一些產品能力。

    應用案例

    目前,昆侖芯科技與智能產業中的上下游企業均建立了良好生態合作,通過向不同行業提供人工芯片為基礎的算力產品?;ヂ摼W之外,金融、能源、交通等行業中均有落地。

    這個案例是我們在互聯網搜索場景中的應用。在互聯網場景中,昆侖芯的部署量應該是當前最大的?;ヂ摼W業務對實時響應要求比較高,對整個系統大規模并發要求也是比較高的。我們在數據中心已經部署了數萬片,足以證明產品穩定性極高,并且TCO降低三分之一左右。

    AI算法方面,NLP為主,還有CV和語音的一些應用。

    智慧城市場景,視頻處理會多一點。昆侖芯能夠支持萬級別的攝像機的實時分析,對于特征數據的識別可以達到10億級別。剛才講的一些編解碼設計,在視頻處理中能夠得到很好的應用,尤其是高速視頻的編解碼。整體來說,它的算法模型、CV為主的模型比較多。昆侖芯目前支持的模型超過350個,包括一些基礎模型和變種。

    工業領域有一些圖像識別的要求,整體上對于算力、功耗、穩定性的要求較高。另外,傳統行業對TCO比較敏感,部署也非常復雜。具體到工業質檢,圖像應用、目標識別等應用較多。昆侖芯一方面幫助企業降低了TCO,另一方面實際應用效果對生產過程產生了促進作用。

    還有一個場景和算力大會的主題非常契合——智算中心的實踐。在當前國家大政策引導下,包括新基建和“東數西算”等大工程的啟動,以及AI的規?;?、集約化落地等,智算中心是其中一個非常重要的方向。在這些大規模場景應用過程中,昆侖芯也和合作伙伴一起構建了一些智算中心的方案。

    這是昆侖芯在宜昌落地應用的一個案例,主要包含了昆侖芯的算力中心、百度算力系統及視聯網系統,以及合作伙伴的物聯網網絡,構建起了一個完整的城市感知系統。

    在實際應用過程中,宜昌市的火災預警、水務、合作管理,一些攝像頭和能源監控,都是基于昆侖芯的算力中心。

    今天主要是給大家講一下昆侖芯的產品的進展和情況,以及一些案例分享,接下來大家如果感興趣,我們可以進行更多交流,謝謝大家!


     
    (文/小編)
    免責聲明
    本文分享 | 昆侖芯研發總監周保玉:智能算力構筑產業數智基石鏈接:http://www.cancelmytimeshare.net/jingji/29092.html 。本文僅代表作者個人觀點,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們esxun@qq.com,我們將在24小時內處理完畢。如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。
     

    Copyright ? 2017-2022 esxun.cn 呂梁優企匯網絡科技公司 ALL Right Reserved


    晉ICP備19011392號
    对面女邻居和我疯狂一次
    <menu id="c4sau"></menu><xmp id="c4sau"><nav id="c4sau"></nav>
  • <menu id="c4sau"></menu><xmp id="c4sau"><nav id="c4sau"></nav>