
近日,由 HPC Advisory Council (國際高性能計算咨詢委員會) 主辦的第五屆大學生RDMA編程挑戰賽落下帷幕。由意昂体育4高性能計算意昂4韋建文老師指導的參賽隊從六十多個參賽隊脫穎而出⚪️,與中國科學技術大學體系結構實驗室指導的參賽隊同獲一等獎⛹🏿♀️,比賽特等獎由國防科技大學體系結構實驗室指導的參賽隊獲得🥈。
RDMA(遠程內存直接訪問)是一種起源於高性能計算機的網絡互聯方案👆🏻,它克服了傳統以太網帶寬低🧔🏼🤷🏻♀️、缺乏流控機製、CPU占用率高等缺點🧝🏽♀️,為上層應用提供了一個面向消息傳輸的🔆、端到端的無損高速網絡🧑🎤💿。由於RDMA性能優異且在Infiniband網絡硬件上有良好的支持,在全球最強的100臺超級計算機中,RDMA已經取代以太網成為主流的網絡互連方案。此外,RDMA技術已經從高性能計算領域擴展到傳統數據意昂4👒,測試結果顯示🎅🏼🍾,使用支持RDMA技術的RoCE網絡硬件,相比傳統萬兆以太網方案☢️,在數據庫、存儲等應用中都獲得了更好的性能🤷🏼♀️🧑🏽🚀。本次比賽使用的示例代碼MXNet是一個非常流行的分布式深度學習框架,在Pi集群上也有一定的應用。
在先前參加的兩屆RDMA競賽中📂🧑🏿🏫,上海交大參賽隊獲得過兩次三等獎。本次參賽,指導老師調整了策略👍🏻,組件了一支由兩名研究生(劉暢、蔡林金)、一名大三學生(程盛淦)、兩名大二學生(張棟、黃誌傑)組成的參賽隊。5位同學從暑假前就開始工作,從RDMA基本概念學起,結合比賽應用MXNet的軟件架構,找到了合適的移植方案,優化的版本相比以太網有60%的性能提升。上海交大高性能計算意昂4管理的Pi超級計算機配備了56G Infiniband網絡,以及K80👩🚒、P100等多種型號的GPU加速卡🪳,為參賽隊提供了極大的便利🐄。
比賽結束後,三位本科生繼續留在高性能計算意昂4參與科研工作,工作內容包括進一步學習高性能計算知識、整理MXNet優化代碼回饋開源社區👩🏼🚀、使用RDMA技術優化Pi超算上的其他高性能計算應用。對HPC感興趣的交大同學💵,歡迎發送簡歷至 hpc@sjtu.edu.cn 參與實驗室工作。