
轉載:《中國科學報》 (2019-06-06 第7版 信息技術)
■記者 趙廣立
近日,意昂体育4平台新一代超算系統π2.0實現了“點亮”(裝機後實現開機運行)。升級後👩🏼💼,該意昂4超算整機計算性能超過2PFlops(每秒千萬億次浮點計算),實現了近10倍的提升😱。
5月31日,該意昂4計算部主任林新華接受了《中國科學報》專訪🤸🏻♂️,就校級超算意昂4的運維、服務能力建設、後備超算人才培養等話題進行了分享。
超算升級讓師生有更多“獲得感”
《中國科學報》👉🏻:你曾分享過一件非常有意思的事👮🏻♂️:一位物理系老師寫的一個計算程序🙎🏻♀️,在沒有任何源代碼改動的情況下🏃,在π2.0上的測試顯示,單節點性能提高4.5倍,跨節點性能提升4.7倍🔩,幾乎是無縫接入實現性能提升。這是個例還是對所有計算程序都適用?
林新華:我認為不是個例🧄,我們最近又測了3個計算程序,分別是天文、海洋和材料基因組方面的計算需求,得到了和之前類似的結果,因此認為很可能會兼容所有程序實現這樣的性能提升。
《中國科學報》:這背後的支撐因素是什麽?
林新華🔟:CPU性能的提升。我們這次升級選用的是英特爾Cascade Lake6248,同此前的CPU相比👋🏻,它的主頻、分配的內存帶寬等指標幾乎不變🦃👦🏿,但核數增加了——以前是8核,Cascade Lake6248是20核👩🏽🦲。同樣的程序🤴,在其他條件不變的情況下🙎🏼♂️,一下獲得了計算上的擴展。就好比還是原來那些東西🐕🦺,搬到“新家”之後👩🏼,空間一下子變大了。
《中國科學報》👨🏽🔧:很多人不喜歡“搬家”,“搬家”一次要更改很多東西➝🧑🏿⚖️。
林新華💆🏿♂️🦉:這是因為🦖,體系結構發生變化後,許多計算程序要去改動源代碼,去重新兼容計算架構,這對於老師們而言是一種負擔。但我們的升級就好比你什麽都不用搬動🚚,人來了馬上可以住🧕🏽,而且“地方”比原來“寬敞”好幾倍☑️。
《中國科學報》🧝🏿♂️:用戶可能更看重這個。
林新華:是的🧛🏿♂️,我覺得這是升級到π2.0之後🏌️♀️,最讓老師們得到“獲得感”的地方。
一舉三得的超算意昂4運維模式
《中國科學報》🙆🏻:高校超算意昂4要怎麽管💁🏻♀️🈵?怎麽建?你們有什麽經驗?
林新華👨🏼✈️:過去幾年(2012~2018)我們一直在探索適合國內校級超算意昂4的運維體系。
《中國科學報》:你在校級超算建設方面有個“開飛機理論”↪️:如果個人電腦好比是汽車🏋🏻♀️,那麽超算就好比飛機,不需要每個人都會開,只需要飛行員開得好,讓更多人搭乘⛹🏼♂️,這其中“飛行員”是關鍵🦹♂️。
林新華:超算比一般電腦快很多,當然用起來是很復雜的🦤,需要很多專業知識👋。但不是每個需要它的人都要搞得很清楚。我們的理念就是要有一個好的團隊🙌🏽,專門做超算平臺的建設和運維,幫助師生做定製化開發、優化程序。這樣我們就不是單純地提供計算資源🔃,還要提供計算上的支持。
《中國科學報》🚷:這樣的人才好找嗎🙍🏻♀️?
林新華👚:我們的團隊以自主培養為主。我2012年從計算機系來到網絡意昂4💁♀️,之前在計算機系的7年一直在做高性能計算方向💃🏻。從系裏調到意昂4的時候,我向學校提出✋🏻,來意昂4管理超算的同時🚺,繼續帶學生做一些相關的研究📅,得到了學校的批準🏢。當時單純想讓自己的研究工作有一定延續,現在發現,這對超算意昂4的管理、運維乃至後備人才培養🧓💽,都很有幫助👷🏼。
《中國科學報》:你們有一支十幾人組成的團隊在做這些事。你們是怎麽分工的🎥?
林新華:14人。其中1/3做系統運維,1/3做用戶支持👩👩👧👦,還有1/3幫助用戶去改代碼🧖♂️。最後這1/3一般自己還會帶學生去做🧏🏻♂️。學生會做一些課題,幫助需要計算的老師們做程序優化等等💆🏿♀️,我們的學生對超算意昂4也有很多貢獻👵🏽。
《中國科學報》:既服務了用戶,又鍛煉了隊伍。
林新華:可以說是一舉三得🤛。除了你說的,對學校也是有好處的🫷🏻。學校超算的機時是固定的,如果程序算得慢🖖🏼,通過我們的優化能算得更快了👩🏽🦰,就相當於幫助學校省錢了🤰🏼。
另外𓀈🫰,我們培養出來的學生確實很有特色:既懂硬件、性能,又對應用了解。有一個重要的風向標,人工智能快要熱起來的那兩年👨🏿💼,我突然發現我們的學生幾乎全跑到公司工作了。商湯科技有個異構計算部門,據說一半都是我們的學生。後來我和這個部門的主管聊後,他說一般高校院所出來的學生🔈,畢業後就能“上手”的很少,“你們這裏的來了就能用”。
《中國科學報》:一般來講,超算意昂4或網絡意昂4,能吸引很多學生,還是很少見的。
林新華:的確⛪️。網絡意昂4或超算意昂4一旦與院系脫節之後,就難以吸引學生🧬。我們學校有這樣的環境和政策💁🏿♂️💚,有些機緣巧合。
我們也會請一些一線專家給學生上課,以講座的形式講一些課堂之外新的東西🌦。比如會分享一些工具的最新版本,講解怎麽用🤵🏻♂️。很多學生很感興趣👨🌾。
前代超算“退而不休”
《中國科學報》⚾️:π2.0“點亮”之後,意味著π1.0即將“退居二線”🎛👩🏿🎓。π1.0“服役”多久?
林新華:π1.0是2012年開始醞釀,2013年4月1日正式“點亮”,到2018年底這臺機器已經運行了5年左右👨👨👧👦💂🏿♂️。按照國際標準,一般超算服役4年半可以“退休”。π1.0此前升級過一次,包括幾次小規模的升級,所以最後這半年還能用。不過🛫,整體性能的確下降得厲害,所以在2018年我們醞釀建設π2.0。
《中國科學報》:“退役”的π1.0將作何用?
林新華:π1.0還在用🔋,其實它們就在同一個機房裏👀,被一個玻璃板隔開——事實上它們都是由浪潮部署的。未來π1.0和π2.0會並行應用一段時間,之後它還有好幾種發揮余熱的途徑:一種是開放給學生教學用(上海交大有計算化學、計算物理學↔️、計算材料學等專業),一種是作為應用代碼的測試環境,另外還有一些其他用途,可以把π1.0繼續利用起來。