老師講的案例需要巨大的算力,計算機跑不動怎么辦?AI模型需要大量的數據支撐,傳輸速度慢怎么破?下載的軟件相互不兼容,實驗進行不下去怎么辦?……AI時代教學科研出現了很多新煩惱。對此,天津大學著手建設AI云平臺,對課堂進行智能改造,為教育科研裝上數字大腦。
依照國家建設新一代人工智能的總體部署而成立的天津大學智能與計算學部,集結了天津大學在認知計算、數據科學、智能技術與應用等高精尖專業領域的優勢資源。該學部將人工智能引入日常教學中,通過集中建設CPU、GPU資源池,為學部下屬的計算機學院、軟件學院、網絡安全學院、人工智能學院提供統一的算力平臺,即天津大學人工智能科研云平臺。
該平臺集成了高性能計算集群、GPU集群、虛擬化集群和云平臺。在高速萬兆光纖網絡互聯下,高性能計算集群可支持批處理模式的科研計算,GPU集群支持AI推理、演算的科研計算,云平臺的虛擬機用于前期的程序調試以及小規模實驗教學,完整覆蓋項目的所有計算需求。
“在我的唇讀研究中,有500多G的數據,以往在實驗室因為內存限制,要忍痛刪掉很多,并分批次上傳。使用AI平臺的大文件上傳,沒有帶寬和存儲的限制,500G數據2個小時左右就能一次上傳成功。”
“實驗室雖然有不少高性能GPU卡,但需要用的同學太多,訓練模型格外的慢,跑完一次實驗得一周左右。使用AI平臺訓練就快多了,相同的迭代次數只需要1—2天就能完成。這對模型調優幫助太大了。”
“以前想要查看模型的中間結果,需要把圖片從服務器復制到本地才能查看,在AI平臺可以實時查看模型的結果。”
對這個AI云平臺,同學們給予了“五星”好評。
“對于高年級以及天天泡實驗室的研究生同學而言,實驗環境與科研項目的推進息息相關。自行下載的開源軟件往往面臨著插件依賴、系統不兼容等問題,在天津大學智能與計算學部的人工智能科研云平臺中,包含了深度學習訓練推理、大數據挖掘、科學計算基礎軟件環境以及能夠支持GPU的任務調度系統,可以為同學們提供與業界接軌的實驗環境。此外,豐富的資源類型也能滿足來自不同院系、不同學校的學生。無論是直接在框架上做訓練,還是深入底層架構,都能一一實現。”天津大學智算學部教授王建榮介紹說。
在人工智能科研云的加持下,天津大學智能與計算學部不僅能順利展開國家科技重大專項、國家自然基金以及省部級以上的各類項目,還進一步推進產學研轉化,促進校企結合的前沿科學研究和工程項目順利進行。
據了解,該平臺不僅全面支撐起智算學部內人工智能、大數據處理分析、高性能計算等相關的教學實驗和科學研究,還通過專業的運營實現云基礎設施資源的擴容,為其他院系提供支撐。(陳 曦 趙 暉 郭道鵬)