科技日報成都7月30日電 (劉俠 記者 滕繼濮 實習生 吳曉靜)記者30日獲悉,“諦聽”地震波大模型日前在國家超級計算成都中心發(fā)布,將于2024年底公測。據(jù)介紹,這是全球首個億級參數(shù)量的專業(yè)地震數(shù)據(jù)處理大模型。
2023年9月,由成都產(chǎn)業(yè)集團、成都天投集團聯(lián)合運營的國家超級計算成都中心,與中國地震局地球物理研究所共建“地震大模型創(chuàng)新應用聯(lián)合實驗室”。隨后,中心與清華大學、中國科學院地質(zhì)與地球物理研究所的研究團隊一同合作,啟動“諦聽”地震波大模型的訓練。同時,大模型依托的“諦聽”地震學數(shù)據(jù)集也落戶該實驗室。此數(shù)據(jù)集是國內(nèi)首個,同時也是目前全球最大規(guī)模、最多樣本類型、標注最為全面的地震學專業(yè)AI訓練數(shù)據(jù)集之一。
成都數(shù)據(jù)集團黨委副書記、超算運營公司董事長郭黎表示,“諦聽”系列地震波大模型已有階段性成果,目前已成為全球第一個億級參數(shù)量的地震波大模型并具備投入使用的條件。同時,十億參數(shù)量級的版本預計2024年8月完成預訓練,將進一步為新時代防震減災事業(yè)現(xiàn)代化提供科技支撐。
“諦聽”如何為防震減災事業(yè)現(xiàn)代化提供科技支撐?
“‘諦聽’大模型依托中國地震觀測網(wǎng)的海量數(shù)據(jù),通過人工智能技術(shù),已顯著提升地震信號識別的準確率和速度。”中國地震局地球物理研究所副所長陳石認為,長期來看,地震學是一門觀測科學,重大的突破往往來自對觀測數(shù)據(jù)的深刻理解。目前,傳統(tǒng)方法和中小模型均無法充分利用千、萬TB(百萬兆字節(jié))級別的地震觀測數(shù)據(jù),而這些數(shù)據(jù)蘊含許多重要的地震學問題,只有大模型才能深入挖掘這些“寶藏”。短期來看,“諦聽”地震波大模型將應用于地震信號識別、地震活動監(jiān)測、大地震快速響應等領域。
“‘諦聽’地震波大模型的發(fā)布對于突破中小地震波模型性能瓶頸、提高地震大數(shù)據(jù)智能處理能力和信息挖掘水平具有重要意義?!眹页売嬎愠啥贾行某崭敝魅瓮踅úū硎?,中心的算力支持是“諦聽”地震波大模型得以開發(fā)的基礎,相比過去的地震波小模型,“諦聽”大模型的訓練數(shù)據(jù)量和參數(shù)量都增加了兩個量級以上,因此對算力的需求也呈現(xiàn)大幅增長。為此,中心采用國內(nèi)先進技術(shù)為大模型開發(fā)提供支撐,同時在研發(fā)過程中為科研團隊的代碼運行效率優(yōu)化提供了關鍵技術(shù)支持,使得“諦聽”的研發(fā)過程更加順暢高效。未來,該模型的應用場景還有望延伸到礦震監(jiān)測、頁巖氣開采、城市地下空間結(jié)構(gòu)探測、海底地震監(jiān)測等多個領域。