1. <kbd id="hxllo"></kbd>
        <th id="hxllo"></th>

          首頁  ?  財經(jīng)  ?  經(jīng)濟觀察

          企業(yè)加快智能化轉(zhuǎn)型 大模型“畫龍”小數(shù)據(jù)“點睛”

          2022-03-01 03:07:56

          來源:科技日報

            大模型“畫龍”,小數(shù)據(jù)“點睛”

            企業(yè)加快智能化轉(zhuǎn)型

            ◎本報記者 翟冬冬

            小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應用有其前提,即需要在大的基礎模型(預訓練模型)之上,通過小數(shù)據(jù)進行模型的微調(diào),使模型更加精準地服務具體應用場景。從這個角度來講,小數(shù)據(jù)將在未來基礎模型完成下游任務時,起到關鍵的作用。

            王金橋

            中國科學院自動化研究所研究員

            如今大數(shù)據(jù)已經(jīng)成為人工智能的“標配”。在訓練人工智能模型的過程中,如果想讓其變得更加聰明,大量的、多樣性的數(shù)據(jù)必不可少。但近日,著名人工智能學者吳恩達在展望人工智能下一個10年的發(fā)展方向時,表達了不同的觀點。他認為,小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)的應用或是未來趨勢。

            中國科學院自動化研究所研究員王金橋表示,小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應用有其前提,即需要在大的基礎模型(預訓練模型)之上,通過小數(shù)據(jù)進行模型的微調(diào),使模型更加精準地服務具體應用場景。從這個角度來講,小數(shù)據(jù)將在未來基礎模型完成下游任務時,起到關鍵的作用。

            多數(shù)應用場景難以獲取高質(zhì)量大數(shù)據(jù)

            算法(模型)、算力和數(shù)據(jù)可以說已經(jīng)成為推動人工智能發(fā)展的三大要素,其中數(shù)據(jù)尤為重要。在眾多互聯(lián)消費場景中,我們常常被精準的人工智能推送“擊中”。通過對消費者消費習慣、購物偏好的分析,平臺系統(tǒng)可以對消費者的潛在需求作出判斷并加以引導,而這一切的基礎,是基于大量的、豐富的數(shù)據(jù)樣本。利用大數(shù)據(jù),平臺構建出了適用于該領域的專用模型,實現(xiàn)精準推送。

            這些體驗或許是普通消費者對于大數(shù)據(jù)和人工智能最直接的印象之一。吳恩達在采訪中也表示,在過去10年里,面向消費者的企業(yè)由于擁有大量用戶群(有時甚至高達數(shù)十億),因此獲得了非常大的數(shù)據(jù)集使得人工智能可以開展深度學習,并給企業(yè)帶來了不少經(jīng)濟效益。但他同時強調(diào),這種法則并不適用于其他行業(yè)。其原因在于,并不是所有場景都能產(chǎn)生豐富的大數(shù)據(jù)樣本。

            實際上,“在生活中,百分之八九十場景的問題都屬于小樣本問題?!蓖踅饦虮硎?,很多應用場景中,由于訓練樣本難以獲取,因此只有極少量數(shù)據(jù),缺陷檢測就是其中的典型案例。缺陷檢測,即采用機器視覺技術等,對某種特定缺陷進行檢測和識別。這種檢測在航天航空、鐵路交通、智能汽車等眾多領域都有應用。由于在實際的生產(chǎn)生活中,存在瑕疵的產(chǎn)品總是少數(shù),所以缺陷檢測的訓練樣本數(shù)量很少。

            而即使對于樣本豐富的場景,也存在訓練數(shù)據(jù)標注愈發(fā)困難的問題。王金橋介紹,目前人工智能所使用的訓練數(shù)據(jù),還是以人工標注為主,而在海量數(shù)據(jù)面前,人工標注往往需要行業(yè)經(jīng)驗,一般人難以對標注區(qū)域進行識別。此外,針對每個應用需求都需要人工智能專家設計算法模型,模型越多,開發(fā)成本也會持續(xù)增加。

            吳恩達也表示,在消費互聯(lián)網(wǎng)行業(yè)中,我們只需訓練少數(shù)機器學習模型就能服務10億用戶。然而在制造業(yè)中,有1萬家制造商就要搭建1萬個定制模型。而且要做到這點往往需要大量的人工智能專家。

            從目前的行業(yè)發(fā)展趨勢來看,基礎模型或許是解決上述問題的一個方向。

            以基礎模型為“基座”用小數(shù)據(jù)微調(diào)

            “近些年,行業(yè)開始重視研發(fā)基礎模型或者說是通用型模型來解決上述問題?!蓖踅饦蛘f,先用大量數(shù)據(jù)預訓練一個模型。這些模型在預訓練中,見多識廣是首要任務。訓練中,模型會見識到該領域各式各樣的數(shù)據(jù),增長見識,以應對今后出現(xiàn)的各種情況。之后再在下游任務中利用具體的場景數(shù)據(jù)進行微調(diào)。

            如自然語言處理(NLP)領域的大模型,如果要利用它完成如對話、問答等下游任務,只需要使用這個下游任務中數(shù)量很小的數(shù)據(jù),在這個大模型之上進行微調(diào),就能達到不錯的效果。一些研究成果也表明,只需要原來建立專屬模型5%—10%的數(shù)據(jù)樣本用于大模型的數(shù)據(jù)微調(diào),就能得到和專屬模型一樣的精度。

            “從大模型轉(zhuǎn)向小模型,實現(xiàn)一個模型做多個任務,可以說是目前行業(yè)發(fā)展中的一個轉(zhuǎn)變?!蓖踅饦蛘f,這樣不僅降低了開發(fā)難度,還大大減少了開發(fā)成本。以前,每個算法都需要一個深度學習專家去設計和訓練,現(xiàn)在只需要在大模型之下進行微調(diào),模型的設計和架構也變得相對簡單。中小型企業(yè)只需要在大模型上,自己上傳數(shù)據(jù)就可以完成。

            此外,利用這種方法,模型的誤報率也會減少?;A模型見過豐富多彩的數(shù)據(jù)和場景,在處理具體任務的時候就具備了海量知識儲備,有更充足的準備去應對具體的小場景應用。

            不過吳恩達在訪談中也表示,預訓練只是要解決難題的一小部分,更大的難題是提供一個工具讓使用者能夠選擇正確的數(shù)據(jù)用于微調(diào),并用一致的方式對數(shù)據(jù)進行標記。面對大數(shù)據(jù)集的應用時,開發(fā)者的通常反應都是如果數(shù)據(jù)有噪音也沒關系,所有數(shù)據(jù)照單全收,算法會對其進行平均。但是,如果研究人員能夠開發(fā)出用來標記出數(shù)據(jù)不一致地方的工具,為使用者提供一種非常有針對性的方法來提高數(shù)據(jù)質(zhì)量,那這將是獲得高性能系統(tǒng)的更有效的方法。

            多模態(tài)或是大模型未來發(fā)展方向

            基礎模型作為生產(chǎn)眾多小模型的“基座”,性能尤為重要。其認知能力越接近人類,在此之上產(chǎn)生的小模型性能也將越優(yōu)異。

            在探索外部環(huán)境的時候,人類具備視覺、聽覺、觸覺等多種認知手段,并通過語言對話等形式實現(xiàn)互動交流。其中視覺得到的信息約占70%,聽覺、觸覺等獲得的信息約占30%?!巴瑯樱沟么竽P偷男阅芨觾?yōu)秀,更趨近人類的認知能力,就涉及到訓練中的數(shù)據(jù)融合問題?!蓖踅饦蛑赋觯覀兪熘恼Z言生成模型GPT-3,能夠生成流暢自然的文本,并完成問答、翻譯、創(chuàng)作小說等一系列NLP任務,甚至可以進行簡單的算術運算。但其和外界交互的主要方式還是進行文本交流,缺乏圖像、視頻等多模態(tài)融合。

            每一種信息的來源或者形式,都可以稱為一種模態(tài)。如人有觸覺、聽覺、視覺、嗅覺;信息的媒介有語音、視頻、文字等。人的認知模型可以說是一個多模態(tài)的集合。

            要讓基礎模型的預訓練更接近人類的認知模型,也需要進行多模態(tài)融合。即讓模型通過機器學習的方法實現(xiàn)處理和理解多源模態(tài)信息的能力,如圖像、視頻、音頻、語義之間的多模態(tài)學習。多模態(tài)預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。

            “這一兩年,大模型的數(shù)量呈現(xiàn)爆發(fā)式增長,且有從單一模態(tài)模型轉(zhuǎn)向多模態(tài)模型的趨勢?!蓖踅饦蛘f,具備了多模態(tài)能力的基礎模型,在具體應用場景中健壯性更好,在異常和危險情況下系統(tǒng)的生存能力更強,今后多模態(tài)基礎模型或?qū)⒊蔀槲磥砘A模型發(fā)展的一個重要方向。

          • 相關閱讀
          • 商務部回應“2022年外貿(mào)難”:多措并舉 有信心穩(wěn)住基本盤

              中新財經(jīng)3月1日電 1日,有記者在國新辦發(fā)布會上提問,2022年中國穩(wěn)外貿(mào)的壓力和困難都非常大,商務部在緩解外貿(mào)企業(yè)紓困等方面會有什么舉措?  對此,商務部部長王文濤回應,2022年,商務部將實施跨周期調(diào)節(jié)穩(wěn)...

            時間:03-01
          • 首次突破一萬億!2021年中國吸收外資再創(chuàng)歷史新高

              中新財經(jīng)3月1日電 3月1日,國新辦就“堅持穩(wěn)字當頭 推動商務高質(zhì)量發(fā)展”舉行新聞發(fā)布會,商務部部長王文濤表示,2021年中國吸收外資再創(chuàng)歷史新高,首次突破了1萬億元人民幣,達到了1.15萬億元?! ⊥跷臐硎?,...

            時間:03-01
          • 蘭州新區(qū)有何“引才之術”,讓“Z時代”奔赴而來?

              中新網(wǎng)蘭州3月1日電 (閆姣)在各地迎來招聘旺季的當下,曾被調(diào)侃為“鬼城”的蘭州新區(qū),一時之間涌入5.5萬余名求職者,其中不乏個性鮮明的“Z時代”。蘭州新區(qū)有何“引才之術”,能讓年輕人奔赴而來?  蘭州新區(qū)...

            時間:03-01
          • 福州海關依法退運241.8噸“洋垃圾”

              中新網(wǎng)福州3月1日電 (盧福川)福州海關1日披露,近日,在福州海關所屬馬尾海關的依法監(jiān)管下,一批總重約241.8噸的鋅灰被依法退運出境。  這批貨物為福州某貿(mào)易有限公司在馬尾口岸申報進口,申報品名為“氧化鋅粉...

            時間:03-01
          • 北京在兩大機場建國際消費功能區(qū) 2025年建成兩個千億級商圈

              中新網(wǎng)北京3月1日電 (記者 杜燕)北京將集中力量在首都國際機場、大興國際機場“雙樞紐”和兩個臨空經(jīng)濟區(qū)(以下簡稱“雙場+雙區(qū)”)加快建設國際消費功能區(qū),系統(tǒng)構建“空港—臨空—腹地”串聯(lián)輻射的國際消費圈層新...

            時間:03-01
          • 北京將深化數(shù)字人民幣試點 逐步提升國際旅客支付便利度

              中新網(wǎng)北京3月1日電 (記者 杜燕)北京將積極拓展數(shù)字人民幣應用,總結(jié)北京冬奧會支付服務環(huán)境建設經(jīng)驗,深化數(shù)字人民幣試點,逐步提升國際旅客支付便利度?! 〗裉欤本┦腥嗣裾k公廳印發(fā)《打造“雙樞紐”國...

            時間:03-01
          • 北京探索在CBD等商圈設立值機點

              中新網(wǎng)北京3月1日電 (記者 杜燕)北京將推動“機場—市區(qū)”沿線消費要素集聚,提高“雙樞紐”市內(nèi)通達度,抓緊推動首都機場線東直門站行李托運項目建設和運營,探索在三里屯、CBD、望京、第四使館區(qū)等國際旅客集中...

            時間:03-01
          • 俄羅斯能否抗住西方SWIFT制裁?

              新華社北京3月1日電 (國際觀察)俄羅斯能否抗住西方SWIFT制裁?  新華社記者徐超 樊宇  俄羅斯央行2月28日宣布將基準利率提升至20%。此前一天,俄央行公布一系列金融維穩(wěn)措施,以減少西方最新金融制裁對金融領...

            時間:03-01
          • 中國加入CPTPP有何新進展?商務部回應

              中新財經(jīng)3月1日電 3月1日,國新辦就“堅持穩(wěn)字當頭 推動商務高質(zhì)量發(fā)展”舉行新聞發(fā)布會,商務部副部長兼國際貿(mào)易談判副代表王受文表示,去年9月份,中國正式提出申請加入CPTPP,目前,按照CPTPP加入程序,正在和...

            時間:03-01
          • 中非貿(mào)易疫情下再創(chuàng)新高 凸顯中非經(jīng)貿(mào)合作韌性

              新華社內(nèi)羅畢3月1日電 綜述:中非貿(mào)易疫情下再創(chuàng)新高 凸顯中非經(jīng)貿(mào)合作韌性  新華社記者  2021年,中非雙邊貿(mào)易總額再創(chuàng)新高,中國連續(xù)12年保持非洲第一大貿(mào)易伙伴國地位。分析人士認為,中非貿(mào)易為非洲經(jīng)濟...

            時間:03-01
          免責聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權,如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。
          国产精品久久影视,国产中文字幕在线,色综合久久88色综合天天免费,国产成人精品免费av 国产精品白浆无码流出嗯啊豆 国产精品一区精品国产自在

          1. <kbd id="hxllo"></kbd>
              <th id="hxllo"></th>