近日,中國工程院院士鄔賀銓在國家數(shù)據(jù)局公眾號發(fā)表署名文章——AI時代的數(shù)據(jù)要素開發(fā)與治理。人工智能概念的提出已有60多年時間,但直到1997年IBM的深藍(lán)計算機(jī)戰(zhàn)勝國際象棋大師才為大眾所知,不過基于專家系統(tǒng)經(jīng)驗的智能有限。2016年,AlphaGo戰(zhàn)勝世界圍棋高手初顯大數(shù)據(jù)實力,但也只是在規(guī)則下的算法熟能生巧,類似的方法推動了自然語言識別與人臉識別技術(shù)的發(fā)展。2022年底,ChatGPT的問世標(biāo)志著人工智能從判別式發(fā)展到生成式的跨越,雖然目前的大模型只是針對特定任務(wù)和指定模態(tài),離通用人工智能還有不少距離,但語言大模型讓機(jī)器初步具有常識,懂得推理,學(xué)會創(chuàng)作,讓人和機(jī)器能以較自然的方式互動,通過與周邊工具的結(jié)合,表現(xiàn)出擬人的智能。與AlphaGo將數(shù)據(jù)作為查詢和判別的依據(jù)不同,ChatGPT可以說讀透與消化了數(shù)據(jù),融會貫通計上心來,得出源于數(shù)據(jù)高于數(shù)據(jù)的結(jié)論。生成式大模型賦予數(shù)據(jù)以新的生命力,AI時代大數(shù)據(jù)蘊(yùn)含的價值將進(jìn)一步涌現(xiàn)。數(shù)據(jù)因AI而變得越來越重要,數(shù)據(jù)要素是新型生產(chǎn)力的代表,數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。 一、培育數(shù)據(jù)資源,促進(jìn)開放共享 數(shù)據(jù)是生產(chǎn)和生活過程的記錄及對自然觀察的結(jié)果。2022年中國人口占全球18%,網(wǎng)民占全球21.5%,GDP占全球18.06%。據(jù)國家網(wǎng)信辦《數(shù)字中國發(fā)展報告(2022年)》數(shù)據(jù)顯示,2022年我國數(shù)據(jù)產(chǎn)量達(dá)8.1ZB,同比增長22.7%,全球占比為10.5%,位居全球第二;我國數(shù)據(jù)存儲量達(dá)724.5EB,同比增長21.1%,全球占比為14.4%。中國產(chǎn)生和存儲的數(shù)據(jù)在全球的占比均低于中國的人口、網(wǎng)民和經(jīng)濟(jì)規(guī)模在全球的比例。據(jù)Synergy Research Group截至2021年Q3季度統(tǒng)計,美國大規(guī)模數(shù)據(jù)中心在全球占比高達(dá)49%,其次是中國占比為15%??梢娢覈鴶?shù)據(jù)存儲量與美國相比差距還比較大,這反映了我國在社會信息化和產(chǎn)業(yè)數(shù)字化程度上仍落后于美國,加快數(shù)字中國的建設(shè)將有望盡快改變這一狀況。 政府與研究機(jī)構(gòu)及企業(yè)都會存儲大量數(shù)據(jù),其中政府掌握全社會數(shù)據(jù)約80%,而且是高質(zhì)量數(shù)據(jù),但主要卻僅供內(nèi)部使用甚至是本部門內(nèi)小單位各自存儲和使用而非共享,數(shù)據(jù)利用率不高。需要從制度上明確共享內(nèi)容、權(quán)限和責(zé)任,促進(jìn)政府部門間數(shù)據(jù)共享,更精準(zhǔn)地把握社會和經(jīng)濟(jì)運行全局,提升政府部門間工作的協(xié)同性。與共享相比,數(shù)據(jù)開放更是社會數(shù)字化的標(biāo)志之一,政府及企事業(yè)單位掌握的公共數(shù)據(jù)具有很強(qiáng)的社會性,政府開放數(shù)據(jù)對提升政府公信力、降低社會成本,帶動數(shù)字經(jīng)濟(jì)發(fā)展有重要作用。國際上將政府?dāng)?shù)據(jù)開放作為數(shù)字政府的重要衡量指標(biāo),據(jù)《聯(lián)合國電子政務(wù)調(diào)查報告2022》數(shù)據(jù)顯示,從2012年到2022年的十年間,中國在線服務(wù)指數(shù)從0.5294上升到0.8876,在193個國家中排名從第62位上升到第15位,愛沙尼亞、芬蘭、韓國位居前三,美國第8,日本第9。我國還存在政務(wù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系待健全、政務(wù)數(shù)據(jù)統(tǒng)籌管理機(jī)制待完善,政務(wù)數(shù)據(jù)安全保障能力待加強(qiáng)的問題,需要從建設(shè)數(shù)據(jù)流通基礎(chǔ)制度體系入手,加快數(shù)據(jù)立法,完善制度規(guī)范,統(tǒng)籌協(xié)調(diào)推進(jìn),編制數(shù)據(jù)目錄,分類分級管理,夯實共享開放機(jī)制,提升安全保障。 除了政府開放數(shù)據(jù)以外,社會公共數(shù)據(jù)的開源開放也表征數(shù)據(jù)流通的水平。人工智能生成內(nèi)容(AIGC)大模型都是利用語料庫訓(xùn)練的,一些互聯(lián)網(wǎng)大廠利用電商、社交、搜索等業(yè)務(wù)收集和標(biāo)注了海量的語料供自身訓(xùn)練大模型使用,沒有語料積累的企業(yè)和研究機(jī)構(gòu)雖然可以從網(wǎng)絡(luò)獲得語料,但自媒體內(nèi)容質(zhì)量良莠不分,未經(jīng)清洗與標(biāo)注就用作大模型的訓(xùn)練語料其效果堪憂。ChatGPT大模型訓(xùn)練時使用了開源語料庫,但中文詞元(Token)占比不到0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數(shù)量少和規(guī)模小有關(guān)。國內(nèi)高校也有數(shù)億到數(shù)十億字的語料庫但尚未開源。國內(nèi)一些語言大模型直接采用國外開源語料庫訓(xùn)練,在價值觀的把控上存在潛在風(fēng)險,建議對面向公眾開放應(yīng)用的對話類大模型需要做語料來源的評估。面向重要應(yīng)用場景的大模型不宜強(qiáng)調(diào)訓(xùn)練用數(shù)據(jù)免標(biāo)注和無監(jiān)督學(xué)習(xí),還是要采用經(jīng)過清洗標(biāo)注的數(shù)據(jù)集和保留人工微調(diào),即有監(jiān)督學(xué)習(xí)環(huán)節(jié)。 行業(yè)大模型的訓(xùn)練也面臨挑戰(zhàn),專業(yè)數(shù)據(jù)沒有通用數(shù)據(jù)容易獲得,行業(yè)內(nèi)的企業(yè)間往往不愿共享專業(yè)數(shù)據(jù)。為此有必要建立高質(zhì)量國家級重要行業(yè)領(lǐng)域基礎(chǔ)知識庫、數(shù)據(jù)庫、資源庫等。此外要鼓勵社會數(shù)據(jù)要素的合理流動和利用。中共中央、國務(wù)院《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出,依法規(guī)范、共同參與、各取所需、共享紅利的發(fā)展模式,將合理降低市場主體獲取數(shù)據(jù)的門檻,增強(qiáng)數(shù)據(jù)要素共享性、普惠性,激勵創(chuàng)新創(chuàng)業(yè)創(chuàng)造。 二、大模型驅(qū)動數(shù)據(jù)范式創(chuàng)新 基礎(chǔ)大模型通常從通用語料訓(xùn)練生成,通識能力強(qiáng),從聊天對話入手容易反饋迭代優(yōu)化,但聊天難成剛需,落地行業(yè)應(yīng)用將更顯大模型的價值,但基礎(chǔ)大模型缺乏行業(yè)專業(yè)知識,需要大模型提供方與垂直行業(yè)合作開發(fā)行業(yè)大模型。一種模式是企業(yè)將數(shù)據(jù)交基礎(chǔ)大模型進(jìn)行再訓(xùn)練,待調(diào)優(yōu)至理想后再進(jìn)行知識蒸餾、量化及針對特定場景遷移等縮小模型規(guī)模的工作,但后續(xù)模型微調(diào)和云邊端部署等仍需算法工程師支撐,企業(yè)技術(shù)力量不足還得依賴模型提供方,企業(yè)數(shù)據(jù)交到模型提供方有數(shù)據(jù)泄漏風(fēng)險,但數(shù)據(jù)不全面則會導(dǎo)致訓(xùn)練效果差。另一種模式是企業(yè)具有算法工程師,按照特定業(yè)務(wù)場景以專有數(shù)據(jù)對基礎(chǔ)大模型進(jìn)行微調(diào),形成行業(yè)大模型或多個基于實際業(yè)務(wù)的小模型,最好是在預(yù)訓(xùn)練階段就加入垂直行業(yè)企業(yè)的數(shù)據(jù),預(yù)訓(xùn)練和指令微調(diào)交錯進(jìn)行,提高模型對行業(yè)知識的表達(dá)、理解、遷移和泛化能力。 一些強(qiáng)監(jiān)管、重數(shù)據(jù)安全的行業(yè)核心企業(yè),例如頭部金融機(jī)構(gòu)等,通常不會在第三方基礎(chǔ)大模型上構(gòu)建專業(yè)大模型,而是采用數(shù)據(jù)私有化、模型私有化、本地私有云方式構(gòu)建大模型,即在加密環(huán)境中使用私有數(shù)據(jù)訓(xùn)練專業(yè)大模型,但需要面對成本與技術(shù)門檻高的挑戰(zhàn)??偟膩碚f,無論自建或合作開發(fā)行業(yè)大模型,數(shù)據(jù)安全都是前提,既掌握大模型訓(xùn)練技術(shù)又熟悉行業(yè)專業(yè)知識的人才是關(guān)鍵。 中小企業(yè)因資金、技術(shù)和人才的限制,少有能力與基礎(chǔ)大模型提供方合作開發(fā)行業(yè)大模型,MaaS(模型即服務(wù))應(yīng)運而生,這是針對中小企業(yè)而提出的服務(wù)模式,MaaS部署在中小企業(yè)本地設(shè)備上或公有云上,以小切口嵌入PaaS與SaaS間,并提供調(diào)用基礎(chǔ)大模型的接口,可加入企業(yè)自身數(shù)據(jù)對模型精細(xì)化調(diào)整,從而將大模型能力嵌入到SaaS產(chǎn)品上,解決了傳統(tǒng)SaaS面臨的客戶定制化需求和標(biāo)準(zhǔn)化產(chǎn)品規(guī)?;g的難題?;贛aaS通過大模型可優(yōu)選小程序及配套的低代碼開發(fā)和模型編排等工具,PaaS可據(jù)此搭建低代碼平臺,豐富工具軟件,實現(xiàn)數(shù)據(jù)和功能的定制化,以MaaS方式使中小企業(yè)上云的同時使用個性化的小模型,為數(shù)字化轉(zhuǎn)型提供智能解決方案。當(dāng)前大模型不僅是一種技術(shù),它重塑了數(shù)據(jù)要素生態(tài)鏈,引領(lǐng)產(chǎn)業(yè)研究開發(fā)應(yīng)用的范式變革,標(biāo)志著信息化發(fā)展從網(wǎng)絡(luò)驅(qū)動到數(shù)據(jù)驅(qū)動。面對大模型浪潮,需要在國家戰(zhàn)略與規(guī)劃部署下,統(tǒng)籌推進(jìn)政產(chǎn)學(xué)研用,引導(dǎo)“百模并發(fā)”形成合力,避免資源分散和低水平重復(fù),實現(xiàn)數(shù)據(jù)采集匯聚、加工處理、流通交易、開發(fā)應(yīng)用全鏈條協(xié)同。 習(xí)近平總書記指出“隨著互聯(lián)網(wǎng)運用普及和大數(shù)據(jù)等技術(shù)快速發(fā)展,國家治理正逐步從線下向線下線上相結(jié)合轉(zhuǎn)變,從掌握少量‘樣本數(shù)據(jù)’向掌握海量‘全體數(shù)據(jù)’轉(zhuǎn)變,這為推動治理模式變革、提升國家治理現(xiàn)代化水平提供了有利條件”。從網(wǎng)格化管理、精細(xì)化服務(wù)、信息化支撐的基層治理平臺,到一網(wǎng)統(tǒng)攬一網(wǎng)通辦的城市大腦,利用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息化手段感知社會態(tài)勢、暢通溝通渠道、支持快速響應(yīng),推進(jìn)政府決策科學(xué)化、社會治理精準(zhǔn)化、公共服務(wù)高效化。特別是AIGC技術(shù)的應(yīng)用,重構(gòu)政府與民眾之間的互動過程,大模型能夠提升對現(xiàn)實生活中復(fù)雜大系統(tǒng)問題的處理能力,能夠精準(zhǔn)防控社會發(fā)展中的風(fēng)險,能夠有力維護(hù)政治穩(wěn)定和社會安全,進(jìn)一步促進(jìn)經(jīng)濟(jì)發(fā)展和社會進(jìn)步。 AI特別是生成式大模型技術(shù)是雙刃劍,其推理過程不透明,解答有自圓其說的成分,尤其使用了未經(jīng)鑒別的語料訓(xùn)練用于社會治理的大模型,可能會觸發(fā)對公眾的誤導(dǎo),甚至引起價值觀的沖突。AI技術(shù)也可能被濫用或惡意利用來制造虛假新聞,引發(fā)社會傳播風(fēng)險,危害國家安全。我們既要用AI來輔助社會治理也要治理AI行為,但不能因AI的使用可能失控而限制對AI技術(shù)的研究與應(yīng)用,AI技術(shù)需要在應(yīng)用中反饋和迭代升級。當(dāng)前,國際貿(mào)易、科技合作、人員往來不可避免數(shù)據(jù)跨境流動,數(shù)據(jù)的社會治理也面臨對外開放的挑戰(zhàn),解決之道是AI監(jiān)管制度體系建設(shè)與AI技術(shù)研究并重,發(fā)展與安全治理協(xié)同,使AI的監(jiān)管創(chuàng)新與技術(shù)發(fā)展相輔相成,以技術(shù)手段和治理規(guī)范兩手應(yīng)對大模型的算法偏見和倫理道德失序,以法律法規(guī)防止各類數(shù)據(jù)安全事件發(fā)生和維護(hù)國家安全。為此,首先需要按照《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,盡快完善數(shù)據(jù)產(chǎn)權(quán)制度、數(shù)據(jù)要素流通和交易制度、數(shù)據(jù)要素收益分配制度、數(shù)據(jù)要素治理制度,為AI技術(shù)的發(fā)展與治理提供行為規(guī)范。其次是重視數(shù)據(jù)監(jiān)管的技術(shù)創(chuàng)新,APN6(基于IPv6的應(yīng)用感知網(wǎng)絡(luò)) 和iFIT(基于IPv6的隨流檢測)可以標(biāo)注IP流的屬性,包括數(shù)據(jù)類型和對IP流路徑溯源,有利于對跨境數(shù)據(jù)流動的管理,IPv6的多歸屬特性可以分流敏感數(shù)據(jù)。多方計算等技術(shù)可以在不同所有者的數(shù)據(jù)融合時做到數(shù)據(jù)可用不可見。加快各類數(shù)據(jù)監(jiān)管和數(shù)據(jù)安全技術(shù)的研究已成當(dāng)務(wù)之急,要為數(shù)據(jù)管理規(guī)范盡快填補(bǔ)技術(shù)支撐手段的不足或缺失。 四、加快數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè) 大模型的數(shù)據(jù)訓(xùn)練與推理都需要算力支撐,中國2022年算力總規(guī)模為180Eflops,低于2021年美國的200Eflops,其中智能算力2022年中國為41Eflops,不及2021年美國的65Eflpos,這反映了我國在大模型的數(shù)據(jù)訓(xùn)練和推理算力上的差距。算力的建設(shè)是市場行為,但國家統(tǒng)籌推進(jìn)將優(yōu)化資源的利用和產(chǎn)業(yè)的合理布局。“東數(shù)西算”作為國家戰(zhàn)略部署具有中國特色,反映我國區(qū)域經(jīng)濟(jì)、地理氣候特點和能源分布的格局,政府之手的作用在東西部數(shù)據(jù)資源配置與有效應(yīng)用上不是可有可無的。西部不足之處是數(shù)據(jù)中心產(chǎn)業(yè)配套能力薄弱和人才短缺,需要同步規(guī)劃布局?jǐn)?shù)據(jù)清洗標(biāo)注、數(shù)據(jù)機(jī)房產(chǎn)品及服務(wù)業(yè)的培育發(fā)展,延伸產(chǎn)業(yè)鏈上下游,在做好承接?xùn)|部的溫冷數(shù)據(jù)的存算的同時,還要帶動起當(dāng)?shù)責(zé)釘?shù)據(jù)的上云服務(wù),使西部的數(shù)據(jù)集群發(fā)展形成良性循環(huán)。 算力的布局需要處理好幾方面的關(guān)系,一是通用算力與智能算力的合理比例,通用算力以CPU為主,適合處理政務(wù)、智慧城市和智能客服等數(shù)據(jù)/計算密集的事務(wù)性任務(wù);智能算力以GPU為主,適合做大模型的訓(xùn)練,注意到在數(shù)據(jù)訓(xùn)練過程中還需要算法工程師介入和微調(diào),智算中心適于在數(shù)據(jù)源集中和算法工程師聚集地建設(shè),不宜全面開花,動用財政資金支持的大型智算中心的建設(shè)應(yīng)慎重規(guī)劃。二是自建算力與云原生算力,很多單位有自建算力的積極性,但麥肯錫報告顯示,商用和企業(yè)數(shù)據(jù)中心的服務(wù)器很少超過6%的利用率,通常高達(dá)30%的服務(wù)器帶電閑置。需要鼓勵中小企業(yè)從自購AI服務(wù)器搭建數(shù)據(jù)中心向采購云服務(wù)轉(zhuǎn)變,既降低成本又提高利用率,增強(qiáng)抗DDoS的能力及減碳;需要引導(dǎo)縣級地方政府使用省地集中建設(shè)的政務(wù)云代替獨立采購IT基礎(chǔ)設(shè)施。三是存算比例,存力與算力需配合,內(nèi)存與算力合理比例是GB/Gflops為1,避免因存力短缺造成算力等待而影響處理效率,據(jù)華為/羅蘭貝格報告,2020年美國為1:0.9,中國為1:2.4。四是災(zāi)備容量與主用數(shù)據(jù)中心存儲容量之比,數(shù)據(jù)中心需異地雙容災(zāi)備份,關(guān)鍵數(shù)據(jù)實現(xiàn)本地雙活,2020年當(dāng)年數(shù)據(jù)災(zāi)備保護(hù)占數(shù)據(jù)中心存儲投資的比例全球平均為27.4%,而我國只有7.8%,需重視改進(jìn)。
數(shù)據(jù)作為生產(chǎn)要素是經(jīng)濟(jì)理論與實踐的創(chuàng)新。數(shù)據(jù)與土地、勞動力、資本等傳統(tǒng)生產(chǎn)要素不同,數(shù)據(jù)要素的開發(fā)與治理有很多需要深入研究的問題,例如數(shù)據(jù)的可復(fù)制性、使用無損性等導(dǎo)致數(shù)據(jù)產(chǎn)權(quán)和安全管理邊界難以界定。黨中央決策部署組建國家數(shù)據(jù)局,負(fù)責(zé)協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度建設(shè),統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,統(tǒng)籌推進(jìn)數(shù)字中國、數(shù)字經(jīng)濟(jì)、數(shù)字社會規(guī)劃和建設(shè)等,將有力促進(jìn)數(shù)據(jù)要素技術(shù)創(chuàng)新、開發(fā)利用和有效治理,以數(shù)據(jù)強(qiáng)國支撐數(shù)字中國的建設(shè)。
返回列表