鄔賀銓發(fā)表署名文章：AI時代的數(shù)據(jù)要素開發(fā)與治理

2023-11-02 16:44:02來源：國家數(shù)據(jù)局作者：

近日，中國工程院院士鄔賀銓在國家數(shù)據(jù)局公眾號發(fā)表署名文章——AI時代的數(shù)據(jù)要素開發(fā)與治理。

以下為文章全文！

人工智能概念的提出已有60多年時間，但直到1997年IBM的深藍(lán)計算機(jī)戰(zhàn)勝國際象棋大師才為大眾所知，不過基于專家系統(tǒng)經(jīng)驗的智能有限。2016年，AlphaGo戰(zhàn)勝世界圍棋高手初顯大數(shù)據(jù)實力，但也只是在規(guī)則下的算法熟能生巧，類似的方法推動了自然語言識別與人臉識別技術(shù)的發(fā)展。2022年底，ChatGPT的問世標(biāo)志著人工智能從判別式發(fā)展到生成式的跨越，雖然目前的大模型只是針對特定任務(wù)和指定模態(tài)，離通用人工智能還有不少距離，但語言大模型讓機(jī)器初步具有常識，懂得推理，學(xué)會創(chuàng)作，讓人和機(jī)器能以較自然的方式互動，通過與周邊工具的結(jié)合，表現(xiàn)出擬人的智能。與AlphaGo將數(shù)據(jù)作為查詢和判別的依據(jù)不同，ChatGPT可以說讀透與消化了數(shù)據(jù)，融會貫通計上心來，得出源于數(shù)據(jù)高于數(shù)據(jù)的結(jié)論。生成式大模型賦予數(shù)據(jù)以新的生命力，AI時代大數(shù)據(jù)蘊(yùn)含的價值將進(jìn)一步涌現(xiàn)。數(shù)據(jù)因AI而變得越來越重要，數(shù)據(jù)要素是新型生產(chǎn)力的代表，數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。

一、培育數(shù)據(jù)資源，促進(jìn)開放共享

數(shù)據(jù)是生產(chǎn)和生活過程的記錄及對自然觀察的結(jié)果。2022年中國人口占全球18%，網(wǎng)民占全球21.5%，GDP占全球18.06%。據(jù)國家網(wǎng)信辦《數(shù)字中國發(fā)展報告（2022年）》數(shù)據(jù)顯示，2022年我國數(shù)據(jù)產(chǎn)量達(dá)8.1ZB，同比增長22.7%，全球占比為10.5%，位居全球第二；我國數(shù)據(jù)存儲量達(dá)724.5EB，同比增長21.1%，全球占比為14.4%。中國產(chǎn)生和存儲的數(shù)據(jù)在全球的占比均低于中國的人口、網(wǎng)民和經(jīng)濟(jì)規(guī)模在全球的比例。據(jù)Synergy Research Group截至2021年Q3季度統(tǒng)計，美國大規(guī)模數(shù)據(jù)中心在全球占比高達(dá)49%，其次是中國占比為15%?？梢娢覈鴶?shù)據(jù)存儲量與美國相比差距還比較大，這反映了我國在社會信息化和產(chǎn)業(yè)數(shù)字化程度上仍落后于美國，加快數(shù)字中國的建設(shè)將有望盡快改變這一狀況。

政府與研究機(jī)構(gòu)及企業(yè)都會存儲大量數(shù)據(jù)，其中政府掌握全社會數(shù)據(jù)約80%，而且是高質(zhì)量數(shù)據(jù)，但主要卻僅供內(nèi)部使用甚至是本部門內(nèi)小單位各自存儲和使用而非共享，數(shù)據(jù)利用率不高。需要從制度上明確共享內(nèi)容、權(quán)限和責(zé)任，促進(jìn)政府部門間數(shù)據(jù)共享，更精準(zhǔn)地把握社會和經(jīng)濟(jì)運行全局，提升政府部門間工作的協(xié)同性。與共享相比，數(shù)據(jù)開放更是社會數(shù)字化的標(biāo)志之一，政府及企事業(yè)單位掌握的公共數(shù)據(jù)具有很強(qiáng)的社會性，政府開放數(shù)據(jù)對提升政府公信力、降低社會成本，帶動數(shù)字經(jīng)濟(jì)發(fā)展有重要作用。國際上將政府?dāng)?shù)據(jù)開放作為數(shù)字政府的重要衡量指標(biāo)，據(jù)《聯(lián)合國電子政務(wù)調(diào)查報告2022》數(shù)據(jù)顯示，從2012年到2022年的十年間，中國在線服務(wù)指數(shù)從0.5294上升到0.8876，在193個國家中排名從第62位上升到第15位，愛沙尼亞、芬蘭、韓國位居前三，美國第8，日本第9。我國還存在政務(wù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系待健全、政務(wù)數(shù)據(jù)統(tǒng)籌管理機(jī)制待完善，政務(wù)數(shù)據(jù)安全保障能力待加強(qiáng)的問題，需要從建設(shè)數(shù)據(jù)流通基礎(chǔ)制度體系入手，加快數(shù)據(jù)立法，完善制度規(guī)范，統(tǒng)籌協(xié)調(diào)推進(jìn)，編制數(shù)據(jù)目錄，分類分級管理，夯實共享開放機(jī)制，提升安全保障。

除了政府開放數(shù)據(jù)以外，社會公共數(shù)據(jù)的開源開放也表征數(shù)據(jù)流通的水平。人工智能生成內(nèi)容（AIGC）大模型都是利用語料庫訓(xùn)練的，一些互聯(lián)網(wǎng)大廠利用電商、社交、搜索等業(yè)務(wù)收集和標(biāo)注了海量的語料供自身訓(xùn)練大模型使用，沒有語料積累的企業(yè)和研究機(jī)構(gòu)雖然可以從網(wǎng)絡(luò)獲得語料，但自媒體內(nèi)容質(zhì)量良莠不分，未經(jīng)清洗與標(biāo)注就用作大模型的訓(xùn)練語料其效果堪憂。ChatGPT大模型訓(xùn)練時使用了開源語料庫，但中文詞元（Token）占比不到0.1%，還不及一些小語種的比例，其中的原因與中文開源語料庫數(shù)量少和規(guī)模小有關(guān)。國內(nèi)高校也有數(shù)億到數(shù)十億字的語料庫但尚未開源。國內(nèi)一些語言大模型直接采用國外開源語料庫訓(xùn)練，在價值觀的把控上存在潛在風(fēng)險，建議對面向公眾開放應(yīng)用的對話類大模型需要做語料來源的評估。面向重要應(yīng)用場景的大模型不宜強(qiáng)調(diào)訓(xùn)練用數(shù)據(jù)免標(biāo)注和無監(jiān)督學(xué)習(xí)，還是要采用經(jīng)過清洗標(biāo)注的數(shù)據(jù)集和保留人工微調(diào)，即有監(jiān)督學(xué)習(xí)環(huán)節(jié)。

行業(yè)大模型的訓(xùn)練也面臨挑戰(zhàn)，專業(yè)數(shù)據(jù)沒有通用數(shù)據(jù)容易獲得，行業(yè)內(nèi)的企業(yè)間往往不愿共享專業(yè)數(shù)據(jù)。為此有必要建立高質(zhì)量國家級重要行業(yè)領(lǐng)域基礎(chǔ)知識庫、數(shù)據(jù)庫、資源庫等。此外要鼓勵社會數(shù)據(jù)要素的合理流動和利用。中共中央、國務(wù)院《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出，依法規(guī)范、共同參與、各取所需、共享紅利的發(fā)展模式，將合理降低市場主體獲取數(shù)據(jù)的門檻，增強(qiáng)數(shù)據(jù)要素共享性、普惠性，激勵創(chuàng)新創(chuàng)業(yè)創(chuàng)造。

二、大模型驅(qū)動數(shù)據(jù)范式創(chuàng)新

基礎(chǔ)大模型通常從通用語料訓(xùn)練生成，通識能力強(qiáng)，從聊天對話入手容易反饋迭代優(yōu)化，但聊天難成剛需，落地行業(yè)應(yīng)用將更顯大模型的價值，但基礎(chǔ)大模型缺乏行業(yè)專業(yè)知識，需要大模型提供方與垂直行業(yè)合作開發(fā)行業(yè)大模型。一種模式是企業(yè)將數(shù)據(jù)交基礎(chǔ)大模型進(jìn)行再訓(xùn)練，待調(diào)優(yōu)至理想后再進(jìn)行知識蒸餾、量化及針對特定場景遷移等縮小模型規(guī)模的工作，但后續(xù)模型微調(diào)和云邊端部署等仍需算法工程師支撐，企業(yè)技術(shù)力量不足還得依賴模型提供方，企業(yè)數(shù)據(jù)交到模型提供方有數(shù)據(jù)泄漏風(fēng)險，但數(shù)據(jù)不全面則會導(dǎo)致訓(xùn)練效果差。另一種模式是企業(yè)具有算法工程師，按照特定業(yè)務(wù)場景以專有數(shù)據(jù)對基礎(chǔ)大模型進(jìn)行微調(diào)，形成行業(yè)大模型或多個基于實際業(yè)務(wù)的小模型，最好是在預(yù)訓(xùn)練階段就加入垂直行業(yè)企業(yè)的數(shù)據(jù)，預(yù)訓(xùn)練和指令微調(diào)交錯進(jìn)行，提高模型對行業(yè)知識的表達(dá)、理解、遷移和泛化能力。

一些強(qiáng)監(jiān)管、重數(shù)據(jù)安全的行業(yè)核心企業(yè)，例如頭部金融機(jī)構(gòu)等，通常不會在第三方基礎(chǔ)大模型上構(gòu)建專業(yè)大模型，而是采用數(shù)據(jù)私有化、模型私有化、本地私有云方式構(gòu)建大模型，即在加密環(huán)境中使用私有數(shù)據(jù)訓(xùn)練專業(yè)大模型，但需要面對成本與技術(shù)門檻高的挑戰(zhàn)?？偟膩碚f，無論自建或合作開發(fā)行業(yè)大模型，數(shù)據(jù)安全都是前提，既掌握大模型訓(xùn)練技術(shù)又熟悉行業(yè)專業(yè)知識的人才是關(guān)鍵。

中小企業(yè)因資金、技術(shù)和人才的限制，少有能力與基礎(chǔ)大模型提供方合作開發(fā)行業(yè)大模型，MaaS（模型即服務(wù)）應(yīng)運而生，這是針對中小企業(yè)而提出的服務(wù)模式，MaaS部署在中小企業(yè)本地設(shè)備上或公有云上，以小切口嵌入PaaS與SaaS間，并提供調(diào)用基礎(chǔ)大模型的接口，可加入企業(yè)自身數(shù)據(jù)對模型精細(xì)化調(diào)整，從而將大模型能力嵌入到SaaS產(chǎn)品上，解決了傳統(tǒng)SaaS面臨的客戶定制化需求和標(biāo)準(zhǔn)化產(chǎn)品規(guī)?；g的難題?；贛aaS通過大模型可優(yōu)選小程序及配套的低代碼開發(fā)和模型編排等工具，PaaS可據(jù)此搭建低代碼平臺，豐富工具軟件，實現(xiàn)數(shù)據(jù)和功能的定制化，以MaaS方式使中小企業(yè)上云的同時使用個性化的小模型，為數(shù)字化轉(zhuǎn)型提供智能解決方案。當(dāng)前大模型不僅是一種技術(shù)，它重塑了數(shù)據(jù)要素生態(tài)鏈，引領(lǐng)產(chǎn)業(yè)研究開發(fā)應(yīng)用的范式變革，標(biāo)志著信息化發(fā)展從網(wǎng)絡(luò)驅(qū)動到數(shù)據(jù)驅(qū)動。面對大模型浪潮，需要在國家戰(zhàn)略與規(guī)劃部署下，統(tǒng)籌推進(jìn)政產(chǎn)學(xué)研用，引導(dǎo)“百模并發(fā)”形成合力，避免資源分散和低水平重復(fù)，實現(xiàn)數(shù)據(jù)采集匯聚、加工處理、流通交易、開發(fā)應(yīng)用全鏈條協(xié)同。

三、數(shù)據(jù)助力社會治理信息化

習(xí)近平總書記指出“隨著互聯(lián)網(wǎng)運用普及和大數(shù)據(jù)等技術(shù)快速發(fā)展，國家治理正逐步從線下向線下線上相結(jié)合轉(zhuǎn)變，從掌握少量‘樣本數(shù)據(jù)’向掌握海量‘全體數(shù)據(jù)’轉(zhuǎn)變，這為推動治理模式變革、提升國家治理現(xiàn)代化水平提供了有利條件”。從網(wǎng)格化管理、精細(xì)化服務(wù)、信息化支撐的基層治理平臺，到一網(wǎng)統(tǒng)攬一網(wǎng)通辦的城市大腦，利用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息化手段感知社會態(tài)勢、暢通溝通渠道、支持快速響應(yīng)，推進(jìn)政府決策科學(xué)化、社會治理精準(zhǔn)化、公共服務(wù)高效化。特別是AIGC技術(shù)的應(yīng)用，重構(gòu)政府與民眾之間的互動過程，大模型能夠提升對現(xiàn)實生活中復(fù)雜大系統(tǒng)問題的處理能力，能夠精準(zhǔn)防控社會發(fā)展中的風(fēng)險，能夠有力維護(hù)政治穩(wěn)定和社會安全，進(jìn)一步促進(jìn)經(jīng)濟(jì)發(fā)展和社會進(jìn)步。

AI特別是生成式大模型技術(shù)是雙刃劍，其推理過程不透明，解答有自圓其說的成分，尤其使用了未經(jīng)鑒別的語料訓(xùn)練用于社會治理的大模型，可能會觸發(fā)對公眾的誤導(dǎo)，甚至引起價值觀的沖突。AI技術(shù)也可能被濫用或惡意利用來制造虛假新聞，引發(fā)社會傳播風(fēng)險，危害國家安全。我們既要用AI來輔助社會治理也要治理AI行為，但不能因AI的使用可能失控而限制對AI技術(shù)的研究與應(yīng)用，AI技術(shù)需要在應(yīng)用中反饋和迭代升級。當(dāng)前，國際貿(mào)易、科技合作、人員往來不可避免數(shù)據(jù)跨境流動，數(shù)據(jù)的社會治理也面臨對外開放的挑戰(zhàn)，解決之道是AI監(jiān)管制度體系建設(shè)與AI技術(shù)研究并重，發(fā)展與安全治理協(xié)同，使AI的監(jiān)管創(chuàng)新與技術(shù)發(fā)展相輔相成，以技術(shù)手段和治理規(guī)范兩手應(yīng)對大模型的算法偏見和倫理道德失序，以法律法規(guī)防止各類數(shù)據(jù)安全事件發(fā)生和維護(hù)國家安全。為此，首先需要按照《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》，盡快完善數(shù)據(jù)產(chǎn)權(quán)制度、數(shù)據(jù)要素流通和交易制度、數(shù)據(jù)要素收益分配制度、數(shù)據(jù)要素治理制度，為AI技術(shù)的發(fā)展與治理提供行為規(guī)范。其次是重視數(shù)據(jù)監(jiān)管的技術(shù)創(chuàng)新，APN6（基于IPv6的應(yīng)用感知網(wǎng)絡(luò)）和iFIT（基于IPv6的隨流檢測）可以標(biāo)注IP流的屬性，包括數(shù)據(jù)類型和對IP流路徑溯源，有利于對跨境數(shù)據(jù)流動的管理，IPv6的多歸屬特性可以分流敏感數(shù)據(jù)。多方計算等技術(shù)可以在不同所有者的數(shù)據(jù)融合時做到數(shù)據(jù)可用不可見。加快各類數(shù)據(jù)監(jiān)管和數(shù)據(jù)安全技術(shù)的研究已成當(dāng)務(wù)之急，要為數(shù)據(jù)管理規(guī)范盡快填補(bǔ)技術(shù)支撐手段的不足或缺失。

四、加快數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)

大模型的數(shù)據(jù)訓(xùn)練與推理都需要算力支撐，中國2022年算力總規(guī)模為180Eflops，低于2021年美國的200Eflops，其中智能算力2022年中國為41Eflops，不及2021年美國的65Eflpos，這反映了我國在大模型的數(shù)據(jù)訓(xùn)練和推理算力上的差距。算力的建設(shè)是市場行為，但國家統(tǒng)籌推進(jìn)將優(yōu)化資源的利用和產(chǎn)業(yè)的合理布局。“東數(shù)西算”作為國家戰(zhàn)略部署具有中國特色，反映我國區(qū)域經(jīng)濟(jì)、地理氣候特點和能源分布的格局，政府之手的作用在東西部數(shù)據(jù)資源配置與有效應(yīng)用上不是可有可無的。西部不足之處是數(shù)據(jù)中心產(chǎn)業(yè)配套能力薄弱和人才短缺，需要同步規(guī)劃布局?jǐn)?shù)據(jù)清洗標(biāo)注、數(shù)據(jù)機(jī)房產(chǎn)品及服務(wù)業(yè)的培育發(fā)展，延伸產(chǎn)業(yè)鏈上下游，在做好承接?xùn)|部的溫冷數(shù)據(jù)的存算的同時，還要帶動起當(dāng)?shù)責(zé)釘?shù)據(jù)的上云服務(wù)，使西部的數(shù)據(jù)集群發(fā)展形成良性循環(huán)。

算力的布局需要處理好幾方面的關(guān)系，一是通用算力與智能算力的合理比例，通用算力以CPU為主，適合處理政務(wù)、智慧城市和智能客服等數(shù)據(jù)/計算密集的事務(wù)性任務(wù)；智能算力以GPU為主，適合做大模型的訓(xùn)練，注意到在數(shù)據(jù)訓(xùn)練過程中還需要算法工程師介入和微調(diào)，智算中心適于在數(shù)據(jù)源集中和算法工程師聚集地建設(shè)，不宜全面開花，動用財政資金支持的大型智算中心的建設(shè)應(yīng)慎重規(guī)劃。二是自建算力與云原生算力，很多單位有自建算力的積極性，但麥肯錫報告顯示，商用和企業(yè)數(shù)據(jù)中心的服務(wù)器很少超過6%的利用率，通常高達(dá)30%的服務(wù)器帶電閑置。需要鼓勵中小企業(yè)從自購AI服務(wù)器搭建數(shù)據(jù)中心向采購云服務(wù)轉(zhuǎn)變，既降低成本又提高利用率，增強(qiáng)抗DDoS的能力及減碳；需要引導(dǎo)縣級地方政府使用省地集中建設(shè)的政務(wù)云代替獨立采購IT基礎(chǔ)設(shè)施。三是存算比例，存力與算力需配合，內(nèi)存與算力合理比例是GB/Gflops為1，避免因存力短缺造成算力等待而影響處理效率，據(jù)華為/羅蘭貝格報告，2020年美國為1:0.9，中國為1:2.4。四是災(zāi)備容量與主用數(shù)據(jù)中心存儲容量之比，數(shù)據(jù)中心需異地雙容災(zāi)備份，關(guān)鍵數(shù)據(jù)實現(xiàn)本地雙活，2020年當(dāng)年數(shù)據(jù)災(zāi)備保護(hù)占數(shù)據(jù)中心存儲投資的比例全球平均為27.4%，而我國只有7.8%，需重視改進(jìn)。

數(shù)據(jù)作為生產(chǎn)要素是經(jīng)濟(jì)理論與實踐的創(chuàng)新。數(shù)據(jù)與土地、勞動力、資本等傳統(tǒng)生產(chǎn)要素不同，數(shù)據(jù)要素的開發(fā)與治理有很多需要深入研究的問題，例如數(shù)據(jù)的可復(fù)制性、使用無損性等導(dǎo)致數(shù)據(jù)產(chǎn)權(quán)和安全管理邊界難以界定。黨中央決策部署組建國家數(shù)據(jù)局，負(fù)責(zé)協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度建設(shè)，統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用，統(tǒng)籌推進(jìn)數(shù)字中國、數(shù)字經(jīng)濟(jì)、數(shù)字社會規(guī)劃和建設(shè)等，將有力促進(jìn)數(shù)據(jù)要素技術(shù)創(chuàng)新、開發(fā)利用和有效治理，以數(shù)據(jù)強(qiáng)國支撐數(shù)字中國的建設(shè)。

返回列表

免费人成网站在线视频-亚洲av午夜精品麻豆av-日韩色大片在线观看-欧美日韩一区二区久久

鄔賀銓發(fā)表署名文章：AI時代的數(shù)據(jù)要素開發(fā)與治理