人民網
人民網>>教育

三部門印發《意見》推進數字中文建設——

全方位釋放語言文字的數據要素價值

2025年04月01日08:37 | 來源:科技日報
小字號

對語言文字,我們“日學而不察、日用而不覺”。其實,語言文字是國家重要的教育、科技、文化、經濟、安全和戰略資源。近日,為搶抓大語言模型迭代升級新機遇,教育部、國家語委、中央網信辦印發《關於加強數字中文建設 推進語言文字信息化發展的意見》(以下簡稱《意見》)。3月31日,教育部舉行新聞發布會,專門對《意見》進行全面解讀。

教育部語言文字信息管理司司長劉培俊介紹,《意見》明確提出,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字信息化發展的突出重點,全方位釋放語言文字在經濟社會發展中的數據要素價值。在實踐中,既要規范、有效、批量地將中文資源信息轉化為智能數據,也要促進中文數據的規模生產、優質集成、規范治理和復用增效,實現以數字化手段構建新型中文服務體系,引領帶動語言文字信息化全面發展。

為何強調數字中文?劉培俊表示,中文使命重大,數字中國建設,加大國家通用語言文字推廣力度、深化中華優秀語言文化傳承、增進語言文明國際交流互鑒等多項重大任務都更加需要中文數字化賦能。中文文化內涵豐富,是中國貢獻給世界的重要公共文化產品,更加需要中文數字化傳播。中文使用范圍廣泛,更加需要中文數字化學習。而且,中文數據價值突出,大規模、高質量的中文數據有利於推動中國特色大語言模型創新發展,更加需要中文數字化支撐。

劉培俊介紹,未來在技術創新應用上,要發揮自然語言處理技術支撐人工智能發展的基礎作用,加快領域大語言模型應用試點,確保規范安全,示范應用﹔研制面向人工智能的語言資源建設、管理、應用標准,特別是語料和數據質量評價標准等。在數據資源建設上,發揮語言文字服務國家語言能力建設的戰略作用,實施國家關鍵語料庫建設計劃,建設大規模中文語料庫等。在關鍵領域賦能上,發揮信息技術賦能國家語言服務體系構建的全局優勢,研制大語言模型能力素養框架(師生版),推進甲骨文數字化共享,實施中華文化優秀課程多語種數字化傳播計劃等。

北京大學王選計算機研究所所長湯幟指出,上世紀80年代,激光照排技術的發明,讓承載中華文化的中文在全球互聯網空間獲得新生。當前,大語言模型技術對大規模高質量語料提出前所未有的需求,中文信息處理技術的發展從以往解決漢字輸入輸出的基礎性問題,進階到當前釋放語言文字數據要素價值的全方位突破。

湯幟表示,加強數字中文建設將重塑發展格局,推動中文信息處理技術發展進入新階段。語言文字將實現從“靜態符號”向“動態數字資產”、從“信息載體”向“生產要素”的轉型,要重點推動語料庫、數據標注與評價等標准的研制,支持文本生成與理解、語言翻譯、情感分析等各種任務。語言文字還將實現從符號存儲到智能建模的質變,因此,要聚焦關鍵垂直領域建設語料基礎設施,構建支持大模型訓練的高質量中文數據集。

湯幟強調,語言文字還會起到賦能全局發展的作用。新形勢下,語言文字信息處理技術創新應用正經歷從“UTF-8字符集”到“萬億參數大語言模型”的范式變革,語言文字將實現與信息技術的深度融合,形成“技術突破—場景落地—生態繁榮”的良性循環,服務教育發展,助力科技創新,賦能文化傳承,推動產業升級,促進社會進步。(記者 張蓋倫)

(責編:李依環、李昉)

分享讓更多人看到

推薦閱讀
返回頂部