中國工程院院士吾守爾·斯拉木:
智能技術為多語種信息處理帶來新機遇

吾守爾·斯拉木院士 田晶娟繪
人物檔案
吾守爾·斯拉木,中國工程院院士,新疆大學教授、博士生導師,新疆多語種信息技術重點實驗室主任,國家語委信息技術研究中心主任。長期從事多語種信息處理、網絡安全及通信、多媒體混合智能處理的數字化、智能化、多媒體化研究和學科建設。榮獲國家科技進步獎3項,以及何梁何利科技獎、光華科技獎等省部級以上獎勵
【院士訪談】
40歲第一次接觸計算機,卻成為多語種信息化領域的著名專家、帶頭人,他就是中國工程院院士、新疆大學教授吾守爾·斯拉木。作為中國工程院歷史上第一位維吾爾族院士,民族地區信息化和智能化發展始終是吾守爾·斯拉木的關切。
“算力已經成為推動世界經濟發展和科技創新的核心力量之一。”在前不久舉行的新疆維吾爾自治區昌吉回族自治州科技創新大會上,吾守爾·斯拉木表示,這一趨勢將為多語種信息處理帶來新的發展機遇,加快推動民族地區信息化與智能化發展。
吾守爾·斯拉木創建了維吾爾族、哈薩克族、柯爾克孜族(以下簡稱“維哈柯”)語言文字信息處理的理論、方法和技術體系,為國產多語種操作系統和辦公套件等應用軟件的研發及各領域的應用奠定了基礎。他開辟了我國少數民族文字信息處理的新領域,推動我國少數民族進入數字化辦公新時代。
日前,圍繞我國多語種信息處理的發展現狀與前景,科技日報記者對吾守爾·斯拉木進行了專訪。
信息交換和文明傳播的核心
記者:您是如何與信息技術這一領域結緣的?
吾守爾·斯拉木:20世紀80年代,計算機、互聯網等現代信息技術逐漸進入公眾視野。它具備文字、聲音、圖像、影視等多種信息綜合處理能力,極大地改變了人們的生活方式、工作模式以及思維方式。同時,這些技術對我國政治、經濟、文化和社會發展帶來了巨大沖擊。
為了順應時代發展需求,新疆大學安排我先后前往北京工業大學、上海交通大學進修計算機等相關專業。那是我第一次接觸到計算機。當時,我已經近40歲。
記者:您如何想到將語言文字與信息技術相結合?
吾守爾·斯拉木:語言的產生是人類歷史上最偉大的信息革命。語言是人類社會化信息活動的首要條件,而文字的創造則確保了人類文明的有效傳承。
文字出現后,為了更好地傳播和傳承信息,造紙術應運而生,並得到進一步推廣。進入近現代,電信傳播技術為信息傳輸提供了極大的便捷。隨后,信息技術崛起。利用計算機和互聯網收集、加工、存儲、處理、控制信息,使信息交流不再受時間和空間限制,是人類在改造自然過程中又一次新的飛躍。計算機的發明延伸了人類智力,信息技術革命成為人類文明發展的推動力。在這一過程中,我們發現,語言文字和信息處理始終是信息交換和文明傳播的核心。
信息技術的發展徹底顛覆了傳統的信息獲取和交流方式。當我去進修時,中文信息處理已經步入了信息化時代,漢字計算機信息處理技術和漢字激光照排系統等為信息時代漢字信息處理等創造了先決條件,中文信息處理技術開始在教育、醫療、交通、通信、社會生活等各個領域大放異彩。
那時,我國少數民族語言文字信息處理尚處於空白狀態,甚至連基本的信息輸入輸出都沒有解決。如果這種情況持續下去,我國邊疆地區的教育、醫療、經濟、社會發展等必然會落后於時代。因此,我下決心填補這項空白,讓我國維哈柯等少數民族同步進入信息化時代,為我國現代化建設作出應有貢獻。
在這一理想的驅動下,我帶領多民族研究團隊經過多年不懈奮斗,逐步創建了維哈柯文信息處理的理論、方法和技術體系,制定了維哈柯文信息技術國家及國際標准,攻克了多語種信息多媒體化、網絡化、智能化處理的關鍵核心技術。
記者:您如何實現多語種信息處理“從0到1”的突破?
吾守爾·斯拉木:我們團隊在多語言多模態語音識別、語音合成、機器翻譯、圖形識別等關鍵核心技術及應用領域已深耕30余年,在加強少數民族語言文字的信息化、智能化、標准化規范化建設方面做了大量工作。
我們牽頭制定了5項國際標准、22項國家標准,研發並推廣了多種維哈柯文信息輸入法、專用的編輯排版軟件、智能處理軟件、網絡應用插件,以及維哈柯文多語種Windows系列和Linux系列操作系統本地化版本。我們還研發了多種多民族文字排版印刷系統、辦公套件、中間件、電子政務系統、應用工具及平台、各類網絡應用,使少數民族同胞告別鉛與火,跨入電與光的時代。這些應用軟件在新疆政務、司法、行政、教育、新聞出版、廣播電視、互聯網、通信以及社會公共事務等領域得到廣泛應用,有力地促進了民族文化交流融合和繁榮發展。我也因此獲得2022年度中國計算機學會(CCF)最高科學技術獎,並獲得國家科技進步獎3項,以及自治區科技進步特等獎、何梁何利獎等省部級以上獎勵。
同時,我們團隊建設多語言大規模多層次語料庫、知識庫,研發多種語言、文字智能語音翻譯和識別系統,保障少數民族語言文字在新興傳播載體上的有序發展,以及在經貿、物流、通信等領域的跨語言信息交流。
為人文學科發展插上智能翅膀
記者:如今,人工智能技術已經進入快速發展期。它將為語言研究帶來哪些影響?
吾守爾·斯拉木:自然語言處理融合了語言學與人工智能,旨在促進機器生成、理解、闡釋及推理人類語言,實現人機間的有效交流。語言智能技術的興起與應用,對語言學、出版審查及文化傳播等產生了沖擊,並引發了廣泛討論。
有人認為,機器生成的內容看似流暢,但並不准確,經常出現張冠李戴的情況。而另一些人認為,雖然這些內容還不夠完美,但可以幫助人們節約大量的時間與精力。
隨著語言智能技術的發展,我們需要區分基於人和基於計算機的兩種不同的語言理論。一方面,兩者相結合有助於更好地研究語言的根本屬性和規律。另一方面,探索基於機器的語言理論,可以推動人工智能技術邁向更成熟的語言智能階段,從而產生更多更有用的語言智能產品。
當前,新一代人工智能憑借其強大的數據處理能力,有效賦能現代語言學研究,特別是在語言以及語言學數據的收集和整理、智能處理與交換等方面發揮了強大作用。此外,人工智能技術的快速發展給語言學和其他人文學科的研究帶來了前所未有的機遇。抓住這個機遇,讓大語言模型(LLM)等人工智能模型服務於人文學科研究,將為人文學科的發展插上智能的翅膀,使其更好地服務於社會。
記者:您如何將人工智能技術運用到多語種信息處理領域?
吾守爾·斯拉木:隨著人工智能等新技術的發展,我們提出了多語種智能信息處理這一概念。多語種智能信息處理是人工智能在語言信息服務領域的關鍵應用。隨著共建“一帶一路”倡議的不斷深化,加大多語種智能信息處理的研發力度顯得尤為重要,特別是在國家通用語言文字推廣普及、多語種多模態語言資源建設、智能處理與識別、多語言大模型應用等方面。這將進一步提升多語種語言資源保護和信息處理能力。
同時,人工智能技術的發展極大地推動著我們的研究工作,同時對算法優化、數據規模擴大、算力提升以及模型構建等提出了更高的要求。當前我們團隊正在積極籌建國家級的新疆融合算力中心,採集大規模多層次的多語言數據庫,研究更高效的算法來訓練多語言多模態大模型,以支撐高效語言信息智能化服務。
我們團隊主要利用多語言聯合訓練和數據對齊技術提高數據質量,通過集成學習、遷移學習等技術,將英語、漢語等資源豐富語言的訓練模型參數或知識遷移到少數民族語言上,降低重新訓練的成本,提高模型的泛化能力。
我們還通過共享部分網絡結構和參數,進行跨語言遷移學習,減少模型的大小和訓練時間,提高模型的性能。
同時,我們將文本、音頻、圖像等多種媒體數據融合在一起,進行認知計算處理和增程式推理,利用不同模態之間的互補信息來增強模型的表達能力,提高翻譯的准確性和流暢性。
此外,我們針對不同語言的分詞、詞性標注、句法分析等任務,研究具有語言特異性的算法、模型及認知計算,以提高多語種處理的精度和可靠性。
構建多元化人才培養體系
記者:多語種信息處理面臨哪些挑戰?解決這些問題的關鍵是什麼?
吾守爾·斯拉木:少數民族語言具有獨特的語言特性,我們做研究時常需要借鑒其他語言的研究成果,或者與其他研究團隊開展聯合攻關。在實驗過程中,我們需要對比不同語言的實驗結果,參考其他語言的技術指標。同時,我們還需要對算力技術進行創新,這無疑增加了研究的難度。
此外,由於我們團隊的研究成果廣泛應用於影視、廣播、教育、醫療、文化等不同領域。針對不同的應用場景,我們需要對模型進行適當的訓練和技術調整,以滿足實際需求。
我們的研究也面臨諸多挑戰,例如,大規模多語言文本翻譯、語音翻譯及多模態語料數據的搜集、標注和質量管控,涵蓋中亞、西亞語言的多語言大模型訓練關鍵技術研究,基於算力網的分布式訓練和部署一站式多語言交流平台建設,評測多語言機器互譯效果的數據集、指標和方法的系統建設,以中文為核心的多語言多模態翻譯交流系統的構建和性能優化等。這些也是我們團隊繼續努力的方向。
值得一提的是,多語言語料庫建設尤為重要。多語言語料庫建設涉及語言學、計算機科學與技術、信息與通信、社會學等多個學科領域。語料的質量、規模以及覆蓋程度等,都會影響模型和處理的性能。在研究過程中,我們團隊科學篩選文本語句,邀請語言學家召開論証會,然后選擇在年齡、地區、性別等方面結構均衡的人群進行專業錄制,保証語料質量。
記者:您認為,多語種智能信息處理未來將如何發展?
吾守爾·斯拉木:未來,多語種智能信息處理領域將面臨以下幾大變化。
一是跨學科知識融合的需求日益增加。多語種信息處理技術涵蓋多語言語音識別、圖形識別、機器翻譯、聲圖文信息分類與檢測、信息檢索等多個方面。這些研究不再局限於單一學科,而是需要語言學、計算機科學、人工智能、聲學、認知科學等多個學科的交叉融合,需要採用多樣化的處理方法和算法。研究人員需要進行跨學科合作,共同解決語言處理中的復雜問題。
二是技術創新與算法優化的需求增加。為了提高多語種信息處理效率和准確性,需要不斷引入新技術進行算法優化。
三是構建大規模多語言知識庫和語料庫至關重要。為了提升多語種信息處理技術的性能,我們需要構建大規模、多模態、多層次、綜合型、多語言知識庫和語料庫系統。這些知識庫和語料庫系統需要包含多種語言的文本、語音和圖像等數據,並需要進行標注和分類、採集和識別。
四是加強人才培養尤為關鍵。多語種信息處理需要培養具有跨學科知識和技能的人才,以滿足該領域的發展需求。
記者:如何培養面向未來的多語種信息技術處理人才?
吾守爾·斯拉木:未來,我們需要多元化、高素質的人才隊伍來支撐多語種信息處理領域的發展與創新,特別是具備語言學、計算機科學、數據科學等多個領域知識和技能的跨學科復合型人才。
為了加強這類人才的培養,我認為可以在高等教育中設立多語種信息處理相關專業或課程,通過實習、實訓等方式讓學生參與實際項目,從而提升實踐創新能力。
高校可以加強與國際知名高校和研究機構的合作與交流,引進先進的教學理念和技術手段,鼓勵學生參與國際學術競賽,提升學生的國際視野和跨文化交流能力。高校還可以舉辦多語種智能信息處理相關的競賽和活動,激發學生的創新熱情。
此外,網絡平台也應被充分利用,提供豐富多樣的多語種信息處理相關的課程和學習資源,供學生自主學習。
致青年科技人才
青年科技人才處於創新、創造力的高峰期,是國家戰略人才力量的重要組成部分,肩負著建設世界科技強國、實現中華民族偉大復興的歷史重任。
希望廣大青年科技工作者能夠始終秉持深厚的家國情懷、強烈的使命意識,牢固樹立以科技創新服務國家、造福人民的思想,甘坐冷板凳、勇闖無人區、善打攻堅戰,堅持面向世界科技前沿、面向經濟主戰場、面向國家重大需求、面向人民生命健康,把科技成果應用在國家現代化建設的偉大事業中。
——吾守爾·斯拉木
(記者 楊思晨)
分享讓更多人看到
- 評論
- 關注