人民網
人民網>>教育

學術論文歸檔保存應從數字化轉向數據化

2024年04月30日08:30 | 來源:科技日報
小字號

原標題:學術論文歸檔保存應從數字化轉向數據化

日前,一項發表在《圖書館學與學術交流雜志》上的針對700多萬份數字出版物的研究表明,超過200萬篇標有數字對象標識符(DOI)的學術論文未得到妥善歸檔和保存。盡管這項研究被認為存在一定局限性,但研究的相關分析結果仍然引起了文獻專家的關注與討論。

如今,學術論文的產出數量大、速度快。上述研究指出,在線保存論文的系統已經無法滿足研究產出的增長速度。是否有必要對所有學術論文進行歸檔保存?學術論文歸檔保存面臨哪些機遇和挑戰?

交流共享是重要目的

上世紀八十年代前,紙質化保存是學術論文歸檔保存的主流形式,主要以期刊為保存單元。“紙質化保存成本很高。購買紙質期刊需要成本,存放期刊要佔用巨大空間。”中國人民大學信息資源管理學院教授索傳軍說。

隨著數字技術水平提高,學術論文數字化保存逐漸成為主流,在保存單元上也打破期刊限制,將單篇學術論文作為基本保存單元。數字化保存使獲取學術論文的便捷性、開放性更高,保存成本更低,同時解決了存儲面積不足和期刊重復保存造成資源浪費等問題。

“現在有一些機構採用混合存檔,對大多數學術論文進行數字化保存,對少量重要期刊和論文仍以紙質化形式保存。國家科技圖書文獻中心(NSTL)採用的就是這種方式。”索傳軍介紹,此外,還有一些機構對二次文獻或學術論文的元數據進行保存,或是隻保存論文的摘要、關鍵詞等。

在探討對學術論文歸檔保存的必要性之前,需要明確保存論文的目的。索傳軍認為,學術論文是對科研結果的記錄,保存學術論文是為了讓后人能夠有效獲取並了解前人的研究成果,保持學術研究的傳承性和連貫性。同時,保存學術論文也是為了實現更大范圍的知識交流與共享,提高科研效率,節省研究資源和成本。

“在我看來,對所有學術論文進行歸檔保存,從理論上來說沒有必要。”索傳軍認為,一方面,根據文獻計量學中經典的布拉德福定律,期刊是分層的,學術論文也是分層的。一些學術論文價值不高、創新性不強、研究結論過時,還有些論文甚至可能存在一定重復或錯誤。此類論文沒有必要進行保存。另一方面,依據信息生命周期理論,學術論文的學術價值也隨時間變化。大部分論文生命周期較短,很快就會因過時而失去參考價值。

從國內外有關機構的粗略統計分析結果看,60%以上的學術論文在發表后從未被訪問和獲取,即從未參與知識交流和共享。此外,由於每個人的時間和精力有限,論文保存得越多,人們有效獲取信息的效率就越低,知識交流共享的成本也就越高。

“學術論文是為了保存而保存,還是為了滿足當下國家重大科學技術和經濟發展需求,以及科研人員對知識交流共享的實際需要而保存?這是一個本質問題。”索傳軍說。

逐步縮小保存單元

數字化時代,學術論文歸檔保存工作的挑戰和機遇並存。“我國在算力、雲存儲等方面的水平較高,因此技術問題並非最大挑戰。目前我們面臨的主要問題在於,如何選擇判斷需要歸檔保存的學術論文。這不僅缺乏較為統一的選擇判斷標准,而且也缺乏較為科學的評價方法。”索傳軍說。

直至目前,人們仍主要依據學術期刊的影響因子大小判斷一本期刊及其刊載論文的重要性或學術價值。從客觀上看,期刊的影響因子並不能代表其刊載論文的學術價值,每種期刊刊載的每篇學術論文質量和價值不同。

大多數情況下,人們並不需要閱讀一篇學術論文的完整文本,而是要借鑒和利用論文中有學術價值的內容,這些內容可以被稱為“知識元”。索傳軍認為,一篇學術論文本質上是一組知識元的邏輯組合。論文最有創新價值的部分,就濃縮在這些知識元中。知識元才是人們真正需要的,也是真正需要歸檔保存的。

“數字化保存單元已經從期刊變為論文,下一步能否打破對學術論文全文保存的限制,隻保存論文的核心知識元?如果歸檔保存的單元是知識元,讀者直接獲取的也是知識元。我們歸檔保存對象的單元會更小,成本會更低,讀者獲取利用效率會更高。”索傳軍認為,學術論文中知識元的識別和提取是一大關鍵挑戰。這不僅是對相關技術的挑戰,更是對學界和業界在保存學術論文的認識和觀念上的挑戰。

當前,國際上一些學術期刊雜志社(出版集團)已經進行了小范圍嘗試。他們要求作者在投稿時提供論文所闡述的新觀點,即讓作者描述最具價值的創新知識元。在索傳軍看來,這種嘗試是有益的,但同時會存在主觀性偏強的問題。如有些作者為了發表文章拔高論文的創新性,或是因個人的認知水平不足而對創新性的描述過高。

索傳軍認為,當下數字技術的發展,要求學術論文的保存單元不再局限於期刊,“一刀切”的保存策略或許也應做出改變。“我們對學術論文的數字化保存,應該順應時代發展,逐步過渡到數據化保存階段。這需要將學術論文轉化成更精細的數據,而不是機械性地把紙質論文轉化成計算機上‘0’和‘1’的符號。”他說。

在首次全國數據工作會議上,國家數據局提出,探索建設國家級數據標注基地。索傳軍說,學術論文也是數據標注的對象之一。對學術論文內容進行深入、細致、准確標注,可以較為精准地定位、獲取、利用知識元。

生成式人工智能和大語言模型等新技術的應用有望實現這一目標。“學術論文是針對研究問題開展的。如果能通過機器學習找到每篇學術論文的主要研究問題,就可以對此進行標注,進而使讀者能通過研究問題來檢索論文。”索傳軍說,這將是一個長期積累和發展的過程,必須循序漸進地構建起不同領域、不同學科的標准和參照系,利用大語言模型和機器學習等技術,經過不斷優化迭代,最終使標注結果達到科學准確。(實習記者 沈 唯)

(責編:李昉、孫競)

分享讓更多人看到

返回頂部