人民網
人民網>>教育

幾分鐘生成一篇論文,傳統查重工具無法識別——

AI代寫論文現象如何科學治理

2024年01月18日08:12 | 來源:科技日報
小字號

原標題:AI代寫論文現象如何科學治理

“太不像話了!學生用人工智能生成的期末論文糊弄我。”近日,上海某高校教師在社交媒體上“吐槽”自己遇到的新難題——一些想偷懶的學生開始用人工智能技術完成論文。

以ChatGPT為代表的生成式人工智能技術(AIGC)橫空出世,似乎為人們寫論文提供了新幫手。從提供選題到文稿潤色、從統計分析到圖表制作……其功能之強大,幾乎覆蓋了學術論文寫作過程的方方面面。

面對ChatGPT等工具的潛在風險,爭議隨之而來。不少人質疑,人工智能到底能不能用於輔助學術論文寫作。有人認為,它只是提高科研效率的工具。有人則對此持審慎態度,認為容易引發大規模的學術誠信問題。

人工智能技術在論文寫作中的應用程度如何?技術應用的邊界在哪裡?如何對這一技術進行有效治理?科技日報記者對此進行了深入採訪。

AI生成的文本“非常水”

有多少人嘗試過用人工智能技術寫論文?去年《自然》雜志對全球博士后的一項調查發現,約有三分之一的受訪者使用人工智能聊天機器人來優化文本、生成或編輯代碼、整理文獻。

當記者嘗試在社交媒體上搜索“AI”“論文”“寫作”等關鍵詞,五花八門的AI論文寫作指導教程映入眼帘。其中大部分宣稱能夠教會用戶在幾分鐘內通過幾個簡單的步驟,生成一篇幾萬字的“優質”論文。這些教程的瀏覽量最高已達數百萬。

AI真的能生成一篇完整的“優質”論文嗎?記者按照教程開始了嘗試:“請提出與民族志紀錄片有關的論文選題。”幾乎無需等待,幾個看起來很“靠譜”的選題就出現在對話框裡。

“請就某一選題生成寫作大綱。”幾秒后,7個像模像樣的章節全部生成完畢。“請就提綱中某項內容,詳細描述2000字。”重復幾次操作后,一篇幾萬字的“論文”很快就完成了。但記者瀏覽后發現,其生成的段落中,存在大部分重復且言之無物的內容。

除了說“車轱轆”話,某985高校人工智能專業碩士研究生溫睿還發現了此類論文的行文特點:“一般是先寫一句話,然后進行分條論述。當老師看到這樣套路化的內容就會猜測,這類文章很大程度上是人工智能寫的。”

文章開頭那位教師的經歷印証了溫睿的發現。“這樣的論文看似條理清晰、層次豐富,但實際上每個層面的內容都很少,而且非常空洞。我馬上就懷疑是AI生成的。”該老師說。

不少期刊編輯、審稿人也發現了同樣的問題。

某人文社科期刊審稿人徐彬向記者透露,用AI寫論文的關鍵在於提示詞。如果提示詞選用的不恰當,就極有可能得到一篇套路化的文章。他目前已經收到過五六篇“一眼就能看出來”用AI寫的稿子。

“這些文章的共同特點就是非常水。雖然它生成的語言連貫性不錯,但是缺乏深度,創新性也不強。”對此,徐彬略顯無奈,“綜述類文章是使用AI的重災區,但目前期刊還缺乏相關的評價標准和處理機制。”

偽造數據集更具隱蔽性

在清華大學人工智能國際治理研究院副院長梁正看來,論文核心評價標准包括作者發揮的創造性、對論文的貢獻程度。一篇大部分由AI生成且隱瞞使用情況的文章,既沒有作者智力的貢獻,也不符合科研誠信的要求,屬於學術造假。

AIGC造成的學術造假還發生在數據領域。記者在採訪過程中,多位業內專家提到了偽造數據集問題。相比直接的文本生成,這一方式更具有隱蔽性。

GPT-4的ADA功能是一種結合了計算機編程語言Python的模型,可以執行統計分析和創建數據可視化。梁正向記者講述了一則真實的案例:國外某機構研究人員先是要求GPT-4 ADA創建一個關於圓錐角膜患者的數據集,后又要求它編造臨床數據,用以支持深板層角膜移植術比穿透性角膜移植術效果更好的結論。但真實的臨床數據証明,兩種手術效果並無明顯差別。

“針對某個問題,提出方法來解決,並通過實驗來証明方法的可行性——這是專業論文的常用模式。人工智能不能做實驗,哪怕它給的實驗數據再理想,也都是虛假的。”溫睿認為,虛假的數據背離了科學研究的真正意義。

除了數據處理,更多人使用AIGC來解釋概念。溫睿發現AIGC生成的概念簡潔明了,查重率也非常低。但當記者詢問這些概念是否正確時,溫睿顯得有些遲疑:“我也沒有把握,通常默認它是對的。”

為了驗証AIGC給出答案的准確性,記者就一些新興概念提問,但它給出的答案往往和真正概念毫不沾邊。當記者讓AI生成5篇某領域的重點參考文獻,它又胡編亂造了5個不存在的作者和不存在的文獻。

在人工智能領域,描述AI“一本正經地胡說八道”的專業名詞是“AI幻覺”。哈爾濱工業大學(深圳)特聘校長助理、教授張民解釋,AI幻覺是指AI會生成貌似合理連貫,但與輸入問題意圖不一致、與現實或已知數據不符合或無法驗証的內容。這多是由於AI對知識的記憶不足、理解能力不夠、訓練方式固有的弊端及模型本身技術的局限性所導致。

“如果不警惕AI幻覺,很有可能損害科學研究的真實性和客觀性。”梁正表示,AI生成的錯誤信息一旦被廣泛傳播,不僅會造成“學術垃圾”泛濫,還將影響學術生態的良性發展。

一場你追我逃的“貓鼠游戲”

一項新技術的出現,對於社會的發展往往是把雙刃劍。雖然人工智能技術存在種種隱患,但其在圖文創作、數據處理等方面的強大能力已被大多數人認可。“歸根結底,我們認為AI將增加人類的智慧,而非取代人類。其使用應在人類監督之下,並將道德因素考慮在內。”施普林格·自然集團發言人說。

推動AI向善發展,需要借助行之有效的技術手段。值得注意的是,AI生成的論文並不能被查重工具檢測出來。因此,國內外都在探索研發專門針對AIGC的檢測工具。

從原理看,AIGC檢測技術是在“用AI打敗AI”。同方知網數字出版技術股份有限公司副總經理柯春曉介紹:“人類的創作往往是隨機且富有靈感的,而接受過大量文本訓練的AI已經形成了生產文本的‘固有’范式,傾向於使用‘一致’的結構和規則,因此具有更高的可預測性。”AIGC檢測的核心就是依托海量的文本和數據樣本,識別出人類和AIGC工具在平均句子長度、詞匯多樣性和文本長度等方面的不同點,從而揪出AI論文“槍手”。

一些期刊出版機構通過檢測工具發現了AIGC代寫論文的痕跡。“從去年7月底到現在,我們發現涉嫌AI寫作的論文數據每個月都在上升,大約有六七十篇的文章疑似使用AI的程度超過了50%。”《中華醫學雜志》社有限責任公司新媒體部主任沈錫賓介紹。

沈錫賓向記者展示了檢測過程:一篇論文經過檢測系統后,會顯示疑似AI生成佔全文比重,相關疑似段落也會被標紅。但記者注意到,和傳統的查重報告單明確標注重復痕跡不同,AIGC檢測報告單只是指出某些文本AIGC的“置信度”,並不能回答為什麼是這個值。

“這使得報告單往往隻起到參考和警示作用。”柯春曉說。

目前,人工智能大模型正在以“周”為單位進行迭代升級。如何適應不斷升級的技術,是擺在AIGC檢測工具面前的一道必答題。

作為使用者的人類本身也在不斷“進化”。“類似人們逃避查重的方式,如果人們了解到AI檢測的方式,也可以重新組織相關內容,對AI生成的文本進行人工潤色。這樣很可能就檢測不出來了。”沈錫賓說。

作弊與反作弊的過程,實質上是場“貓鼠游戲”。隻要技術不斷升級,兩者間的博弈就不會停止。目前,AIGC檢測技術仍處在萌芽期。如何對AI生成的虛假圖片、虛假數據進行識別仍是難點。因此,人們引入智能檢測技術的同時,也要建立人工審查機制。

“審稿人要當好‘守門人’,發揮同行評議的作用,仔細甄別判斷論文的數據是否和認知存在偏差。出版機構也可以要求作者提供原始數據,多管齊下,確保科研誠信。”沈錫賓說。

技術向善要他律更要自律

加強技術治理的同時,各方都在翹首以盼,期待達成某些共識以及相關政策盡快出台。“教育、科研、出版各方都很關注AIGC使用的邊界,期待對合理使用AIGC形成一個共識性規范。”知網技術專家呼吁。

其實,早在去年初,中國科學技術信息研究所(以下簡稱中信所)就牽頭愛思唯爾、施普林格·自然、約翰威立等國際知名出版集團和科研信息分析機構,在廣泛調研並梳理業內相關研究和探索工作的基礎上,完成了中英文版的《學術出版中AIGC使用邊界指南》(以下簡稱《指南》),並於去年9月20日在國內外同步發布。

去年12月21日,科技部發布的《負責任研究行為規范指引(2023)》(以下簡稱《指引》)更是受到了業內的廣泛關注。

《指引》和《指南》就如何負責任地使用AIGC,解答了令科研工作者、期刊編輯、審稿人困惑的一些問題。

首先是披露問題。《指引》提出,使用生成式人工智能生成的內容應明確標注並說明其生成過程,確保真實准確和尊重他人知識產權。《指南》中更是提供了聲明的模板,供科研人員參考。

對於一些人想用AIGC投機取巧的行為,《指引》明確提出,不得使用AIGC直接生成申報材料﹔《指南》規定,AIGC不應該用來產生研究假設、直接撰寫整篇論文文本、解釋數據、得出研究結論。研究人員使用的數據必須是研究人員進行實驗並收集所得,如使用AIGC提供的統計分析結果需進行驗証。

隨著AIGC的使用邊界不斷清晰,越來越多的出版機構達成共識,制定了使用規范。施普林格·自然集團發言人介紹說,他們目前已經明確了有關作者身份和圖像方面的規定。例如,人工智能不能擔任作者,真正作者如使用大語言模型須加以透明描述,AI生成的圖像通常不能用於發表等。

“《科學》雜志在去年1月份發布的政策是禁止使用任何AIGC工具。而11月16日他們更新了投稿規則、放寬了限制,表示隻要進行了適當披露,使用工具是可以接受的。”中信所博士鄭雯雯說道。

“《指引》覆蓋較為全面,對AIGC的使用總體呈現出平衡包容、敏捷治理的態度,而非一味禁止。這也說明治理的目的並不是阻止科研工作者使用新一代人工智能技術,而是讓科研工作者能夠負責任地去使用。”梁正提到,在政策制定的行為框架之下,還要關注學科差異問題。“使用AIGC可能因學科的不同而有所差異,其倫理問題也要根據學科特點細化。”

例如,在自然科學領域﹔AIGC的強大功能更多體現在數據處理領域,如果失范使用,往往難以發現。而對於人文社科領域,直接使用AIGC生成內容的痕跡非常容易被發現,尤其是在高水平的研究當中,優劣之分更為明顯。

“因此,對於更加注重文字表達、數據資料支持的學科,比如企業管理、理工科、醫學等,需要防范產生虛假的數據集或論証材料。”梁正說,“對AIGC使用的披露程度、疑似度的數據指標等,都需要學術共同體進一步探索,來推動形成廣泛共識。”

此外,盡管國家出台了相應的規則,但從外部監督到行業自治還需要一個過程。AIGC的使用涉及包含研究人員、出版機構、相關行業組織、政府等方方面面。如何厘清各方關系,各司其職是關鍵。“簡單說,就是出了問題,誰來查?有沒有能力查?”鄭雯雯強調。

記者了解到,中華醫學會雜志社在今年1月9日公布了其對於AIGC技術使用的有關規定。其中不僅涉及了作者要遵守的細則,還提出了查處方式——經編輯部研判的違反AIGC使用的情形,將直接退稿或撤稿﹔情節嚴重者,將列入作者學術失信名單。

“我們下一步的目標是把存在問題的文章作一個歸納總結,進一步摸清AIGC使用的規律,為科學治理積累經驗。”沈錫賓說。

“盡管新興技術有著潛在風險,但也有著無可比擬的優勢,不宜一味封堵,而是要做好引導、合理合規地使用新技術。”鄭雯雯表示,歸根到底,科學研究的主體是人。如果心中的那杆“秤”傾斜了,即使再完善的監管政策、再高端的檢測技術,也難以抵擋學術不端的侵襲。

梁正也強調,作為科研誠信的第一責任人,科研人員一定要保持嚴謹的學術態度,關注研究領域的真問題,堅守學術研究的基本原則,如原創性和透明性﹔明確認識到ChatGPT等工具的潛在風險,避免使用不當而造成學術不端。

“科研誠信和倫理是科研的生命線,科研人員一定要存敬畏、有底線。一旦在這方面有瑕疵,職業生涯或將葬送。”梁正提醒。

(文中溫睿、徐彬均為化名)

(採 寫:實習記者 吳葉凡 記者 付麗麗 策 劃:劉 恕 李 坤)

(責編:郝孟佳、李昉)

分享讓更多人看到

返回頂部