Nature刊文:“學術(shù)剽竊”定義正被AI模糊,我們該如何應對?
(來源:Piotr Kowalczyk,插畫家、平面設計師)
【編者按】今年四月,Science 顛覆了之前的鐵律:規(guī)定允許在論文的“方法”章節(jié)說明后,正當?shù)夭捎蒙墒饺斯ぶ悄埽ˋI)和大語言模型(LLM)制作插圖、撰寫論文內(nèi)容。
如今,AI 能夠幫助研究者騰出更多思考的時間,但問題是,這算不算剽竊?以及在什么情況下應該允許使用這項技術(shù)呢?
近日,科學記者 Diana Kwon 在 Nature 雜志上刊文討論了生成式 AI 工具在學術(shù)寫作中的應用及其帶來的挑戰(zhàn)和影響。
她指出,ChatGPT 等生成式 AI 工具在節(jié)省時間、提高清晰度并減少語言障礙方面展現(xiàn)出了巨大的潛在價值,但同時也可能涉及剽竊和侵犯版權(quán)的問題。
她還提到,AI 的使用在學術(shù)寫作中已經(jīng)爆炸性增長,尤其是在生物醫(yī)學領(lǐng)域。?cè)欢?,?檢測 AI 生成的文本存在困難,因為它們可以通過輕微編輯變得幾乎無法檢測。同時,AI 工具的合法與非法使用界限可能會進一步模糊,因為越來越多的應用程序和工具正在集成 AI 功能。
最后,她認為,需要更清晰的關(guān)于 AI 在學術(shù)寫作中使用的指導方針,以幫助研究人員和期刊確定何時使用 AI 工具是恰當?shù)?,?以及如何披露其使用情況。
學術(shù)頭條在不改變原文大意的情況下,做了簡單的編譯。內(nèi)容如下:
從一月份哈佛大學校長因被指控而辭職,到二月份同行評審報告中出現(xiàn)的剽竊文本被揭露,今年的學術(shù)界因剽竊事件而動蕩不安。
但學術(shù)寫作正面臨著一個更大的問題。生成式人工智能(AI)工具的迅速普及引發(fā)了關(guān)于這算不算剽竊以及在什么情況下應該允許使用的疑問。路易斯安那州新奧爾良市的版權(quán)和剽竊顧問 Jonathan Bailey 說:“從完全由人撰寫到完全由 AI 撰寫,AI 的使用范圍很廣,中間是一片巨大的混淆地帶。”
基于大語言模型(LLM)的生成式 AI 工具,如 ChatGPT,可以節(jié)省時間,使文本更加清晰易懂并減少語言障礙。現(xiàn)在,許多研究人員認為,在某些情況下它們是可以接受的,并且應該完全公開其使用情況。
但這些工具使原本關(guān)于不當使用他?cè)俗髌返募ち肄q論變得更加復雜。LLM 經(jīng)過訓練,可以通過學習大量已發(fā)表的寫作來生成文本。因此,如果研究人員將機器的工作成果據(jù)為己有,或者機器生成的文本與某人的作品非常相似但沒有注明來源,這可能會導致類似剽竊的行為。這些工具還可以用來掩飾故意剽竊的文本,而且它們的使用很難被發(fā)現(xiàn)。英國普利茅斯大學的生態(tài)學家 Pete Cotton 說:“界定我們所說的學術(shù)不誠實或剽竊是什么,以及邊界在哪里,將非常非常困難。”
在 2023 年一項針對 1600 名研究人員進行的調(diào)查中,68% 的受訪者表示,AI 將使剽竊行為變得更容易且更難被發(fā)現(xiàn)。柏林應用科學大學剽竊鑒定專家 Debora Weber-Wulff 說:“每個人都擔心其他?cè)耸褂眠@些系統(tǒng),他們也擔心自己在應該使用的時候沒有使用。關(guān)于這件事,大家都有些慌亂。”
當剽竊遇見 AI
根據(jù)美國研究誠信辦公室的定義,剽竊是指“未經(jīng)適當引用或致謝,就采用他?cè)说南敕?、過程、結(jié)果或文字”。2015 年的一項研究估計,1.7% 的科學家承認有過剽竊行為,30% 的科學家知道他們的同事有過這種行為。
LLM 可能會使這種情況變得更糟。?cè)绻腥讼茸?LLM 改寫文本,那么故意剽竊人類撰寫的文本就可以輕易地被掩飾。加拿大不列顛哥倫比亞大學計算機科學家和語言學家 Muhammad Abdul-Mageed 說,這些工具可以被引導以復雜的方式進行改寫,比如采用學術(shù)期刊的風格。
一個核心問題是,使用完全由機器編寫而非人類編寫的未注明出處的內(nèi)容是否算作剽竊。許多研究人員說,不一定算。例如,歐洲學術(shù)誠信網(wǎng)絡將使用 AI 工具進行寫作的未經(jīng)授權(quán)或未申報的使用定義為“未經(jīng)授權(quán)的內(nèi)容生成”,而不是剽竊。Weber-Wulff 說:“對我來說,剽竊應該是可以歸因于另一個可識別的人的東西。”她補充說,盡管有生成式 AI 產(chǎn)生幾乎與現(xiàn)有的人類編寫內(nèi)容相同的文本的情況,但這通常不足以被認為是剽竊。
不過,也有些人認為生成式 AI 工具侵犯了版權(quán)。剽竊和侵犯版權(quán)都是不當使用他?cè)俗髌返男袨?,?其中剽竊是違反學術(shù)倫理的行為,而未經(jīng)授權(quán)使用版權(quán)作品可能違反法律。密歇根大學安娜堡分校計算機科學家 Rada Mihalcea 說:“這些 AI 系統(tǒng)是基于數(shù)百萬人甚至數(shù)億人的作品構(gòu)建的。”
一些媒體公司和作者抗議他們視為 AI 侵犯版權(quán)的行為。2023 年 12 月,《紐約時報》對微軟和 OpenAI 提起版權(quán)訴訟。該訴訟稱這兩家公司復制并使用了數(shù)百萬篇《紐約時報》文章來訓練 LLM,如今這些 LLM 生成的內(nèi)容正與該出版物的內(nèi)容“競爭”。訴訟中包括了提示導致 GPT-4 幾乎逐字復制報紙文章的幾個段落的實例。
今年 2 月,OpenAI 在聯(lián)邦法院提出動議,要求駁回訴訟的部分內(nèi)容,稱“ChatGPT 絕不是《紐約時報》訂閱的替代品。”微軟的一位發(fā)言人表示,“合法開發(fā)的 AI 工具應該被允許負責任的發(fā)展”,“它們也不能替代記者所發(fā)揮的重要內(nèi)容”。
如果法院裁定未經(jīng)許可在文本上訓練 AI 確實構(gòu)成版權(quán)侵犯,Bailey 說,“這對 AI 公司來說將是一個巨大的沖擊。”沒有廣泛的訓練集,像 ChatGPT 這樣的工具“就無法存在”。
AI 正在爆炸式蔓延
無論這是否被稱為剽竊,自 2022 年 11 月 ChatGPT 發(fā)布以來,AI 在學術(shù)寫作中的使用已經(jīng)爆炸性增長。
在一篇于 7 月更新的預印本中,研究人員估計,2024 年上半年至少有 10% 的生物醫(yī)學論文摘要使用了 LLM 進行撰寫,相當于每年大約 150000 篇論文。該研究由德國蒂賓根大學數(shù)據(jù)科學家 Dmitry Kobak 領(lǐng)導,分析了 2010 年至 2024 年 6 月之間在學術(shù)數(shù)據(jù)庫 PubMed 上發(fā)表的 1400 萬篇摘要。他們展示了LLM的出現(xiàn)與風格詞匯使用增加有關(guān),例如“delves”、“showcasing”和“underscores”,然后使用這些不尋常的詞匯模式來估計使用 AI 處理的摘要比例。他們寫道:“基于 LLM 的寫作助手的出現(xiàn)在科學文獻中產(chǎn)生了前所未有的影響。”
圖|LLM 的出現(xiàn)與風格詞匯使用增加有關(guān)。
Kobak 預測,LLM 的使用“肯定會繼續(xù)增加”,并且將“可能變得更難檢測”。
在學術(shù)寫作中未公開使用軟件的情況并不新鮮。自 2015 年以來,法國圖盧茲大學計算機科學家 Guillaume Cabanac 和他的同事一直在揭露由名為 SCIgen 的軟件撰寫的“胡言亂語”的論文,以及由自動翻譯或改寫文本的軟件創(chuàng)造的包含“扭曲短語”的論文。Cabanac 說:“即使在生成式 AI 出現(xiàn)之前,人們就已經(jīng)有了這些工具。”
然而,在學術(shù)寫作中使用 AI 也有一些價值。研究人員表示,這可以使文本和概念更清晰,減少語言障礙,并為實驗和思考騰出時間。利雅得沙特國王大學信息技術(shù)研究員 Hend Al-Khalifa 表示,在生成式 AI 工具可用之前,許多將英語作為第二語言的同事在撰寫論文時會感到困難。“現(xiàn)在,他們專注于研究,并使用這些工具消除寫作的麻煩,”她說。
但對于 AI 的使用何時構(gòu)成剽竊或違反倫理,人們?nèi)匀桓械嚼Щ?。馬里蘭大學學院公園計算機科學家 Soheil Feizi 表示,使用 LLM 來改寫現(xiàn)有論文的內(nèi)容明顯是剽竊。但如果透明地使用 LLM 來幫助表達想法——無論是根據(jù)詳細提示生成文本,還是編輯草稿——則不應受到懲罰。Feizi 說:“我們應該允許人們利用 LLM 毫不費力地、清晰地進行表達。”
現(xiàn)在許多期刊都有允許一定程度使用 LLM 的政策。在最初禁止由 ChatGPT 生成的文本之后,Science 在 2023 年 11 月更新了他們的政策,表示在撰寫手稿時使用 AI 技術(shù)的行為應完全披露——包括使用的系統(tǒng)和提示。作者有責任確保準確性和“確保沒有剽竊”。Nature 也表示,研究手稿的作者應在方法部分記錄任何 LLM 的使用。對 100 家大型學術(shù)出版商和 100 份高排名期刊的分析發(fā)現(xiàn),截至 2023 年 10 月,24% 的出版商和 87% 的期刊對使用生成式 AI 有指導方針。幾乎所有提供指導的都說 AI 工具不能被列為作者,但對于允許的 AI 使用類型和所需的披露水平,政策各不相同。Weber-Wulff 表示,急需更清晰的關(guān)于學術(shù)寫作中使用 AI 的指導方針。
目前,Abdul-Mageed 表示,撰寫科學論文時廣泛使用 LLM 的行為因其局限性而受到制約。用戶需要創(chuàng)建詳細提示,描述受眾、語言風格和研究子領(lǐng)域。“實際上,要讓一個語言模型給你確切想要的東西是非常困難的,”他說。
但 Abdul-Mageed 表示,開發(fā)者正在構(gòu)建應用程序,這將使研究人員更容易生成專業(yè)科學內(nèi)容。他說,未來用戶可能只需從下拉菜單中選擇選項,按下一個按鈕,就能從零開始生成整篇論文,而無需編寫詳細提示。
邊界可能會進一步模糊
在快速采用 LLM 編寫文本的同時,也出現(xiàn)了大量旨在檢測 LLM 的工具。盡管許多工具宣稱準確率很高——在某些情況下超過 90%——但研究表明,大多數(shù)工具并沒有達到對外宣稱的準確率。在去年 12 月發(fā)表的一項研究中,Weber-Wulff 和她的同事評估了在學術(shù)界廣泛使用的 14 種 AI 檢測工具。其中只有 5 種能夠準確識別 70% 或更多的文本為 AI 或人類撰寫,沒有一個得分超過 80%。
當檢測到有人輕微編輯 AI 生成的文本,通過替換同義詞和重新排列句子時,檢測器的準確率平均下降到 50% 以下。作者寫道,這樣的文本“幾乎無法被當前工具檢測到”。其他研究也顯示,多次要求 AI 改寫文本會大幅降低檢測器的準確率。
此外,AI 檢測器還存在其他問題。一項研究表明,如果英語文章是由非英語為母語的人所寫,它們更可能錯誤地將這些寫作歸類為 AI 生成。Feizi 說,檢測器無法可靠地區(qū)分完全由 AI 撰寫的文本和作者使用基于 AI 的服務來潤色文本的情況,后者通過幫助語法和句子清晰度來改進文本。“區(qū)分這些情況將非常困難和不可靠——可能導致極高的誤報率,”他說。他補充說,被錯誤地指控使用 AI,可能對那些學者或?qū)W生的聲譽造成“相當大的損害”。
合法與非法使用 AI 的邊界可能會進一步模糊。2023 年 3 月,微軟開始將其生成式 AI 工具整合到其應用程序中,包括 Word、PowerPoint 和 Outlook。其 AI 助手 Copilot 的一些版本可以起草或編輯內(nèi)容。6 月,谷歌也開始將其生成式 AI 模型 Gemini 整合到 Docs 和 Gmail 等工具中。
“AI 正在變得如此深入地嵌入我們使用的所有東西中,我認為人們將越來越難以知道你所做的事情是否受到了 AI 的影響,”英國圣馬可和圣約翰大學高等教育專家 Debby Cotton 說。“我認為我們可能無法跟上它的發(fā)展速度。”
編譯:馬雪薇
原文作者:Diana Kwon,自由科學記者
021yin.com/articles/d41586-024-02371-z