亚洲日韩一区二区三区,精品无码一区二区三区爱欲九九,一区二区三区无码视频免费福利,av无码免费永久在线观看

當前位置：首頁 > 百科 > 正文內(nèi)容

Nature刊文：“學術(shù)剽竊”定義正被AI模糊，我們該如何應對？

屈涵柏6個月前 (08-02)百科19

印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報價?聯(lián)系電話：138-1621-1622（微信同號）

（來源：Piotr Kowalczyk，插畫家、平面設計師）

【編者按】今年四月，Science 顛覆了之前的鐵律：規(guī)定允許在論文的“方法”章節(jié)說明后，正當?shù)夭捎蒙墒饺斯ぶ悄埽ˋI）和大語言模型（LLM）制作插圖、撰寫論文內(nèi)容。

如今，AI 能夠幫助研究者騰出更多思考的時間，但問題是，這算不算剽竊？以及在什么情況下應該允許使用這項技術(shù)呢？

近日，科學記者 Diana Kwon 在 Nature 雜志上刊文討論了生成式 AI 工具在學術(shù)寫作中的應用及其帶來的挑戰(zhàn)和影響。

她指出，ChatGPT 等生成式 AI 工具在節(jié)省時間、提高清晰度并減少語言障礙方面展現(xiàn)出了巨大的潛在價值，但同時也可能涉及剽竊和侵犯版權(quán)的問題。

她還提到，AI 的使用在學術(shù)寫作中已經(jīng)爆炸性增長，尤其是在生物醫(yī)學領(lǐng)域。?cè)欢?，?檢測 AI 生成的文本存在困難，因為它們可以通過輕微編輯變得幾乎無法檢測。同時，AI 工具的合法與非法使用界限可能會進一步模糊，因為越來越多的應用程序和工具正在集成 AI 功能。

最后，她認為，需要更清晰的關(guān)于 AI 在學術(shù)寫作中使用的指導方針，以幫助研究人員和期刊確定何時使用 AI 工具是恰當?shù)?，?以及如何披露其使用情況。

學術(shù)頭條在不改變原文大意的情況下，做了簡單的編譯。內(nèi)容如下：

從一月份哈佛大學校長因被指控而辭職，到二月份同行評審報告中出現(xiàn)的剽竊文本被揭露，今年的學術(shù)界因剽竊事件而動蕩不安。

但學術(shù)寫作正面臨著一個更大的問題。生成式人工智能（AI）工具的迅速普及引發(fā)了關(guān)于這算不算剽竊以及在什么情況下應該允許使用的疑問。路易斯安那州新奧爾良市的版權(quán)和剽竊顧問 Jonathan Bailey 說：“從完全由人撰寫到完全由 AI 撰寫，AI 的使用范圍很廣，中間是一片巨大的混淆地帶。”

基于大語言模型（LLM）的生成式 AI 工具，如 ChatGPT，可以節(jié)省時間，使文本更加清晰易懂并減少語言障礙。現(xiàn)在，許多研究人員認為，在某些情況下它們是可以接受的，并且應該完全公開其使用情況。

但這些工具使原本關(guān)于不當使用他?cè)俗髌返募ち肄q論變得更加復雜。LLM 經(jīng)過訓練，可以通過學習大量已發(fā)表的寫作來生成文本。因此，如果研究人員將機器的工作成果據(jù)為己有，或者機器生成的文本與某人的作品非常相似但沒有注明來源，這可能會導致類似剽竊的行為。這些工具還可以用來掩飾故意剽竊的文本，而且它們的使用很難被發(fā)現(xiàn)。英國普利茅斯大學的生態(tài)學家 Pete Cotton 說：“界定我們所說的學術(shù)不誠實或剽竊是什么，以及邊界在哪里，將非常非常困難。”

在 2023 年一項針對 1600 名研究人員進行的調(diào)查中，68% 的受訪者表示，AI 將使剽竊行為變得更容易且更難被發(fā)現(xiàn)。柏林應用科學大學剽竊鑒定專家 Debora Weber-Wulff 說：“每個人都擔心其他?cè)耸褂眠@些系統(tǒng)，他們也擔心自己在應該使用的時候沒有使用。關(guān)于這件事，大家都有些慌亂。”

當剽竊遇見 AI

根據(jù)美國研究誠信辦公室的定義，剽竊是指“未經(jīng)適當引用或致謝，就采用他?cè)说南敕?、過程、結(jié)果或文字”。2015 年的一項研究估計，1.7% 的科學家承認有過剽竊行為，30% 的科學家知道他們的同事有過這種行為。

LLM 可能會使這種情況變得更糟。?cè)绻腥讼茸?LLM 改寫文本，那么故意剽竊人類撰寫的文本就可以輕易地被掩飾。加拿大不列顛哥倫比亞大學計算機科學家和語言學家 Muhammad Abdul-Mageed 說，這些工具可以被引導以復雜的方式進行改寫，比如采用學術(shù)期刊的風格。

一個核心問題是，使用完全由機器編寫而非人類編寫的未注明出處的內(nèi)容是否算作剽竊。許多研究人員說，不一定算。例如，歐洲學術(shù)誠信網(wǎng)絡將使用 AI 工具進行寫作的未經(jīng)授權(quán)或未申報的使用定義為“未經(jīng)授權(quán)的內(nèi)容生成”，而不是剽竊。Weber-Wulff 說：“對我來說，剽竊應該是可以歸因于另一個可識別的人的東西。”她補充說，盡管有生成式 AI 產(chǎn)生幾乎與現(xiàn)有的人類編寫內(nèi)容相同的文本的情況，但這通常不足以被認為是剽竊。

不過，也有些人認為生成式 AI 工具侵犯了版權(quán)。剽竊和侵犯版權(quán)都是不當使用他?cè)俗髌返男袨?，?其中剽竊是違反學術(shù)倫理的行為，而未經(jīng)授權(quán)使用版權(quán)作品可能違反法律。密歇根大學安娜堡分校計算機科學家 Rada Mihalcea 說：“這些 AI 系統(tǒng)是基于數(shù)百萬人甚至數(shù)億人的作品構(gòu)建的。”

一些媒體公司和作者抗議他們視為 AI 侵犯版權(quán)的行為。2023 年 12 月，《紐約時報》對微軟和 OpenAI 提起版權(quán)訴訟。該訴訟稱這兩家公司復制并使用了數(shù)百萬篇《紐約時報》文章來訓練 LLM，如今這些 LLM 生成的內(nèi)容正與該出版物的內(nèi)容“競爭”。訴訟中包括了提示導致 GPT-4 幾乎逐字復制報紙文章的幾個段落的實例。

今年 2 月，OpenAI 在聯(lián)邦法院提出動議，要求駁回訴訟的部分內(nèi)容，稱“ChatGPT 絕不是《紐約時報》訂閱的替代品。”微軟的一位發(fā)言人表示，“合法開發(fā)的 AI 工具應該被允許負責任的發(fā)展”，“它們也不能替代記者所發(fā)揮的重要內(nèi)容”。

如果法院裁定未經(jīng)許可在文本上訓練 AI 確實構(gòu)成版權(quán)侵犯，Bailey 說，“這對 AI 公司來說將是一個巨大的沖擊。”沒有廣泛的訓練集，像 ChatGPT 這樣的工具“就無法存在”。

AI 正在爆炸式蔓延

無論這是否被稱為剽竊，自 2022 年 11 月 ChatGPT 發(fā)布以來，AI 在學術(shù)寫作中的使用已經(jīng)爆炸性增長。

在一篇于 7 月更新的預印本中，研究人員估計，2024 年上半年至少有 10% 的生物醫(yī)學論文摘要使用了 LLM 進行撰寫，相當于每年大約 150000 篇論文。該研究由德國蒂賓根大學數(shù)據(jù)科學家 Dmitry Kobak 領(lǐng)導，分析了 2010 年至 2024 年 6 月之間在學術(shù)數(shù)據(jù)庫 PubMed 上發(fā)表的 1400 萬篇摘要。他們展示了LLM的出現(xiàn)與風格詞匯使用增加有關(guān)，例如“delves”、“showcasing”和“underscores”，然后使用這些不尋常的詞匯模式來估計使用 AI 處理的摘要比例。他們寫道：“基于 LLM 的寫作助手的出現(xiàn)在科學文獻中產(chǎn)生了前所未有的影響。”

圖｜LLM 的出現(xiàn)與風格詞匯使用增加有關(guān)。

Kobak 預測，LLM 的使用“肯定會繼續(xù)增加”，并且將“可能變得更難檢測”。

在學術(shù)寫作中未公開使用軟件的情況并不新鮮。自 2015 年以來，法國圖盧茲大學計算機科學家 Guillaume Cabanac 和他的同事一直在揭露由名為 SCIgen 的軟件撰寫的“胡言亂語”的論文，以及由自動翻譯或改寫文本的軟件創(chuàng)造的包含“扭曲短語”的論文。Cabanac 說：“即使在生成式 AI 出現(xiàn)之前，人們就已經(jīng)有了這些工具。”

然而，在學術(shù)寫作中使用 AI 也有一些價值。研究人員表示，這可以使文本和概念更清晰，減少語言障礙，并為實驗和思考騰出時間。利雅得沙特國王大學信息技術(shù)研究員 Hend Al-Khalifa 表示，在生成式 AI 工具可用之前，許多將英語作為第二語言的同事在撰寫論文時會感到困難。“現(xiàn)在，他們專注于研究，并使用這些工具消除寫作的麻煩，”她說。

但對于 AI 的使用何時構(gòu)成剽竊或違反倫理，人們?nèi)匀桓械嚼Щ?。馬里蘭大學學院公園計算機科學家 Soheil Feizi 表示，使用 LLM 來改寫現(xiàn)有論文的內(nèi)容明顯是剽竊。但如果透明地使用 LLM 來幫助表達想法——無論是根據(jù)詳細提示生成文本，還是編輯草稿——則不應受到懲罰。Feizi 說：“我們應該允許人們利用 LLM 毫不費力地、清晰地進行表達。”

現(xiàn)在許多期刊都有允許一定程度使用 LLM 的政策。在最初禁止由 ChatGPT 生成的文本之后，Science 在 2023 年 11 月更新了他們的政策，表示在撰寫手稿時使用 AI 技術(shù)的行為應完全披露——包括使用的系統(tǒng)和提示。作者有責任確保準確性和“確保沒有剽竊”。Nature 也表示，研究手稿的作者應在方法部分記錄任何 LLM 的使用。對 100 家大型學術(shù)出版商和 100 份高排名期刊的分析發(fā)現(xiàn)，截至 2023 年 10 月，24% 的出版商和 87% 的期刊對使用生成式 AI 有指導方針。幾乎所有提供指導的都說 AI 工具不能被列為作者，但對于允許的 AI 使用類型和所需的披露水平，政策各不相同。Weber-Wulff 表示，急需更清晰的關(guān)于學術(shù)寫作中使用 AI 的指導方針。

目前，Abdul-Mageed 表示，撰寫科學論文時廣泛使用 LLM 的行為因其局限性而受到制約。用戶需要創(chuàng)建詳細提示，描述受眾、語言風格和研究子領(lǐng)域。“實際上，要讓一個語言模型給你確切想要的東西是非常困難的，”他說。

但 Abdul-Mageed 表示，開發(fā)者正在構(gòu)建應用程序，這將使研究人員更容易生成專業(yè)科學內(nèi)容。他說，未來用戶可能只需從下拉菜單中選擇選項，按下一個按鈕，就能從零開始生成整篇論文，而無需編寫詳細提示。

邊界可能會進一步模糊

在快速采用 LLM 編寫文本的同時，也出現(xiàn)了大量旨在檢測 LLM 的工具。盡管許多工具宣稱準確率很高——在某些情況下超過 90%——但研究表明，大多數(shù)工具并沒有達到對外宣稱的準確率。在去年 12 月發(fā)表的一項研究中，Weber-Wulff 和她的同事評估了在學術(shù)界廣泛使用的 14 種 AI 檢測工具。其中只有 5 種能夠準確識別 70% 或更多的文本為 AI 或人類撰寫，沒有一個得分超過 80%。

當檢測到有人輕微編輯 AI 生成的文本，通過替換同義詞和重新排列句子時，檢測器的準確率平均下降到 50% 以下。作者寫道，這樣的文本“幾乎無法被當前工具檢測到”。其他研究也顯示，多次要求 AI 改寫文本會大幅降低檢測器的準確率。

此外，AI 檢測器還存在其他問題。一項研究表明，如果英語文章是由非英語為母語的人所寫，它們更可能錯誤地將這些寫作歸類為 AI 生成。Feizi 說，檢測器無法可靠地區(qū)分完全由 AI 撰寫的文本和作者使用基于 AI 的服務來潤色文本的情況，后者通過幫助語法和句子清晰度來改進文本。“區(qū)分這些情況將非常困難和不可靠——可能導致極高的誤報率，”他說。他補充說，被錯誤地指控使用 AI，可能對那些學者或?qū)W生的聲譽造成“相當大的損害”。

合法與非法使用 AI 的邊界可能會進一步模糊。2023 年 3 月，微軟開始將其生成式 AI 工具整合到其應用程序中，包括 Word、PowerPoint 和 Outlook。其 AI 助手 Copilot 的一些版本可以起草或編輯內(nèi)容。6 月，谷歌也開始將其生成式 AI 模型 Gemini 整合到 Docs 和 Gmail 等工具中。

“AI 正在變得如此深入地嵌入我們使用的所有東西中，我認為人們將越來越難以知道你所做的事情是否受到了 AI 的影響，”英國圣馬可和圣約翰大學高等教育專家 Debby Cotton 說。“我認為我們可能無法跟上它的發(fā)展速度。”

編譯：馬雪薇

原文作者：Diana Kwon，自由科學記者

021yin.com/articles/d41586-024-02371-z

☆收藏0

標簽: AI LLM 成式 ChatGPT 2023

返回列表

上一篇：古今同場AI奧運 | 禮射VS射箭

下一篇：AI賦能！AR行業(yè)再度升溫，AI人工智能ETF(512930)近3月新增份額居可比基金首位

亚洲日韩一区二区三区,精品无码一区二区三区爱欲九九,一区二区三区无码视频免费福利,av无码免费永久在线观看

Nature刊文：“學術(shù)剽竊”定義正被AI模糊，我們該如何應對？

發(fā)表評論

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠電話:021-63063076 ｜廣告合作QQ:546790004｜免責聲明 / 網(wǎng)站制作維護

Powered By 吉印通. Theme by JIYINTONG.

亚洲日韩一区二区三区,精品无码一区二区三区爱欲九九,一区二区三区无码视频免费福利,av无码免费永久在线观看

Nature刊文：“學術(shù)剽竊”定義正被AI模糊，我們該如何應對？

發(fā)表評論取消回復

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠 電話:021-63063076 ｜廣告合作QQ:546790004｜免責聲明 / 網(wǎng)站制作維護

Powered By 吉印通. Theme by JIYINTONG.

Nature刊文：“學術(shù)剽竊”定義正被AI模糊，我們該如何應對？

發(fā)表評論

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠電話:021-63063076 ｜廣告合作QQ:546790004｜免責聲明 / 網(wǎng)站制作維護