當世界發(fā)生變化時,人類書寫的文字也會隨之改變。像戰(zhàn)爭、傳染病大流行這樣的重大事件會影響文本語料庫中的詞頻分布??茖W學科的興衰在學術著作中也可見一斑。那么,科學技術的進步是否也在我們的寫作中留下了類似的痕跡呢?
2022 年 11 月,ChatGPT 橫空出世,這讓人類的寫作經(jīng)歷了前所未有的變革:首次出現(xiàn)了一款廣泛可用的大語言模型(LLM),它能夠在包括學術界在內的多個領域生成和修改具有媲美人類表現(xiàn)的文本。此后,許多研究人員在日常寫作任務中融入了大語言模型(LLM),甚至與大語言模型共同撰寫了論文。這也引發(fā)了人們對科研誠信、大語言模型生成內容中的事實錯誤以及論文工廠濫用大語言模型生成虛假論文的擔憂。
基于這些擔憂,有研究人員開始嘗試追蹤大語言模型輔助寫作(LLM-assisted writing)在科學文本中留下的痕跡。
2025 年 7 月 2 日,德國圖賓根大學的研究人員在 Science 子刊 Science Advances 上發(fā)表了題為:Delving into LLM-assisted writing in biomedical publications through excess vocabulary 的研究論文。
該研究顯示,在 2024 年被 PubMed 收錄的 150 萬篇生物醫(yī)學論文中,有大約 20 萬篇論文(占比約1/7)的摘要存在大語言模型生成文本的跡象,這些論文摘要中包含了一些常見于大語言模型(LLM)生成文本中的標志性詞匯,例如"unparalleled"(無與倫比的)和"invaluable"(無價的)。
值得一提的是,該論文曾于 2024 年 6 月在預印本平臺發(fā)布,當時的評估顯示,2024 年上半年的論文中,約 1/9 的論文摘要存在大語言模型生成文本的跡象,這表明了生物醫(yī)學領域使用大語言模型輔助寫作的現(xiàn)象正在加速。
ChatGPT 等大語言模型(LLM)能夠生成和修改文本,其表現(xiàn)甚至可與人類相媲美。但這些模型也存在著明顯的局限性,可能會生成不準確的信息,并強化現(xiàn)有的偏見。然而,許多科學家在學術寫作中使用它們。那么,在學術文獻中,這種大語言模型的使用究竟有多普遍呢?
為了回答這個問題,研究團隊在生物醫(yī)學領域進行了探索,他們提出了一種無偏見的大規(guī)模方法:首先分析了 2010-2024 年之間 PubMed 收錄的超過 1500 萬篇生物醫(yī)學論文的摘要中的詞匯變化,并展示了大語言模型的出現(xiàn)如何導致某些風格的詞匯的頻率突然增加。這種超額詞匯分析表明,2024 年的生物醫(yī)學論文摘要中,至少有 13.5% 是使用大語言模型處理過的。這一比例在不同學科、國家和期刊之間存在差異,在某些子語料庫中甚至達到了 40%。這項研究表明,大語言模型對生物醫(yī)學研究中的科學寫作產(chǎn)生了前所未有的影響,其影響甚至超過了諸如 COVID-19 這樣的重大世界事件。
此前已有許多研究團隊嘗試評估大語言模型(LLM)對學術寫作的影響,但這頗具難度,因為大多數(shù)使用者不會披露這些做法。因此,通常的評估方法是訓練模型來識別人類生成的文本和大語言模型生成的文本之間的差異,然后利用這些差異來評估論文。但目前尚不清楚這些訓練出來的模型是究竟是如何區(qū)分這兩種類型的文本的,而且訓練數(shù)據(jù)集也不總是能代表大語言模型生成文本的最新趨勢。
德國圖賓根大學的數(shù)據(jù)科學家 Dmitry Kobak 受到新冠大流行期間"超額死亡率"相關研究的啟發(fā),提出了一種"超額詞匯"的方法,來檢索論文摘要中在 2022 年 11 月 ChatGPT 發(fā)布之后出現(xiàn)頻率高于預期的詞匯。
他們統(tǒng)計并分析了 2010-2024 年之間 PubMed 收錄的超過 1500 萬篇生物醫(yī)學論文的摘要中的詞匯變化,發(fā)現(xiàn)有 454 個詞匯在 2024 年出現(xiàn)的頻率遠高于 2010 年以來的任何一年,而且,這些詞匯大多是與研究內容無關的"風格"詞,且多為動詞和形容詞。其中一些詞很常見,比如"findings"(發(fā)現(xiàn))、"crucial"(關鍵)和"potential"(潛在),而另一些則較為少見,包括"delves"(探究)和"showcasing"(展示)。2024 年下半年出現(xiàn)的超額詞匯還包括"heighten"(提高)、"hinder"(阻礙),以及諸如"unparalleled"(無與倫比的)和"invaluable"(無價的)之類的最 高級形容詞。
科學術語的變化是隨著時間推移而發(fā)生的--包括伴隨重大事件而出現(xiàn)的顯著變化,比如始于 2020 年的新冠疫情。2021 年新增了 190 個詞匯,它們大多是與研究內容相關的名詞,比如"口罩"(mask)。但自從 ChatGPT 等大語言模型流行以來所發(fā)生的詞匯變化更為顯著,且主要是詞匯風格上變化的。
該研究還顯示,論文寫作中使用大語言模型輔助的比例,在不同學科、國家和期刊之間存在差異,例如,在中國、韓國等國家;在計算機和生物信息學等領域;以及 MDPI、Frontiers 系列期刊,超過五分之一的論文摘要使用了大語言模型輔助寫作。
實際上,大語言模型輔助寫作的比例可能比這篇論文中發(fā)現(xiàn)的還要高,今年 2 月份發(fā)表在預印本平臺 arXiv 的一項研究顯示,AI 生成文本中的一個標志性詞匯"delves"(探究)在 2024 年底開始變得不那么常見了,這可能是因為許多論文作者知道這個詞匯被作為 AI 生成文本的標志性詞匯,于是在寫作中刪除了這些詞匯。這意味著,隨著寫作者的不斷適應和調整,評估 AI 對學術寫作影響的變得越來越困難。
需要指出的是,在學術寫作中使用 AI 并非是不合理的,利用 AI 進行文本潤色或輔助翻譯顯然是合理的用途,但在缺乏監(jiān)督的情況下,使用 AI 生成大篇幅的文本,則可能涉嫌科研誠信問題。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.adt3813
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com