抄襲檢查軟體值得相信嗎?
學術誠信是學術界的嚴肅議題,端賴它確保整個科學界繼續致力於產出具有科學突破性的原創研究和想法。因此,科學家需要努力地保持對科學的誠實,並讓科學不被誤導性的言論和學術不誠實污染。
要做到這一點,其中之一是使用抄襲檢查工具來保護研究誠信,查處抄襲他人的論文。不同類型的抄襲都會造成危害,為防止抄襲,學術期刊開始使用依賴演算法的抄襲檢查工具。這引發了關於抄襲、剽竊檢測的使用,以及編輯在期刊論文投稿流程上角色的爭論。
抄襲檢查工具的弱點
許多研究人員有因為期刊使用抄襲檢查工具而被退稿的經驗。HTW柏林應用科學大學媒體和計算學教授Debora Weber-Wulff認為,。期刊過於依賴軟體,而不是靠編輯的敏銳眼光。此外,期刊通常依賴於這些抄襲檢查工具產生的單一報告,很少尋求其他的意見。
Weber-Wulff說,報告往往難以解讀,有時甚至根本就不正確。如果沒有明確的前後文,所產生的分數( 「原創性分數」或「 非獨特內容」)可能難以分析。有時甚至會誤計入常用短語、機構名稱、或參考文獻中的內容。
另一個缺點是抄襲檢查工具只能指出文本的重複。這意味著它們會查找另一份稿件中出現的三到五個單詞的字串。因此,抄襲檢查工具可能無法測出真正的抄襲行為。若作者翻譯資訊來源,或從多個來源拼湊,這類軟體無法準確地偵測出剽竊。
人工檢測的需求
《EMBO期刊》的主編Bernd Pulverer表示,這些系統「 無法查出概念剽竊,也沒法發現在沒有引述的情況下重新呈現類似結果,或者是未經許可而使用的數據資料」。只有人工編輯可以仔細閱讀文本之後,研究稿件不一致之處,才能發現這類抄襲。
法國國家科學研究中心行為科學家Jean-François Bonnefon分享了他的個人經歷。他投稿的稿件被檢測出剽竊而被拒絕。然而,被標記的問題段落不是概念或研究內容,而是研究方法、參考文獻和作者單位資料。如果稿件有由編輯審閱,就可以輕易避免這樣的誤判。然而Bonnefon的例子指出「顯然這一過程中沒有人工介入」,證明了抄襲檢查工具在使用上的限制。從審稿流程中排除人工編輯審閱,依賴演算法的自動系統犯了嚴重的失誤。
佛羅里達州Moffit癌症中心的Travis Gerke也有類似經歷。他向Springer Nature期刊投稿的一篇論文被抄襲檢查工具標出違規──出問題的部分是作者名單、參考文獻和制式病患同意聲明。Gerke說,這些部分沒有重覆才有問題。審稿的編輯一看就會知道,病患同意聲明在整個學界都是制式語言。
不同的抄襲檢查軟件
學術期刊使用四種主要的抄襲檢查工具,每個都有特色,但也有其自身的局限性。
- Grammarly掃描數十億的網頁,並在龐大學術資源庫進行比對。
- iThenticate使用包括了來自800學術出版商的近5千萬部出版品的大型數據庫。
- Plagscan使用包含學術和數位內容的大型數據庫。
- Crossref將稿件全文與近4千萬份文稿和2千萬網路文獻進行比對。
這些系統的最大的限制是非逐字抄襲。這涉及包括「文本清洗」等重寫文本的不同方法,。 英國科研道德組織Publication Integrity and Ethics (PIE)關於抄襲檢查軟體的研究中定義「文本清洗」為:改變單詞的順序、刪除填充虛詞、或使用同義詞代替,以「騙過」抄襲檢查軟體的方法。由於剽竊檢測軟體無法分析內容實質,在判斷概念或資訊是否為抄襲上的能力是有限的。
修復破損的系統
抄襲的後果嚴重有害,會扭曲科學家的工作、阻礙科學的進步。此外還可能會降低公眾對科研工作的信任,進而降低從事科學研究工作的興趣。因此學界必需正視。
Springer Nature旗下期刊已開始實施基本人工編輯審稿。Springer Nature的通訊主管Susie Winter最近向The Scientist解釋流程。「文稿首先經人工審查,然後使用技術檢查,然後再交付人工審查……在Springer Nature,所有決定都是由編輯主導的。要求稿件最少需要經過一名編輯審稿是必要的,首先可以協助解讀抄襲檢查工具的報告;其次,可以糾正報告中可能產生的錯誤。」
包括Elsevier和Springer Nature在內的許多出版商,已在試驗可輔助同儕評審過程的人工智慧工具,側重於AI程式在指出統計問題和辨識主要陳述的能力。Bernd Pulverer認為這些將成為有用的編輯工具,但像大多數有類似觀點的人一樣,他並不認為這些AI工具或任何其他抄襲檢查工具,能比得上編輯的經驗和判斷能力。