該相信AI還是同儕評審?中國國家自然科學基金利用AI找審查人
匿名且有各種回避措施的同儕審查是今日大部分學術期刊所依賴的評審制度,也是整個學術界的根基,隨著全球高等教育水準的提升及學術研究的快速發展,許多頂尖期刊的論文審查量暴增,擔任同儕審查的審查人工作分量也跟著超飽和,成為整個學術界極待解決的問題。
2016 年Vox Media旗下新聞網站Vox登了一篇對英語世界學者進行的調查,點出同儕審查制度的崩壞。中國學術界最近陸續有NeurIPS被爆料,用剛畢業且沒有在NeurIPS刊登過論文的大學生擔任審查人,人工智慧界頂級會議IJCAI 19遭同樣批評,就在2019年11月初,深度學習領域頂級會議ICLR 2020被爆47%審查人無相關經驗,因為資深學者跟不上新進學者的成長速度,有人擔心,這樣的現象可能會摧毀整個學術界。
中國學術市場的同儕審查到底壓力有多大?NSFC(中國國家自然科學基金委員會)在2018年就評審了22.5萬份資助申請,幾乎是美國國家科學基金會收到的6倍,而且數字還在成長中。在缺乏足夠審查人的現實下,NSFC被迫創新:今年5月Nature發表文章指出,NSFC正在建立一個複雜的系統,將利用自然語言處理技術搜索線上科學文獻資料庫和科學家的個人網頁,收集潛在審查人員的出版品或研究計畫的詳細資訊。NSFC負責人李靜海表示,希望這個工具能夠減少審查人的偏見,畢竟AI是不會被行賄收買的。
2017年Elsevier開發了一套名為Evise的自動化工具來協助同儕審查,Frontiers也在2018年推出下一代評審系統AIRA,試圖解決不斷增加的投稿量,並更有效地維持稿件和同儕審查品質。今年4月挪威研究委員會開始使用自然語言處理技術,將大約3000份研究提案分組,並與最佳評審小組進行配對。Frontiers的品質和學術倫理高階經理Marie Soulière指出,AI系統能找出可能有問題的論文,標出需要手動檢查的內容,增加審查精準度,在抄襲檢查方面超越人工檢查的成果。
事實上,AI文件審查系統並非學術界的創舉,2018年3 月,專攻合約審查領域的 AI 新創公司 LawGeex 與史丹佛大學、杜克大學和南加州大學的法學教授合作,讓 20 名律師與經過訓練的法律 AI 程挑戰,審查 5 項保密協議,判斷 30 個法律問題,結果律師平均正確率為 85%,AI 則達到 94% 的正確率,而且 AI 只在 26 秒內完成任務,人類律師平均需要 92 分鐘。
然而,許多學者對AI參與同儕審查保持懷疑的態度,最大的質疑是AI連自然語言的處理都還無法過關,又如何處理學術期刊審閱呢?其他人則擔心到頭來AI系統會複製人類判斷中根深蒂固的偏見。還有學者舉出,可能需要花費幾十年才能斷定一個概念是偉大或是無用,連人類都無法處理的議題,難道AI真的可以做得好嗎?其實質疑AI參與審查的人大可稍安勿躁,因為最終決定權力在審查人身上,AI 只是改善或加速流程,並協助人類處理必須投入大量心力才能抓到的錯誤。由於AI 已經能夠在專門的領域特定功能上達到很好的效果,相信AI 與審查人的合作將是學術界的趨勢。