Seek & Blastn:在癌症研究論文中檢測出基因序列中的錯誤
2017年10月初,科學家Jennifer Byrne和Cyril Labbé分享了一個軟體程式,可以在已經發表的研究實驗中,檢測出不正確的基因序列。利用這個軟體程式,他們在癌症研究的論文中,發現超過了60篇有實驗缺陷。這兩位科學家是將他們在癌症研究和電腦的專業知識結合起來,開發和導入軟體「Seek & Blastn」。這個軟體程式現在正處於測試階段,可供同儕研究人員作線上測試和改進。下一步將進行商業化,並向出版商和期刊編輯推薦該軟體。
自2015年以來,Byrne便致力於識別人類癌症論文中的錯誤,在5篇論文中檢測出基因功能的錯誤。在審查過程中,發現報告中的核苷酸序列(nucleotide sequences)是不正確的,因此有兩篇論文遭到撤回。後續還有兩篇論文在11月21日亦遭撤回。這些錯誤又出現在其他25篇論文中,也促成Byrne和Labbé正式開發和導入「Seek & Blastn」檢測工具。
對於這套檢測工具的原理,簡而言之,從上傳到軟體的任何給定論文中所選出的核苷酸序列,進行基於事實的測試。從技術來說,軟體程式交叉比對檢查選出的核苷酸序列,這是稱為核苷酸基本局部調整搜索工具(Nucleotide Basic Local Alignment Search tool,BLAST)的公共資料庫。如果描述的目標人類基因序列與Blastn資料庫不匹配,則會標記錯誤。相反的,半自動化軟體程式也可以檢測被描述為非目標的序列,並且與Blastn資料庫匹配。儘管目前僅限於人類序列,但是它們還希望包括其他物種的序列驗證。
這兩位研究人員在9月份向國際同儕審查和科學出版會議提交了他們計劃的早期研究成果。在會議記錄中概述了該計劃如何提高科學品質和信譽。根據設計,「Seek & Blastn」半自動化工具使用實體識別技術提取了基因標識符號(gene identifier)和核苷酸序列(nucleotide sequences)。使用機器自動分析包含每個序列的基因句,與blastn分析相比較,選定一個聲稱狀態。Google Scholar可以進一步評估文獻中的聲稱狀態。首先,研究鑑別出一組高度相似的癌症研究出版物(CorpusP)。這項研究進一步包括了另外一組154個未知研究(CorpusU)。
根據這項研究,使用「Seek & Blastn」在這些出版物提取了核苷酸序列,其中CorpusP有48/48 (100%),以及CorpusU有111/154(72%)。在CorpusP中標記了不正確的核苷酸序列,占38/48 (79%)。
此外,該工具表明,與目標序列(targeting sequences)相比,非目標序列(nontargeting sequences)的預測是不正確的。檢出核苷酸序列不正確占30/154(19%),雖然異常比例很小,但事實查核程式仍然存在實質性的錯誤。因此,將論文丟進軟體查核後,目前還需要額外的人工查核。當基因辨識發生變異時,程式也會在目標序列分析中也有風險。目前Seek & Blastn只是一個小規模測試性質的程式,仍需要生醫學界的同儕審查作後續的完整分析。
儘管該軟體處於初步狀態,但它突顯出了現有出版物中的一些核心問題。例如,在現有出版物中驗證出的序列不匹配,可以使論文的結果和結論無效。不正確的序列鑑別結果可說明:論文中的結果無法對原始實驗作真實的反映。這兩位研究人員總共在90多篇論文中發現了不正確的序列。從如此的錯誤看來,正在進行中的研究,其有效性和方法對於未來的實驗可複製性(reproducibility)有著嚴重的影響。
利用「Seek & Blastn」可促進良好的科學實踐,而非趕盡殺絕。期望這一類工具將可使錯誤率量化,以控管預防複製實驗的危機。此外,Labbé先前使120篇論文遭撤回,這也是促成出版商使用Seek & Blastn工具作為文章篩選過程的動力。基於軟體的成本、準確性和易用性,將可望提高現有的學術出版標準。學術期刊的編輯可以與之共同開發軟體的試用版本,在穩定成熟並且建立可信度之後,有利於隨後將進行的商業化。