每年都有數以百萬計的書籍和期刊出版。研究人員經常都需要去回答一個問題,他們究竟如何找到他們所需要的材料?過去,研究人員習慣上從電腦螢幕上,透過擷取電腦畫面的手法來收集數據,這是一種利用電腦上網獲取數據的過程。到了今天,有一種精密複雜的工具,在Crossref等組織的推動下,讓讀者去挖掘文字和數據(text and data mining,TDM)。自從2000年Crossref成立以來,學術出版突飛猛進。該組織目前有超過5000名成員,來自各學科、學術團體、出版社和提供開放獲取的出版商。Crossref使用自然語言處理(natural language processing,NLP),更易於挖掘期刊和書籍中的資訊。什麼是文字挖掘呢?文字挖掘和數據挖掘是使用數據挖掘工具,來幫助研究人員分析和過濾數據資源,同時亦使用機器檢測其樣式和相關連結。那麼,在開放獲取內容的世界中,TDM要如何工作?
Crossref的出發點
首先,研究人員要先確定想要跟哪個期刊合作,這是一個冗長乏味的過程,因為有數以千計的期刊可列入候選。對於研究人員來說,從候選清單上,挨家挨戶去拜訪每一家期刊,是很不切實際的。它還需要某種形式的基礎平台結構來促進這個提供內容的過程,能從一個出版商傳遞數據給需要獲取內容的100位研究人員。這個過程的最終目的是從挖掘數據中收集期刊。為了方便這個過程,Elsevier等出版商已經建立了文章程式設計介面(article programming interfaces, API),這是一種批量下載內容的捷徑。由於Crossref參與了數以千計的期刊,它讓學術研究人員訂閱以及開放獲取內容,來解決與TDM相關的邏輯和技術問題。
CrossRef元數據的作用
第二,研究人員需要將TDM工具應用於所希望挖掘的一組數據。為了收集大量數據,研究人員需要從出版商和多個平台上面,批量下載這些內容。數位物件識別碼(Digital object identifiers,DOI)和元數據(Metadata)在這裡是很有用的,因為他們使線上期刊的內容很穩定,並確保在其發佈的地方是可用的。CrossRef是最大的DOI註冊機構。如果網址有部分內容變更,成員可以去更新Crossref的元數據。在2013年推出的Crossref Metadata API,可以用來提供跨出版商在TDM的支援。它是免費使用,允許任何人搜索和過濾CrossRef元數據,也使它更容易融入研究社群,增加曝光度。
TDM應用與分析
第三,研究人員可以在應用TDM工具之後,分析所收集的結果。文字和數據挖掘常常與視覺化技術相結合,以便於在數據中發現圖像。這些技術包括標籤雲、流量圖、樹狀圖、熱區圖、散佈圖和時間序列,它們都可以用來顯示實體之間的關係。除了檢測圖像之外,可以使用這些技術自動指派文件檔案給群組,而不需要人工介入。最後,最原始的研究問題可以從TDM篩選過後的主題中,獲得解答。
文字和數據挖掘和開放獲取
什麼是文字挖掘呢?文字挖掘是跨越出版商平台作挖掘數據的行為,也是擷取電腦畫面手段的一種演化。文字和數據挖掘是一個不斷演化的領域,其應用也變得越來越有價值。隨著電腦能力越來越強,伴隨的就是數位內容的快速增長,使得研究人員對未來充滿了憧憬。在開放獲取內容的世界中,數據挖掘工具將扮演關鍵的角色,協助研究人員在期刊和線上豐富的內容中尋找資訊。Crossreft持續在克服邏輯和技術方面的障礙,利用跨出版平台的模式,將學術期刋整合在一起。