Crossref：讓研究人員挖掘文字和數據

On Oct 17, 2017 Last updated Jul 20, 2020

每年都有數以百萬計的書籍和期刊出版。研究人員經常都需要去回答一個問題，他們究竟如何找到他們所需要的材料？過去，研究人員習慣上從電腦螢幕上，透過擷取電腦畫面的手法來收集數據，這是一種利用電腦上網獲取數據的過程。到了今天，有一種精密複雜的工具，在Crossref等組織的推動下，讓讀者去挖掘文字和數據(text and data mining，TDM)。自從2000年Crossref成立以來，學術出版突飛猛進。該組織目前有超過5000名成員，來自各學科、學術團體、出版社和提供開放獲取的出版商。Crossref使用自然語言處理(natural language processing，NLP)，更易於挖掘期刊和書籍中的資訊。什麼是文字挖掘呢？文字挖掘和數據挖掘是使用數據挖掘工具，來幫助研究人員分析和過濾數據資源，同時亦使用機器檢測其樣式和相關連結。那麼，在開放獲取內容的世界中，TDM要如何工作？

Crossref的出發點

首先，研究人員要先確定想要跟哪個期刊合作，這是一個冗長乏味的過程，因為有數以千計的期刊可列入候選。對於研究人員來說，從候選清單上，挨家挨戶去拜訪每一家期刊，是很不切實際的。它還需要某種形式的基礎平台結構來促進這個提供內容的過程，能從一個出版商傳遞數據給需要獲取內容的100位研究人員。這個過程的最終目的是從挖掘數據中收集期刊。為了方便這個過程，Elsevier等出版商已經建立了文章程式設計介面(article programming interfaces, API)，這是一種批量下載內容的捷徑。由於Crossref參與了數以千計的期刊，它讓學術研究人員訂閱以及開放獲取內容，來解決與TDM相關的邏輯和技術問題。

CrossRef元數據的作用

第二，研究人員需要將TDM工具應用於所希望挖掘的一組數據。為了收集大量數據，研究人員需要從出版商和多個平台上面，批量下載這些內容。數位物件識別碼(Digital object identifiers，DOI)和元數據(Metadata)在這裡是很有用的，因為他們使線上期刊的內容很穩定，並確保在其發佈的地方是可用的。CrossRef是最大的DOI註冊機構。如果網址有部分內容變更，成員可以去更新Crossref的元數據。在2013年推出的Crossref Metadata API，可以用來提供跨出版商在TDM的支援。它是免費使用，允許任何人搜索和過濾CrossRef元數據，也使它更容易融入研究社群，增加曝光度。

TDM應用與分析

第三，研究人員可以在應用TDM工具之後，分析所收集的結果。文字和數據挖掘常常與視覺化技術相結合，以便於在數據中發現圖像。這些技術包括標籤雲、流量圖、樹狀圖、熱區圖、散佈圖和時間序列，它們都可以用來顯示實體之間的關係。除了檢測圖像之外，可以使用這些技術自動指派文件檔案給群組，而不需要人工介入。最後，最原始的研究問題可以從TDM篩選過後的主題中，獲得解答。

文字和數據挖掘和開放獲取

什麼是文字挖掘呢？文字挖掘是跨越出版商平台作挖掘數據的行為，也是擷取電腦畫面手段的一種演化。文字和數據挖掘是一個不斷演化的領域，其應用也變得越來越有價值。隨著電腦能力越來越強，伴隨的就是數位內容的快速增長，使得研究人員對未來充滿了憧憬。在開放獲取內容的世界中，數據挖掘工具將扮演關鍵的角色，協助研究人員在期刊和線上豐富的內容中尋找資訊。Crossreft持續在克服邏輯和技術方面的障礙，利用跨出版平台的模式，將學術期刋整合在一起。

研究人員的數位工具研究數據管理

Crossref：讓研究人員挖掘文字和數據

撰寫論文

發表研究

重要鏈接

關於我們

重要聯結

Ulatus worldwide