Google釋出目前最大型的圖文資料集WIT

Google推出了以維基百科為基礎的大型多模態資料集WIT，藉由擷取維基百科中相關聯的文字段落，以及維基媒體影象所組成，這些資料經過嚴格的篩選過濾，僅收集高品質的影象文字集。WIT資料集內建3，750萬筆圖文樣本，包括了108種語言，和1，150張獨特的影象。

研究人員提到，多模態視覺語言模型，依賴豐富的訓練資料集，來對影象和文字之間的關係進行建模，而在過去，這些資料集必須透過手動，替影象加上標題，或是使用爬蟲擷取網頁圖片的替代文字，作為註解。

雖然人工製作的資料集品質較高，但是也因為需要大量的手動註解工作，因此限制了可以產生的資料量，相反的，雖然自動方法可以產生更大的資料集，但是需要以啟發式方法，仔細過濾內容，來確保資料品質，以及模型的效能。而且當前的資料集還有另一個缺點，便是欠缺非英文的樣本。

為此，Google研究人員製作了WIT資料集，提供一個包含多種內容的高品質、大型且多語言資料集。WIT是目前最大的公開圖文範例資料集，其涵蓋的語言比任何資料集還要多10倍，更重要的是，WIT和每個影象只有一個標題的典型多模態資料集不同，WIT中的影象註解為段落甚至是章節等級的上下文資訊。

研究人員提到，WIT的目標是要在不犧牲品質和覆蓋率的情況下，建立大量資料集，而由於目前維基百科是世界上最大的線上百科全書，因此他們決定使用維基百科來建立資料集。研究人員選擇包含圖片的維基百科頁面，並且擷取影象周圍的文字，刪除像是預設填充文字等，來確保資料的品質，研究人員也篩選影象，確保影象在一定尺寸以上，還排除仇恨言論，使其適用於各種研究上。

研究人員邀請人類編輯，來對WIT進行評估，在圖文搭配上獲得98%的滿意度。由於維基百科涵蓋廣泛的概念，因此WIT評估資料集也可當作是具有挑戰性的模型基準，研究人員表示，WIT資料集可以讓其他研究人員，構建更好的多模態多語言模型，最終改善用於現實世界視覺語言任務的機器學習模型。

愛伊米

Google釋出目前最大型的圖文資料集WIT

相關文章

推薦文章