愛伊米

Google釋出目前最大型的圖文資料集WIT

Google釋出目前最大型的圖文資料集WIT

Google推出了以維基百科為基礎的大型多模態資料集WIT,藉由擷取維基百科中相關聯的文字段落,以及維基媒體影象所組成,這些資料經過嚴格的篩選過濾,僅收集高品質的影象文字集。WIT資料集內建3,750萬筆圖文樣本,包括了108種語言,和1,150張獨特的影象。

研究人員提到,多模態視覺語言模型,依賴豐富的訓練資料集,來對影象和文字之間的關係進行建模,而在過去,這些資料集必須透過手動,替影象加上標題,或是使用爬蟲擷取網頁圖片的替代文字,作為註解。

雖然人工製作的資料集品質較高,但是也因為需要大量的手動註解工作,因此限制了可以產生的資料量,相反的,雖然自動方法可以產生更大的資料集,但是需要以啟發式方法,仔細過濾內容,來確保資料品質,以及模型的效能。而且當前的資料集還有另一個缺點,便是欠缺非英文的樣本。

為此,Google研究人員製作了WIT資料集,提供一個包含多種內容的高品質、大型且多語言資料集。WIT是目前最大的公開圖文範例資料集,其涵蓋的語言比任何資料集還要多10倍,更重要的是,WIT和每個影象只有一個標題的典型多模態資料集不同,WIT中的影象註解為段落甚至是章節等級的上下文資訊。

研究人員提到,WIT的目標是要在不犧牲品質和覆蓋率的情況下,建立大量資料集,而由於目前維基百科是世界上最大的線上百科全書,因此他們決定使用維基百科來建立資料集。研究人員選擇包含圖片的維基百科頁面,並且擷取影象周圍的文字,刪除像是預設填充文字等,來確保資料的品質,研究人員也篩選影象,確保影象在一定尺寸以上,還排除仇恨言論,使其適用於各種研究上。

研究人員邀請人類編輯,來對WIT進行評估,在圖文搭配上獲得98%的滿意度。由於維基百科涵蓋廣泛的概念,因此WIT評估資料集也可當作是具有挑戰性的模型基準,研究人員表示,WIT資料集可以讓其他研究人員,構建更好的多模態多語言模型,最終改善用於現實世界視覺語言任務的機器學習模型。