愛伊米

格物鈦,甘做AI鋪路石的隱形英雄

採訪崔運凱,是在臺風“煙花”登陸前的一個下午。那天的上海,天空雖然有些陰沉,風卻不大,典型的颱風來臨前的寧靜。

作為90後的創業者,崔運凱也是一臉的風輕雲淡,如同他創辦的AI資料基礎設施公司格物鈦一樣的行事風格。在有些浮躁的國內AI市場上,這頗有些不易。

為了讓消費者和投資者看得到,為了讓自己的業務顯得“性感”,絕大多數的AI創業公司都選擇從事那些最終消費者能夠看到的頂層應用業務,比如人臉識別、智慧語音之類的。

與他們不同,格物鈦卻選擇了打造下一代AI資料平臺,去幫助千行百業的AI應用開發降低難度、提升效率。在此過程中,格物鈦扮演一個鋪路石的角色,專心打造AI的底層資料基礎設施,成為AI市場的隱形英雄。

格物鈦,甘做AI鋪路石的隱形英雄

 立下“讓AI觸手可及”的願景

崔運凱先後畢業於上海交通大學與美國賓西法尼亞大學,2015年作為早期員工加入到Uber的無人駕駛部門,從事人工智慧研究和產品化工作,後來成為該部門最年輕的Tech Lead Manager。

在Uber,灌滿100PB(1PB=1024TB)的資料池可能只需要幾個月的時間,這是矽谷其他以處理結構化資料為主的公司不可能遇到的。這相當於讓崔運凱提前5-6年看到了AI落地面臨的問題。

當時,Uber 除了在印度有很大的資料生產團隊外,還將部分資料需求外包給位於西雅圖的創業公司,除了要承受昂貴的價格(當時的定價是1張圖片5美金),冗長的等待時間(5000張圖片大概需要做4個月),還要解決資料的對接、跨境分發、檢索、整理及真值資料的儲存和使用等一系列難題。而對於無人駕駛來說,訓練至少要億級圖片,這無異於把問題難度又放大了數萬倍。

格物鈦,甘做AI鋪路石的隱形英雄

2018年,崔運凱回國創業,擔任一家高精度地圖公司的合夥人。在研發過程中,需要收集海量資料來進行模型訓練。為了管理和使用這些資料,崔運凱需要一個合適的資料平臺,卻苦於找不到一家能夠滿足需求的公司。

這時的他深刻意識到,無論是國內還是國外,人工智慧的整個工具鏈都非常早期和不完善,如果再做一家AI公司,還會遇到同樣的工具問題,還得花大代價把這些問題再解決一遍。

為此,崔運凱乾脆決定自己來搭建這樣一個平臺,透過打造AI的資料基礎設施,去系統性地解決問題,使得前東家這樣的AI應用開發,難度更低、效率更高。

從創業的第一天起,崔運凱就給格物鈦制定了明確的企業願景:“讓AI觸手可及”。格物鈦服務的物件是AI開發者,他希望透過努力降低AI應用開發門檻,降低高質量資料獲取、儲存和處理成本,讓普通開發者能更好地把時間和資源投入到業務創新上。

幫助AI開發者打牢高質量資料基礎

秉持“讓AI觸手可及”的理念,崔運凱和他的格物鈦開始了在國內AI資料基礎設施領域的創業步伐,很快獲得了紅杉、真格等一線投資機構的青睞。

統計資料顯示,全球AI市場都在快速增長,我國的AI產業規模早已突破千億元,正在向萬億級邁進。然而,在眾多創業公司和各類行業使用者都在積極擁抱AI的同時,另一項調查顯示,只有8%的資料專業人士認為他們的組織正在使用AI,未能成功實施人工智慧和機器學習的主要原因則是資料質量問題。

人工智慧和機器學習的基礎就是資料,沒有資料也就不會有ML或AI,所謂的機器學習就是機器輸入並學習資料,從而輸出正確的編碼,而不好的資料比沒有資料更糟糕。

資料質量差,對於AI應用來說很可能是致命的。比如在自動駕駛場景中,如果原始影象資料中的嬰兒車或者腳踏車沒有被準確標註出來,很可能導致車輛在實際道路駕駛時,無法準確識別進而引發交通事故。

格物鈦,甘做AI鋪路石的隱形英雄

“Garbage in,garbage out”。顯然高質量的訓練資料,對於模型訓練效果至關重要,但對於絕大多數的演算法工程師來說,這是一項巨大挑戰。

崔運凱說,像Uber這樣的大公司尚有能力搭建資料基礎設施,而創業公司和小規模企業,需要把時間和精力放在自己的產品打磨上,這些資料基礎工作理應交給格物鈦這樣的專業公司來做。這種精細化的分工,在傳統IT和雲服務領域早已如此,在AI領域也是大勢所趨。

為AI開發者而生的格物鈦,專注於解決AI開發中的資料痛點,目前主要從事兩大業務,一是面向機器學習的非結構化資料平臺——TensorBay,二是構建以AI開發者為核心的海量公開資料集社群——Open Datasets。

開啟以資料為中心的AI時代

崔運凱介紹說,在國內還沒有與格物鈦從事類似業務的公司。從全球來看,格物鈦的業務模式與Scale AI很像。2016年由兩位華裔創辦的Scale AI,估值超73億美金,去年營收上億,是有史以來最快突破1億美元的公司之一。

格物鈦,甘做AI鋪路石的隱形英雄

Scale AI從資料標註業務做起,客戶已經遍及多個行業,業務範圍也逐步拓寬。與Scale AI類似,格物鈦為客戶提供的也不僅僅是資料標註服務。

崔運凱表示,格物鈦提供的是以資料為中心的解決方案,資料標註是其中很重要又最容易理解的一個環節,但並不是全部。

格物鈦的核心產品TensorBay,是一款非結構化資料管理平臺。之所以瞄準非結構化資料,是因為其在整體資料的佔比越來越高。

IDC報告顯示,未來非結構化資料將會佔據資料總量的80%,其中就包括AI訓練經常要用到的影片、影象、語音等型別資料。比如我國每年銷售的攝像頭達到上億個,產生的資料則可以達到十幾ZB(1ZB=1萬億GB),由於數量過於龐大,這些資料未能得到很好的儲存和利用。

崔運凱更願意把格物鈦的產品放在MLOps工具鏈去理解。

早前,機器學習一貫以模型為中心,更強調構建模型、調整超引數或選擇正確架構,來提升AI模型效果。AI/ML最權威學者之一吳恩達上半年釋出了課程《MLOps:從以模型為中心到以資料為中心的AI》,他認為“以資料為中心”的時代已然來臨。

格物鈦,甘做AI鋪路石的隱形英雄

格物鈦TensorBay的設計理念,也更偏向於以資料為中心的AI策略,用工具鏈和系統化的方法來提升資料質量,透過不斷地餵給資料,讓模型保持輕微調整,這會使模型的效果批次提升成為可能。對於規模精簡的演算法團隊而言,顯然以資料為中心的策略相比於以模型為中心的策略更具可操作性。

格物鈦,甘做AI鋪路石的隱形英雄

打造全球最大的公開資料集

格物鈦除了透過TensorBay提供非結構化資料的管理、查詢、協同、視覺化和版本控制功能以外,也在積極構建公開資料集社群Open Datasets,為全球AI開發者提供高質量的開源資料集。

我們都知道,AI應用需要依賴大量的資料進行模型訓練。然而,可用的資料集一直都是市場上的稀缺資源,尤其是隨著AI應用向千行百業的逐步滲透,對資料集尤其是高質量資料集的需求越來越大。找資料難、買資料貴,成為全球AI開發者普遍面臨的問題。

與此同時,秉承開源的思想,也有一些資料的擁有者,希望能夠分享自己的資料集,使其價值能夠得到充分釋放。格物鈦的Open Datasets可以被簡單理解為是“GitHub for Data”,目標是打造成全國乃至全球最大的公開資料集社群,與AI開發者和行業合作伙伴一起,打破資料孤島、共建開源資料生態。

比起“資料是新石油”這個說法,崔運凱更傾向於認為“資料是用之不竭的陽光”,因為資料是非競爭性的,可以被任意數量的公司或個人同時使用和重複使用,而不會發生減損。

格物鈦為此專門釋出了“尋集令”生態合作伙伴招募計劃,面向全球市場吸納優質公開資料集合作夥伴。據瞭解,目前Open Datasets已有1200+個優質資料集,涵蓋了各行各業,使用者可以免費上傳和開源下載,並支援雲端讀取。

為提升使用者的使用體驗,Open Datasets 提供了線上資料視覺化功能,無需下載處理,即可在資料集詳情頁檢視標註情況及標籤分佈。同時,對於資料集釋出方,Open Datasets 自身豐富的流量及討論功能也為連線使用者提供渠道。

格物鈦,甘做AI鋪路石的隱形英雄

甘當鋪路石的隱形英雄

在奧運賽場上,吸引眼球的都是那些光鮮亮麗的金牌獲得者,而不是那些為選手們提供幕後服務的人和機構。在國際網壇,人人都熟知德約、納達爾、費德勒、穆雷這四大巨頭,卻很少有人知道位於佛羅里達小城的IMG Academy,很多知名網球選手都是在那裡訓練成長起來的。

默默無聞,不等於沒有價值。恰恰相反,這些甘當鋪路石的隱形英雄,不僅正在發揮越來越重要的作用,其市場價值也在不斷提升。正如矽谷教父彼得·蒂爾所言:“在激烈的競爭中,AI公司們會出現又消失,但是Scale會一直存在,因為它提供的是整個AI/ML行業的基礎設施,資料是這個行業最重要的東西。”

崔運凱說,雖然現在人人都在談AI,但真正用到AI的公司還不是很多。目前AI在國內發揮的作用仍然只是冰山一角,許多應用還沒有落地。未來當AI像雲一樣普及時,格物鈦希望能夠成為雲市場的亞馬遜。

當然,對於成立僅僅兩年的格物鈦來說,夢想才剛剛開始,前面的道路還很長。在為AI市場鋪路的同時,格物鈦今天所做的一切,也是在其未來的雄心壯志鋪路。

那一天,應該不會很遠。

天極網

於洪濤)