格物鈦，甘做AI鋪路石的隱形英雄

採訪崔運凱，是在臺風“煙花”登陸前的一個下午。那天的上海，天空雖然有些陰沉，風卻不大，典型的颱風來臨前的寧靜。

作為90後的創業者，崔運凱也是一臉的風輕雲淡，如同他創辦的AI資料基礎設施公司格物鈦一樣的行事風格。在有些浮躁的國內AI市場上，這頗有些不易。

為了讓消費者和投資者看得到，為了讓自己的業務顯得“性感”，絕大多數的AI創業公司都選擇從事那些最終消費者能夠看到的頂層應用業務，比如人臉識別、智慧語音之類的。

與他們不同，格物鈦卻選擇了打造下一代AI資料平臺，去幫助千行百業的AI應用開發降低難度、提升效率。在此過程中，格物鈦扮演一個鋪路石的角色，專心打造AI的底層資料基礎設施，成為AI市場的隱形英雄。

立下“讓AI觸手可及”的願景

崔運凱先後畢業於上海交通大學與美國賓西法尼亞大學，2015年作為早期員工加入到Uber的無人駕駛部門，從事人工智慧研究和產品化工作，後來成為該部門最年輕的Tech Lead Manager。

在Uber，灌滿100PB（1PB=1024TB）的資料池可能只需要幾個月的時間，這是矽谷其他以處理結構化資料為主的公司不可能遇到的。這相當於讓崔運凱提前5-6年看到了AI落地面臨的問題。

當時，Uber 除了在印度有很大的資料生產團隊外，還將部分資料需求外包給位於西雅圖的創業公司，除了要承受昂貴的價格（當時的定價是1張圖片5美金），冗長的等待時間（5000張圖片大概需要做4個月），還要解決資料的對接、跨境分發、檢索、整理及真值資料的儲存和使用等一系列難題。而對於無人駕駛來說，訓練至少要億級圖片，這無異於把問題難度又放大了數萬倍。

2018年，崔運凱回國創業，擔任一家高精度地圖公司的合夥人。在研發過程中，需要收集海量資料來進行模型訓練。為了管理和使用這些資料，崔運凱需要一個合適的資料平臺，卻苦於找不到一家能夠滿足需求的公司。

這時的他深刻意識到，無論是國內還是國外，人工智慧的整個工具鏈都非常早期和不完善，如果再做一家AI公司，還會遇到同樣的工具問題，還得花大代價把這些問題再解決一遍。

為此，崔運凱乾脆決定自己來搭建這樣一個平臺，透過打造AI的資料基礎設施，去系統性地解決問題，使得前東家這樣的AI應用開發，難度更低、效率更高。

從創業的第一天起，崔運凱就給格物鈦制定了明確的企業願景：“讓AI觸手可及”。格物鈦服務的物件是AI開發者，他希望透過努力降低AI應用開發門檻，降低高質量資料獲取、儲存和處理成本，讓普通開發者能更好地把時間和資源投入到業務創新上。

幫助AI開發者打牢高質量資料基礎

秉持“讓AI觸手可及”的理念，崔運凱和他的格物鈦開始了在國內AI資料基礎設施領域的創業步伐，很快獲得了紅杉、真格等一線投資機構的青睞。

統計資料顯示，全球AI市場都在快速增長，我國的AI產業規模早已突破千億元，正在向萬億級邁進。然而，在眾多創業公司和各類行業使用者都在積極擁抱AI的同時，另一項調查顯示，只有8%的資料專業人士認為他們的組織正在使用AI，未能成功實施人工智慧和機器學習的主要原因則是資料質量問題。

人工智慧和機器學習的基礎就是資料，沒有資料也就不會有ML或AI，所謂的機器學習就是機器輸入並學習資料，從而輸出正確的編碼，而不好的資料比沒有資料更糟糕。

資料質量差，對於AI應用來說很可能是致命的。比如在自動駕駛場景中，如果原始影象資料中的嬰兒車或者腳踏車沒有被準確標註出來，很可能導致車輛在實際道路駕駛時，無法準確識別進而引發交通事故。

“Garbage in，garbage out”。顯然高質量的訓練資料，對於模型訓練效果至關重要，但對於絕大多數的演算法工程師來說，這是一項巨大挑戰。

崔運凱說，像Uber這樣的大公司尚有能力搭建資料基礎設施，而創業公司和小規模企業，需要把時間和精力放在自己的產品打磨上，這些資料基礎工作理應交給格物鈦這樣的專業公司來做。這種精細化的分工，在傳統IT和雲服務領域早已如此，在AI領域也是大勢所趨。

為AI開發者而生的格物鈦，專注於解決AI開發中的資料痛點，目前主要從事兩大業務，一是面向機器學習的非結構化資料平臺——TensorBay，二是構建以AI開發者為核心的海量公開資料集社群——Open Datasets。

開啟以資料為中心的AI時代

崔運凱介紹說，在國內還沒有與格物鈦從事類似業務的公司。從全球來看，格物鈦的業務模式與Scale AI很像。2016年由兩位華裔創辦的Scale AI，估值超73億美金，去年營收上億，是有史以來最快突破1億美元的公司之一。

Scale AI從資料標註業務做起，客戶已經遍及多個行業，業務範圍也逐步拓寬。與Scale AI類似，格物鈦為客戶提供的也不僅僅是資料標註服務。

崔運凱表示，格物鈦提供的是以資料為中心的解決方案，資料標註是其中很重要又最容易理解的一個環節，但並不是全部。

格物鈦的核心產品TensorBay，是一款非結構化資料管理平臺。之所以瞄準非結構化資料，是因為其在整體資料的佔比越來越高。

IDC報告顯示，未來非結構化資料將會佔據資料總量的80%，其中就包括AI訓練經常要用到的影片、影象、語音等型別資料。比如我國每年銷售的攝像頭達到上億個，產生的資料則可以達到十幾ZB（1ZB=1萬億GB），由於數量過於龐大，這些資料未能得到很好的儲存和利用。

崔運凱更願意把格物鈦的產品放在MLOps工具鏈去理解。

早前，機器學習一貫以模型為中心，更強調構建模型、調整超引數或選擇正確架構，來提升AI模型效果。AI/ML最權威學者之一吳恩達上半年釋出了課程《MLOps：從以模型為中心到以資料為中心的AI》，他認為“以資料為中心”的時代已然來臨。

格物鈦TensorBay的設計理念，也更偏向於以資料為中心的AI策略，用工具鏈和系統化的方法來提升資料質量，透過不斷地餵給資料，讓模型保持輕微調整，這會使模型的效果批次提升成為可能。對於規模精簡的演算法團隊而言，顯然以資料為中心的策略相比於以模型為中心的策略更具可操作性。

打造全球最大的公開資料集

格物鈦除了透過TensorBay提供非結構化資料的管理、查詢、協同、視覺化和版本控制功能以外，也在積極構建公開資料集社群Open Datasets，為全球AI開發者提供高質量的開源資料集。

我們都知道，AI應用需要依賴大量的資料進行模型訓練。然而，可用的資料集一直都是市場上的稀缺資源，尤其是隨著AI應用向千行百業的逐步滲透，對資料集尤其是高質量資料集的需求越來越大。找資料難、買資料貴，成為全球AI開發者普遍面臨的問題。

與此同時，秉承開源的思想，也有一些資料的擁有者，希望能夠分享自己的資料集，使其價值能夠得到充分釋放。格物鈦的Open Datasets可以被簡單理解為是“GitHub for Data”，目標是打造成全國乃至全球最大的公開資料集社群，與AI開發者和行業合作伙伴一起，打破資料孤島、共建開源資料生態。

比起“資料是新石油”這個說法，崔運凱更傾向於認為“資料是用之不竭的陽光”，因為資料是非競爭性的，可以被任意數量的公司或個人同時使用和重複使用，而不會發生減損。

格物鈦為此專門釋出了“尋集令”生態合作伙伴招募計劃，面向全球市場吸納優質公開資料集合作夥伴。據瞭解，目前Open Datasets已有1200+個優質資料集，涵蓋了各行各業，使用者可以免費上傳和開源下載，並支援雲端讀取。

為提升使用者的使用體驗，Open Datasets 提供了線上資料視覺化功能，無需下載處理，即可在資料集詳情頁檢視標註情況及標籤分佈。同時，對於資料集釋出方，Open Datasets 自身豐富的流量及討論功能也為連線使用者提供渠道。

甘當鋪路石的隱形英雄

在奧運賽場上，吸引眼球的都是那些光鮮亮麗的金牌獲得者，而不是那些為選手們提供幕後服務的人和機構。在國際網壇，人人都熟知德約、納達爾、費德勒、穆雷這四大巨頭，卻很少有人知道位於佛羅里達小城的IMG Academy，很多知名網球選手都是在那裡訓練成長起來的。

默默無聞，不等於沒有價值。恰恰相反，這些甘當鋪路石的隱形英雄，不僅正在發揮越來越重要的作用，其市場價值也在不斷提升。正如矽谷教父彼得·蒂爾所言：“在激烈的競爭中，AI公司們會出現又消失，但是Scale會一直存在，因為它提供的是整個AI/ML行業的基礎設施，資料是這個行業最重要的東西。”

崔運凱說，雖然現在人人都在談AI，但真正用到AI的公司還不是很多。目前AI在國內發揮的作用仍然只是冰山一角，許多應用還沒有落地。未來當AI像雲一樣普及時，格物鈦希望能夠成為雲市場的亞馬遜。

當然，對於成立僅僅兩年的格物鈦來說，夢想才剛剛開始，前面的道路還很長。在為AI市場鋪路的同時，格物鈦今天所做的一切，也是在其未來的雄心壯志鋪路。

那一天，應該不會很遠。

（

天極網

於洪濤）

愛伊米

格物鈦，甘做AI鋪路石的隱形英雄

相關文章

推薦文章