愛伊米

秒男,其實是一種誇讚

秒男,其實是一種誇讚

1

有一次我在樓下的羊湯館吃飯,隔壁桌坐著兩個人在聊天,因為有些名詞太熟悉,就忍不住聽了一耳朵。

不聽不知道,一聽嚇一跳,好傢伙,高手在民間,大佬在街邊,原來大資料早就是過時的概念,現在是AI的時代,演算法才是硬道理,創業就要做AI,招人就要招演算法,演算法打爆一切,演算法就是未來。

我硬是忍住了自己吐槽的慾望,沒有上去直接問他做AI,資料從哪裡來,也沒有問這資料合法不合法,實在是怕被打。

人家就是聊聊天,你認真了去拆臺,捱打那是活該。

網際網路這個行業喜歡炒概念,一個名詞最多火個一兩年,但是一個詞不火了並不意味著就沒用了,恰恰相反,當那些喜歡跟風炒概念的人都跑去炒下一個風口的時候,這些“過時”概念的真正威力就會顯現出來。

大資料這個詞已經過氣三四年了,誰再跟你提你都得嘲笑他。

但你看現在這個世界,已經到處都是資料的影子了。

以前出門吃頓飯常常需要碰運氣,看哪家店離得近,問路還要找水果攤的大爺,後來O2O普及,找店從被動變成了主動,手機上一點就門兒清,這其實就是店家資料收集和整合帶來的便利。

再後來智慧推薦取代了主動搜尋,我們發現這些送上門的結果越來越準,甚至在下次飯點前就被安利幾個新店,而且就是你喜歡的那一口;

聽歌瞧影片也不用主動查詢,而是開啟APP,讓軟體把我們喜歡的東西主動推到臉上來。

這事兒有好有壞,但這本質上是對使用者偏好資料的整合利用,我們使用網路時不經意間留下的資料足跡會成為推薦所參考的標準,然後在反覆試錯和匹配中形成最適合使用者個人的推薦演算法。

這種處處都是推薦的生活方式已經把過去的人和未來的人分成了兩種人,而這種改變的節點,就是人類開始有能力快速處理生活中時刻產出的那些瑣碎且多維的資料。

沒有資料,一切都是空談。

2

《三體》裡提出過一個概念,叫技術爆炸,指的是技術突破到某個節點後突然以爆發級的速度開始成長,可以嚇壞外星人。

我們有幸親眼見到了“資料處理”這一行的技術爆炸。

人類發展了幾十萬年,透過各種手段積攢了大量的資料,但是這些資料要麼沒有傳承下來,或者沒有得到有效利用,大多在歷史的長河中被自然消耗掉了。

這是因為構成資料時代的三要素在那時還不夠強大。

資料時代的三要素是

算力

演算法

,和最最重要、最最關鍵的

資料

過去我們缺少儲存媒介,資訊都要靠手寫和印刷,資料很容易流失和損壞;

算力資源同樣缺少,最強的算力單元就是人腦;

唯一能玩的就是演算法,卻受制於算力和資料的不足而發揮不出來。

不是隻有寫程式才是演算法,歷史上所有歸納總結的方法,都是樸素的演算法。

進入計算機時代後,資料儲存能力和計算能力都得到了有效提升,並因此開啟了科技爆發。

但這時候資料的處理依然是單一的,資料收集得更多了,但大量的資料依然沒有得到有效利用,就是簡單的堆在了那裡。

一直到十年前,技術突破到了一個臨界點,算力瓶頸被打破,不再被算力限制的程式設計師腦洞大開,開始提出各種神奇的演算法,演算法的威力被釋放出來,積蓄已久的資料終於有了配得上它們的處理和分析手段,這才有了網際網路企業像韭菜一樣一茬又一茬往外冒頭的場面。

移動網際網路時代的大範圍創新,其實就是紮根在對過去那些“無效”資料的挖掘利用。

一個人的愛好、習慣,這些雞毛蒜皮的,曾經會被篩除的資料,紛紛變成了金礦,企業們為了抓住這些資料裡的商機而不斷推高算力,不斷研究更先進的演算法,在這些數字金礦裡瘋狂淘金。

沒想到的是,在這個節骨眼兒上,資料本身卻成了瓶頸。

數字化和智慧化企業的焦慮症,就是總想找到更高效、更精準的工具來更高效率地把資料價值轉化成商業價值。

賺錢嘛,不寒磣。

然而當算力和演算法達到一定高度的時候,資料卻開始掉鏈子了。

隱私意識提高,網際網路資訊保安逐漸規範;

舊資料被大量消耗,新資料同質化嚴重無法推陳出新;

即時資料太多,不能有效處理。

儲存資料本身都成了問題,成本和效率無法兼顧。

這些問題開始困擾以資料為生命線的企業們,並因此導致了大資料風口的冷卻。

大家發現,大資料這麼牛,但好像,沒有什麼用。

或者說,能用,但是成本還不如自己的野路子好用。

資料很好,但門檻也實在太高。

3

IT時代算力的代表是各種“U”。

從通用的CPU,到專用的GPU、TPU……,這些處理器構成了算力的基礎,是行業推進數字化、智慧化的基礎設施。

CPU將人類帶進資訊時代,GPU的並行處理能力催生了AI技術的進步,而未來的XPU可能會在算力方面進一步解放人的想象力。

而AI,則是演算法應用的代表。

算力和演算法這哥倆兒光鮮亮麗,佔據了報紙的頭版頭條,吸引了大眾的眼光,以至於大部分普通人都忽略了資料的重要性甚至是本源價值,相當多資料公司雄心萬丈地入行,卻在入行後才發現最大的瓶頸出在資料處理和治理上。

如今資料收集和處理技術的發展,將更多原本不被重視的資料帶到了臺前,這些資料蘊藏的價值被挖出來之後,這些資料也變成了標準資料。

而處理更多維資料帶來的收益,正刺激人們去收集更大體量、更多維度的資料,希望其中的價值也能隨之變多。

資料的量、時效性、多元性呈幾何倍數成長,為資料儲存和訪問帶來了巨大的壓力。

但是很多企業一開始並沒意識到這一點,他們正在為了處理這些資料而絞盡腦汁,還沒來得及思考儲存和訪問這些資料的問題,當他們意識到的時候,資料儲存和訪問已經拖了資料處理的後腿,嚴重限制了算力和演算法的發揮。

就好像一個將軍在地圖上構思了一整夜穿插合圍的戰術微操,早上起來發現後勤沒有糧一樣。

機械硬碟的速度填不滿各種U的胃口;

固態硬碟速度快點但也有限,耐久性還存在不足;

記憶體確實快得一騎絕塵,可這也掩蓋不了它容量上的短板和斷電就丟資料的尷尬。

企業陷入了兩難的糾結,不增加伺服器或儲存裝置就裝不下更多的資料,而增加伺服器和儲存裝置就會帶來暴漲的成本,這個成本還不僅僅是採購成本,還有圍繞新增裝置所有與資料中心建設、升級和運維相關的成本,要知道,國家已經在制定相關標準提升單機密度,以減少資料中心對土地的需求了。

當資料的儲存和訪問就這樣變成了瓶頸時,企業們才驚訝地發現挖金礦最重要的不是鎬頭有多鋒利,而是怎麼捏住礦脈。

於是越來越多的人把目光投向英特爾。

4

英特爾是硬體領域的化石級企業,著名的摩爾定律就出自英特爾的創始人之一戈登·摩爾。

一般人只知道英特爾做CPU,但其實英特爾創立之初的本業其實是做儲存產品,處理器反而才是“偏房”扶正。

英特爾從90年代開始涉及到伺服器領域,推出了第一款專門為伺服器設計的處理器Pentium Pro,隨後又透過迭代升級,推出了著名的伺服器級CPU品牌“至強”(Xeon),從此在企業計算領域走上了快車道,一路做大。

新世紀後英特爾重回儲存領域,全線出擊,佈下了一個龐大的技術矩陣。

大家比較熟悉的是它的NAND固態盤,而這還不是它真正的撒手鐧,NAND產品誰都有呀,於是它就搞了一個更獨特的創新:

傲騰儲存介質

傲騰儲存介質也有消費級市場的產品,但它的威力在企業級儲存的戰場上體現得更為淋漓盡致。

它的時延比NAND快閃記憶體晶片低很多,而且不僅讀資料的速度快,寫得也很快,且長時間寫入時效能穩得一批,一下子就吸引了那些被資料儲存和訪問瓶頸難住的企業,尤其是採用這種儲存介質的產品有了能插在記憶體插槽上的新成員——傲騰持久記憶體後,大家就更坐不住了。

因為這些優勢剛好契合這個推薦演算法控制下的時代。

目前的推薦演算法主要有兩種,一種是使用者畫像,一種是同類推薦,同類推薦就是我們經常會被弄得很惱火的“買桌子推桌子”式推薦,這種推薦是大資料應用的初級階段。

使用者畫像則是透過採集資料,推測一個使用者的性格、習慣、愛好、經濟實力等等,我們可以將這些資料統稱為使用者的“個性”,然後有的放矢地為使用者推薦和他們 “個性”相似的,或者說他們會感興趣的東西。

而建立這種包含使用者性格、習慣、愛好的使用者模型,就需要大量資料進行分析和訓練。

在透過使用者的操作獲得使用者資料後立刻進行學習和推測,這裡就是考驗資料儲存和訪問的關鍵環節了。

大量的運算需要將盡可能多的資料存到儘可能高效能的快取中,目前這種快取主要使用DRAM記憶體,快是它的優勢,但容量、高成本則是它的不足,在資料量小的時候一切安好,在資料量顯著增加的現在,DRAM記憶體已經頂不住了,它很難被迅速擴充套件來裝載更多的資料。

而英特爾的傲騰持久記憶體,就可以和DRAM記憶體搭配,把快取的容量擴大,將更多資料放在距離算力更近的地方,讓它們能夠得到更為高效的處理、分析和利用。

傲騰持久記憶體就這樣不經意間在大家的心裡打了卡,它同時兼具了接近DRAM記憶體的速度和接近固態盤的容量,而這種融合正是企業級使用者所渴盼的。

除了資料讀寫的速度、時延、成本和容量外,傲騰持久記憶體還解決了企業級使用者的另一個巨大痛點——資料永續性,因為它斷電後不丟資料!這讓那些時刻擔心繫統宕機或重啟後要花N多小時恢復資料的運維們長出了一口氣。

百度就是較早嚐鮮持久記憶體的企業,它之前就基於自己在搜尋引擎、人工智慧方面的技術優勢,構建了一個記憶體資料庫Feed-Cube來為Feed流服務提供資料存取服務,而面對規模日漸龐大的資料,這個資料庫的壓力也變得越來越大。

百度一度試圖將Feed-Cube的核心儲存裝置從DRAM記憶體換成NVMe固態盤,但並不能解決問題,因為後者的效能實在是不太行。

結果等到傲騰持久記憶體一出,百度就立即嘗試了一把,它和英特爾一起針對使用場景進行了多次最佳化,包括匯入第二代至強可擴充套件處理器和持久記憶體搭檔,在伺服器BIOS中加入支援傲騰持久記憶體的驅動支援等,最後發現:混合使用DRAM記憶體和傲騰持久記憶體能在資料訪問效能達標的情況下將單伺服器使用的DRAM記憶體減半,大幅消減的成本讓百度情不自禁地誇讚:真香!

百度立即又在某核心業務模組的故障恢復中測試了一把,原來只配備DRAM記憶體時,斷電後要花數十分鐘從固態盤或機械硬碟中重新載入資料到DRAM記憶體來恢復服務,可配了持久記憶體後,載入時間一下就被縮減到了以秒來計。

對資料恢復這行來說,秒男才是最棒的誇讚。

因為業務從來不等人。

5

與這些高度依賴推薦系統的網際網路企業或移動網際網路企業相似,傳統行業的企業也在嘗試挖掘資料的價值,一些金融、風控方面的行業,都在逐漸加強對資料的重視和對資料價值的挖掘。

而他們在嘗試使用推薦系統、人工智慧和大資料技術的時候,也會面臨資料儲存和訪問的瓶頸。

北京有一家公司,名叫第四正規化,這家公司的主業是研發和輸出領先的人工智慧平臺與技術服務,主要服務於金融、醫療、零售、製造等行業。

這些行業的資料有高維、稀疏的特性,他們的AI應用需要大量資料,且對時效性和資料安全性要求很高。

起初,第四正規化使用的是傳統的解決方案,即透過DRAM記憶體滿足實時資料處理和資料模型的儲存需求,並透過不斷備份來回避資料容易丟失的問題,來保證服務的連續性和質量。

但隨著資料量激增,記憶體壓力和備份壓力都與日俱增,出現數據丟失後備份還原的過程會花好幾個小時的情況,這對某些需要時效性的行業來說非常致命。

理所當然的,他們也找上了英特爾,也相中了傲騰持久記憶體,用它重搭了AI應用系統的架構,對其中的萬億維級稀疏引數伺服器和大容量記憶體特徵工程資料庫進行了充分最佳化,結果就是:更新後的系統能在保持高效能的前提下,減少記憶體伺服器數量,某些場景中成本可降低60%左右,同時系統的資料恢復速度能從小時級縮短至分鐘級。

如果在系統中換用英特爾今年最新發布的Ice Lake架構第三代至強可擴充套件處理器和傲騰持久記憶體200系列,記憶體特徵工程資料庫的請求傳送時延效能和吞吐效能還可以得到顯著提升。

順手的,第四正規化和英特爾還用持久記憶體把系統中的Kafka伺服器做了個最佳化,在吞吐頻寬一定的情況下,大大減少了它對伺服器的需求數量,而且雙方還把這個成果轉化成了開源的Kafka最佳化版本——Pafka。

現在,智慧推薦正在從網際網路行業走向線下,開始更多地影響實體經濟,這是一個標誌,就是消化資料帶來的技術反饋正在擴充套件到更多傳統行業,顛覆傳統行業的運作模式。

越來越多人意識到資料的重要性,不是一種頓悟,而是一種歷史的必然。

科技已經發展到這一步了,當資料處理的基本架構已經完善,最大限度發揮資料的威力就是企業必然的選擇。

資料的時代已經到來了,未來的資料不僅僅限於網際網路,而是屬於全世界。

世界在慢慢進化也在扁平化,這導致每一個變化,影響的其實是所有人。

在一個逐漸扁平化的世界,進化的節點往往只取決於科技樹上的一點點進步。

傲騰儲存技術的突破,是資料利用上的突破口,它為AI或其他算力和演算法工具的技術價值變現提供了一個新的解題角度。

這個角度走到最後,贏家未必一定是或者僅僅是英特爾,但新角度的出現,必然會帶動一連串技術的演進。

深度是時間的自然,進化是人類的必然。

科技總是如此,在光鮮亮麗的應用科技備受吹捧的同時,永遠是枯燥的基礎科學在為它們奠基。

當“基礎科技”達到臨界點,時代會不受控制地走向下一個階段。

這不重要。

真正重要的是,我們的目標,是否達到。