愛伊米

『螞蟻數字科技』馬振雄:新一代雲原生PaaS平臺,為企業上雲保駕護航

2021年,分散式雲成為雲計算領域關注的熱點。經過一年時間的探索與沉澱,分散式雲開始從理論走向實踐,諸多雲計算頭部企業夯實分散式基礎設施建設、最佳化分散式資源排程、開發分散式應用,為構建分散式雲打下了堅實的基礎。

12月15日,以“引領分散式雲變革 助力灣區數字經濟”為主題的全球分散式雲大會在深圳隆重召開,本屆大會由全球分散式雲聯盟、深圳科技交流服務中心、深圳市通訊學會、眾視Tech聯合主辦。組委會攜手阿里雲、騰訊雲、Google Cloud、華為雲、螞蟻集團、浪潮雲、金山雲等海內外頂尖雲計算團隊和分散式雲先鋒企業,為粵港澳大灣區數字經濟發展注入分散式雲動力,更將中國分散式雲計算發展推上全新高度!

在15日上午舉辦的領袖論壇上,螞蟻集團數字科技事業部產品總監馬振雄分享了在分散式雲異構基礎設施之上,螞蟻集團構建分散式雲PaaS平臺背後的實踐和思考。

『螞蟻數字科技』馬振雄:新一代雲原生PaaS平臺,為企業上雲保駕護航

近幾年雲計算的發展如火箭般迅猛,異構變革日新月異,這是基礎設施層明確的發展趨勢。基礎設施的複雜度越來越高,同時也為整個基礎設施的統一資源排程帶來了極大的挑戰。

如果說IaaS層以統一資源排程以資源為視角和出發點,那麼在上層PaaS則需要思考以應用為視角,整個分散式基礎設施的複雜度到底會帶來哪些更多的挑戰。

異構的應用如何在異構的基礎設施上進行統一管理,這是PaaS層需要思考的重點問題。隨著雲原生的發展,企業在技術升級的過程中伴隨著大量的歷史包袱,這些歷史包袱是所有存量的異構功能,這些異構功能有以下幾個特徵:技術架構異構、通訊協議異構、開發框架異構,這些存量的應用如何在異構的基礎設施上統一納管,背後就涉及到了應用的全生命週期,從研發時的應用改造成本到執行時如何對異構應用做統一服務治理,再到運維時如何對基礎設施進行統一元資料管理,再到基礎設施之上異構的統一變更、統一容災、統一應急以及統一資金安全,這些都是存在於PaaS層的挑戰。

隨後,馬振雄就三大核心挑戰進行了展開。

第一,在越來越複雜的異構基礎設施上,存量應用和增量應用應該如何上雲?

馬振雄用四個R總結了當前應用上雲的概況:

第一個是Rehost平遷上雲,平遷到雲伺服器,因為不涉及到應用本身的重構,只是把基礎設施進行平遷,改造成本非常低,但它能獲得的價值也僅僅侷限在IaaS。

第二個Refactor重構,涉及到應用的重構,改造成本比平遷大,但它可以獲得分散式應用的可靠性和可擴充套件性這樣的紅利。

第三個Rebuild,能夠享受端到端的雲原生紅利。

第四個Replace,徹底替換成SaaS。

四個R,成本與價值逐步遞增,同時成本和價值之間呈線性正相關,改造成本越高,獲得的價值越高,企業存在大量的歷史包袱,歷史包袱五花八門,如果要把這些歷史包袱全部改造成分散式應用或者雲原生應用,背後需要的代價非常昂貴,很難有一家企業在短時間內願意負擔起這樣的時間和成本,徹底將所有的歷史包袱雲原生化。

『螞蟻數字科技』馬振雄:新一代雲原生PaaS平臺,為企業上雲保駕護航

在此基礎上,馬振雄引入第五個R——Revise服務網格。Service Mesh能夠實現跨平臺、跨協議,並且業務程式碼無侵入改造,從而快速地將應用植入sidecar完成mesh化,獲得分散式紅利、安全可觀測,並且整個架構平滑演進。企業在架構升級過程中可以按部就班、循序漸進,並且實現端到端的安全可信以及端到端的鏈路可觀測能力。

總結來說網格服務首先降低了傳統應用改造成分散式、雲原生應用的成本問題;其次是解決了所有企業新老系統的互聯互通和統一納管的問題;第三是讓企業應用架構在升級過程變得更平滑;第四是讓所有企業保留自己存量系統的技術棧,且保留了企業自身自主可控性要求。

Forrester長期以來對螞蟻集團的創新技術保持極大的關注,在分散式雲大會的現場, Principal Analyst首席分析師、Serving Technology Executives服務技術決策者戴鯤釋出《螞蟻集團服務網格總體經濟影響》,並分享了他對於Mesh的看法:

“未來要實現開發的智慧化,需要透過微服務來進行智慧化程序,不再像以前一樣零敲碎打。對傳統應用進行定製化,要透過網格服務動態地組裝,實現雲上開發。我們特別推出了整體經濟影響研究,希望幫助企業更好地把握不同產品解決方案的能力。

各家企業都在進行數字化轉型,轉型的基礎是從穩態到敏態,這種混合架構下的治理是非常關鍵的。我們訪談了螞蟻集團的客戶,一家是傳統金融機構,一家是網際網路金融機構,它們有不同的開發環境,面臨相同挑戰,比如基礎設施升級換代、應用開發升級、雲上雲下互動等方方面面都存在問題和挑戰。我們將不同的問題和挑戰融合在一起進行分析,最終發現,網格服務從單體應用改造成本節省到運維安全管理效率提升等方面都有明顯的收益,我們透過研究三年資料發現,螞蟻集團服務網格的總體投資回報率達到99%。大家對此有興趣可以和螞蟻集團聯絡獲得詳細的資訊。

我們還從另外兩個維度進行分析——靈活性和風險,靈活性就是在初始的投入和未來能得到額外的價值,我們看到技術團隊有專業的分工,可以降低上雲的門檻,真正實現全面上雲。當然任何事情都有風險,我們也評估了這套解決方案相應的風險。總結來看,面對不確定性的時代,想適應未來的發展,必須藉助雲原生平臺,幫助加速創新進展。”

第二,如果說Mesh解決了研發時改造成本,和執行時統一服務治理,那麼在異構IaaS上,如何統一應用運維?

螞蟻數字科技定義了六大能力,包括統一元資料管理、統一叢集資源管理、統一變更能力、統一應急能力、統一容災能力,和統一端到端從業務、應用到基礎設施的可觀測能力。

在定義的基礎上,團隊透過重新定義SRE,實現統一應用運維能力。行業解讀SRE,一般認為R是可靠性,團隊結合螞蟻十幾年來對業務的可用性和連續性的極致追求,經歷了十幾次雙十一大規模驗證,對SRE進行重新定義,螞蟻的SRE從Reliability轉變為Risk,螞蟻自身的保障體系以風險為核心,結合十幾年來的技術沉澱,打造了技術風險保障平臺TRaaS。也正是因為十幾年沉澱的精華,才能讓螞蟻做到業務、應用、基礎設施運維無人值守,運維“自動駕駛”。

『螞蟻數字科技』馬振雄:新一代雲原生PaaS平臺,為企業上雲保駕護航

螞蟻的技術風險防控體系從上到下分別代表了三個目標:高可用、資金安全、低成本,三個組織保障:團隊、文化、制度,再到需求、研發、釋出以及監控的四條防線,最終沉澱出一套完整的技術風險保障體系的平臺能力,整個平臺由四個能力板塊組成,包括了從應急、變更到容量、資金安全,應急平臺建立起了以風險為核心的事前、事中、事後的故障風險保障體系,分別對應故障風險檢測能力、故障定位能力、故障應急和自愈能力,以及故障的回溯能力。

同時,螞蟻還建立起了對於全域性資料中心和系統整體能力瓶頸的自動探測、容量規劃和容量保鮮能力。最後的資金平臺,螞蟻透過對業務應用無侵入地建立起了資金核對第二道防線,幫助企業徹底規避資金安全風險,減少資損。

馬振雄總結道,如果說第一個核心的挑戰解決的是研發態和執行態的問題,第二個核心挑戰解決運維態問題,第三個核心挑戰,要解決的是從整體架構上解決容災態的問題。

第三,如何在分散式雲場景下,讓架構原生具備彈性&容災能力?

隨著分散式雲基礎設施蓬勃發展,企業中心從集中化走向離散化,這意味著企業任何一個應用隨時隨地可以跑在全國的任何一家資料中心機房的任何一個節點上,這種變化背後,從應用視角來看,迫切需要整體的系統應用架構,支撐業務突破地域和城市級別的無限可擴充套件能力。基於螞蟻對於業務連續性的極致追求,團隊在支撐業務發展過程中,建立起了金融行業超大規模的全域性資料架構,透過沉澱,推出異地多活單元化架構,解決企業在容災、彈性、灰度方面的三大痛點。

容災可以支撐企業的資料中心架構徹底從單活走向同城三活,再走向多地多活,一個業務單元發生故障不會影響到另外一個業務單元。

彈性,由於靈活部署和快速擴容機制,能夠結合單元的靈活的流量調撥機制,真正支撐企業的資料中心突破城市和地域級別的擴充套件,做到真正意義上的無限可擴充套件。

灰度,結合跨單元的路由分發,可以輕易地做到藍綠單元這樣具有創新的業務灰度方式。

『螞蟻數字科技』馬振雄:新一代雲原生PaaS平臺,為企業上雲保駕護航

多地多活的架構非常複雜,從上至下包含了四層,從接入層做路由規則和路由分發,到應用層的中介軟體路由,再到資料層的資料分片和資料路由,最後到運維層的統一容災、統一監控、單元拓撲。

金融行業結合案例來看,主機下移過程中需要面臨的重要課題就是如何將核心系統下沉到分散式叢集,在分散式叢集下移過程中如何匹配主機系統性能和穩定性,背後很重要的能力就是多地多活架構。

螞蟻在面對核心挑戰過程中,最終沉澱出新一代分散式雲PaaS平臺SOFAStack,平臺在金融行業有非常多的頭部客戶案例,從原生能力就滿足了金融行業遠高於其他行業在容量、效能、規模、高可用、合規、降本提效方面的高標準要求。更重要的是SOFAStack來源於金融行業,但不止於金融行業,螞蟻希望SOFAStack能賦能到更多的行業,完成各行業企業數字化轉型。

構建起新一代分散式雲PaaS平臺,未來是什麼?

馬振雄認為,Mesh的未來會經歷三個重要的發展階段:第一個階段,不止是Service Mesh,還有更多Mesh產品形態出現,在這個階段,將會幫助企業越來越輕鬆自主掌控適配異構基礎設施;第二個階段,在金融異構執行基礎設施上,嘗試定義社群或者事實的API標準,這個標準能讓企業擁有統一的程式設計介面,當企業開發完一個應用,底層的基礎設施發生任何變更,對於應用來說都是無感的。在第二個階段,Mesh的願景為一旦應用開發完成,就不再需要做任何變更,只有到了這個願景實現,才能真正做到讓一個應用跑在全國任何一個機房虛擬中心節點,並且這個節點的向上承載基礎設施可變;第三個階段,前兩個更多的是把基礎服務、微服務、資料訪問這些端到端下沉到基礎設施外,在第三個階段要看到的是橫向的下沉,包括資源呼叫和系統呼叫,在這個階段,將會嘗試儘可能把業務應用裡更多和業務本身不相關的邏輯下沉到Sidecar,徹底解放業務開發,讓業務開發者關注能力程式設計,而不需要關注底層。

最後,馬振雄表示,螞蟻集團一直致力於技術架構前瞻性佈局和持續創新,會繼續在基礎異構設施上打磨端到端的可信原生能力,未來,螞蟻希望把SOFAStack打造成各行各業數字化轉型的跨雲作業系統。