挑戰
螞蟻集團(Ant Financial)正式成立於 2014 年 10 月,其前身為全球最大的線上支付平台支付寶,支付寶於 2004 年推出。該公司還提供許多其他利用技術創新的服務。考量到支付寶為其全球 9 億多用戶(透過其本地和全球合作夥伴)處理的交易量—在 2017 年雙 11 光棍節高峰期達到每秒 256,000 筆交易,以及 2018 年光棍節商品交易總額達 310 億美元—更不用說其其他服務的交易量,螞蟻集團正面臨「全新方式的資料處理挑戰」,儲存和運算產品管理負責人郝杰杭表示。「我們看到在此規模下營運的三個主要問題:如何提供即時運算、儲存和處理能力,例如為詐欺偵測提供即時建議;如何在這些資料之上提供智慧,因為資料量過於龐大,而我們卻無法獲得足夠的洞察力;以及如何在應用程式層級、中介軟體層級、系統層級,甚至晶片層級應用安全性。」為了向客戶提供可靠且一致的服務,螞蟻集團於 2014 年初開始採用容器,並很快地就需要針對其資料中心中數萬個節點叢集提供協調解決方案。
解決方案
在研究幾種技術後,團隊選擇了 Kubernetes 作為協調工具,以及其他多個 CNCF 專案,包括 Prometheus、OpenTracing、etcd 和 CoreDNS。「在 2016 年底,我們決定 Kubernetes 將成為事實上的標準。」郝杰杭說。「回顧過去,我們在正確的技術上下了正確的賭注。但隨後我們需要將生產工作負載從舊有基礎架構移轉到最新的 Kubernetes 平台,這花了一些時間,因為我們在可靠性和一致性方面非常謹慎。」所有核心金融系統都在 2017 年 11 月之前完成容器化,而遷移到 Kubernetes 的過程仍在進行中。
影響
「我們在使用雲原生技術的營運方面,至少看到了十倍的改進,這表示您的產出可以增加十倍。」郝杰杭說。螞蟻集團也向全球業務合作夥伴提供其完全整合的金融雲平台,並希望透過在服務創新和技術專業知識方面的深厚經驗,為下一代數位銀行提供動力。郝杰杭表示,團隊尚未開始專注於最佳化 Kubernetes 平台:「因為我們仍處於超速成長階段,我們尚未進入節省成本的模式。」
而支付寶為全球超過 9 億用戶(透過其本地和全球合作夥伴)處理的交易量也令人咋舌:在 2017 年雙 11 光棍節高峰期達到每秒 256,000 筆交易,以及 2018 年光棍節商品交易總額達 310 億美元。憑藉「為世界帶來平等機會」的使命,螞蟻集團致力於透過技術創新,建立開放、共享的信用體系和金融服務平台。
再加上其其他資產的營運—例如花唄線上信用系統、借唄貸款服務,以及擁有 3.5 億用戶的 螞蟻森林 綠色能源行動應用程式—螞蟻集團正面臨「全新方式的資料處理挑戰」,儲存和運算產品管理負責人郝杰杭表示。「我們看到在此規模下營運的三個主要問題:如何提供即時運算、儲存和處理能力,例如為詐欺偵測提供即時建議;如何在這些資料之上提供智慧,因為資料量過於龐大,而我們卻無法獲得足夠的洞察力;以及如何在應用程式層級、中介軟體層級、系統層級,甚至晶片層級應用安全性。」
為了應對這些挑戰,並向客戶提供可靠且一致的服務,螞蟻集團於 2014 年開始採用 Docker 容器化技術。但他們很快意識到,他們需要針對公司資料中心中數萬個節點叢集提供協調解決方案。
團隊研究了幾種技術,包括 Docker Swarm 和 Mesos。「我們做了很多 POC,但我們在生產系統方面非常謹慎,因為我們要確保不會遺失任何資料。」郝杰杭說。「您不能承擔服務停機一分鐘的風險;即使是一秒鐘也會產生非常非常大的影響。我們每天都在壓力下營運,以便為中國和全球的消費者和企業提供可靠且一致的服務。」
最終,郝杰杭表示,螞蟻集團選擇 Kubernetes 是因為它符合所有條件:強大的社群、「在未來三到五年內仍然相關」的技術,以及與公司工程人才的良好匹配。「在 2016 年底,我們決定 Kubernetes 將成為事實上的標準。」郝杰杭說。「回顧過去,我們在正確的技術上下了正確的賭注。但隨後我們需要將生產工作負載從舊有基礎架構移轉到最新的 Kubernetes 平台。我們花費了大量時間學習,然後培訓我們的員工,以便在 Kubernetes 上良好地建置應用程式。」
所有核心金融系統都在 2017 年 11 月之前完成容器化,而遷移到 Kubernetes 的過程仍在進行中。螞蟻集團的平台也利用了其他多個 CNCF 專案,包括 Prometheus、OpenTracing、etcd 和 CoreDNS。「在今年的雙 11,我們在 Kubernetes 上有很多節點,但與我們整個基礎架構的規模相比,這仍在進行中。」全球技術合作夥伴關係與發展部門的 Ranger Yu 說。
儘管如此,已經產生了影響。「雲原生技術在效率方面為我們帶來了極大的好處。」郝杰杭說。「總體而言,我們希望確保我們的基礎架構足夠靈活和彈性,以應對未來可能發生的工作。這就是目標。而透過雲原生技術,我們在營運方面至少看到了十倍的改進,這表示您的產出可以增加十倍。假設您用一個人營運 10 個節點。透過雲原生技術,明天您可以擁有 100 個節點。」
螞蟻集團也向全球合作夥伴提供其金融雲平台,並希望透過在服務創新和技術專業知識方面的深厚經驗,為下一代數位銀行提供動力。郝杰杭表示,團隊尚未開始專注於最佳化 Kubernetes 平台:「因為我們仍處於超速成長階段,我們尚未進入節省成本的模式。」
CNCF 社群也是螞蟻集團轉向雲原生過程中的寶貴資產。「如果您正在應用一項新技術,那麼有一個社群可以與其他使用者討論技術問題,這非常好。」郝杰杭說。「我們非常感謝 CNCF 和這項驚人的技術,隨著我們持續在全球擴展,我們需要這項技術。我們肯定會在未來更積極地擁抱社群和開放原始碼。」
事實上,該公司已經開始開放原始碼其部分 雲原生中介軟體。「我們將在這方面非常積極主動。」Yu 說。「CNCF 提供了一個平台,讓每個人都可以插入或貢獻元件。這是非常好的開放原始碼治理。」
展望未來,螞蟻團隊將繼續評估許多其他 CNCF 專案。為了在中國建立服務網格社群,該團隊聚集了許多中國公司和開發人員,討論該技術的潛力。「服務網格對中國開發人員和終端使用者非常有吸引力,因為我們現在有很多舊有系統在執行,而且它是將所有新舊系統結合在一起的理想中間層。」郝杰杭說。「對於新技術,我們會非常密切地關注它們是否能夠持久。」
在螞蟻集團,Kubernetes 以優異的成績通過了這項考驗,團隊希望其他公司也能效法。「在中國,我們是金融和其他相關服務創新的領頭羊。」郝杰杭說。「我們絕對要確保透過我們在技術方面的投資,在未來 5 到 10 年內仍然保持領先地位。」