作者|真梓(微信ID:315159284)
Ray(微信ID:raylazy)
編輯|石亞瓊
把冷板凳坐熱的不僅有國內(nèi)的半導(dǎo)體企業(yè),還有一眾國產(chǎn)數(shù)據(jù)庫廠商。36氪不久前統(tǒng)計,在2020-2021年獲得融資的國產(chǎn)數(shù)據(jù)庫公司超過40家。僅2021年一年,獲得新一輪融資的企業(yè)就多達20家。
這股風(fēng)潮一直延續(xù)到2022年。近期,36氪分別報道了云原生實時數(shù)倉廠商「飛輪科技」天使輪和天使+輪獲超3億元融資,以及分布式數(shù)據(jù)庫和AI PaaS平臺「天云數(shù)據(jù)」數(shù)億元D輪融資的消息。值得一提的是,拿下超3億元融資的「飛輪科技」,成立時間尚不足半年,不得不說是一個十分亮眼的融資成績。
更多被風(fēng)投布局的項目還隱匿在水下。36氪了解到,即使在過冬論調(diào)四起的當(dāng)下,仍有一些大廠光環(huán)加身的創(chuàng)業(yè)公司,大概率將以超出想象的價格完成新一輪融資。
種種跡象表明,這可能是國產(chǎn)數(shù)據(jù)庫里程碑式的時代。至少過去,中國數(shù)據(jù)庫領(lǐng)域從未發(fā)生過這種連年持續(xù)的融資勝景。
作為一種對數(shù)據(jù)進行增刪改查和分析的基礎(chǔ)軟件,數(shù)據(jù)庫起源于美國,發(fā)揚于歐美,國產(chǎn)數(shù)據(jù)庫的應(yīng)用長期處于追隨者地位。一個核心節(jié)點是,自上世紀(jì)80年代后IBM、Oracle等海外關(guān)系型數(shù)據(jù)庫廠商紛紛入華,拿下金融、電信等領(lǐng)域核心客戶后,國內(nèi)關(guān)系型數(shù)據(jù)庫市場(尤其是OLTP)幾乎被外企壟斷。也正因起步晚,又錯失這一主流戰(zhàn)場,長期以來國內(nèi)數(shù)據(jù)庫企業(yè)寥寥可數(shù)。直到2010年,叫得出名字的公司只有兩位數(shù)。
反觀現(xiàn)在,在公開盤點中,已有超200個國產(chǎn)數(shù)據(jù)庫浮出水面。這其中不僅有歷史較久的關(guān)系型數(shù)據(jù)庫,還包括圖數(shù)據(jù)庫、時序數(shù)據(jù)庫等新型數(shù)據(jù)庫。在每個細(xì)分領(lǐng)域,都有被VC高價追逐的早期項目。
若順著半導(dǎo)體爆火的思路深究,國內(nèi)創(chuàng)投風(fēng)向的轉(zhuǎn)換或被視作這一現(xiàn)象出現(xiàn)的動因。但更本質(zhì)的邏輯是,一方面,中國在過去10年間深入?yún)⑴c了移動浪潮,在電商、游戲、直播等場景中打磨了IT能力;另一方面,自1999年第一批國產(chǎn)數(shù)據(jù)庫企業(yè)陸續(xù)成立開始,各廠商已開啟長達20年的實踐之路,相對減少了與國際對手的能力差距。
所以,市場需求的迭代,和廠商們持續(xù)積累的產(chǎn)品能力,才是改變這場游戲規(guī)則的主因。在此基礎(chǔ)上,國產(chǎn)化替代和全球化開放的機會,又讓國產(chǎn)玩家們走近舞臺中央。
天時地利具備,這場發(fā)起源于2020年、綿延至2022年的國產(chǎn)數(shù)據(jù)庫投資熱,其實是技術(shù)演進和需求迭代下的必然結(jié)果。而投資趨勢更加硬核,成為這場必然的加速器。
為更深入地觀察這場變革,本文將從數(shù)據(jù)庫的技術(shù)演進角度入手,探討國產(chǎn)數(shù)據(jù)庫的成長動因,同時基于新鮮一手信息和歷史資料,剖析當(dāng)下國產(chǎn)數(shù)據(jù)庫面臨的機遇與挑戰(zhàn)。具體而言,我們將重點解釋以下問題:
1.多種類型數(shù)據(jù)庫的演進邏輯和分類維度
2.當(dāng)下數(shù)據(jù)庫領(lǐng)域出現(xiàn)的技術(shù)規(guī)律
3.國內(nèi)外數(shù)據(jù)庫廠商成長環(huán)境的差異
4.當(dāng)下數(shù)據(jù)庫廠商的不同商業(yè)路徑,及分野原因
5.選擇不同商業(yè)化路徑的數(shù)據(jù)庫廠商,分別會面臨怎樣的挑戰(zhàn)
在文末,我們也將對相關(guān)廠商進行分類,為讀者展示更全面的國產(chǎn)數(shù)據(jù)庫圖譜,以期幫助讀者進一步了解行業(yè),理解當(dāng)下的行業(yè)全景。
一. 產(chǎn)品:分類維度多種多樣,技術(shù)規(guī)律逐漸趨同
數(shù)據(jù)庫形形色色:歷史演進下的必然
作為一種歷史悠久的基礎(chǔ)軟件,數(shù)據(jù)庫的產(chǎn)生離不開飛速變化的數(shù)據(jù)生態(tài)。過去近60年間,隨著信息化、數(shù)字化、智能化浪潮一次次襲來,數(shù)據(jù)的規(guī)模和使用方式都發(fā)生了巨大變化。
據(jù)國際數(shù)據(jù)公司(IDC)的監(jiān)測,近幾年全球大數(shù)據(jù)儲量的增速每年保持在40%左右,2016年增長率甚至高達到87.21%。具體數(shù)據(jù)上,2016年-2019年四年間全球大數(shù)據(jù)儲量分別為16.1ZB、21.6ZB、33.0ZB、41ZB,儲量迅速上升。
當(dāng)數(shù)據(jù)量飛速上漲,各種基于大數(shù)據(jù)的應(yīng)用層出不窮,承載這一切想象力的基礎(chǔ)軟件——數(shù)據(jù)庫,也從早期的關(guān)系型,演化出包括圖數(shù)據(jù)庫、時序數(shù)據(jù)庫、流式數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、向量數(shù)據(jù)庫、數(shù)據(jù)湖等在內(nèi)的多種功能形態(tài)。產(chǎn)品架構(gòu)也從單機向分布式、云原生等形態(tài)擴展。一個證明,如今DB- Engines上覆蓋的數(shù)據(jù)庫已有約400個。
看著紛繁復(fù)雜的產(chǎn)品形態(tài),很難想象,最初數(shù)據(jù)庫想解決的問題,其實非常簡單。
上世紀(jì)六十年代,IBM等先驅(qū)開發(fā)了最早用于管理數(shù)據(jù)的系統(tǒng),“數(shù)據(jù)庫”這個名字就此出現(xiàn)。當(dāng)時,數(shù)據(jù)庫主要用來管理如倉庫存貨清單、圖書館借閱記錄一類信息,要解決的兩大核心問題分別是信息的存儲與查詢。
比如,當(dāng)圖書館中一本書被借走,對應(yīng)的借閱信息能被記錄并寫入數(shù)據(jù)庫,讀者可基于數(shù)據(jù)庫內(nèi)的信息直接查詢這本書是否已歸還。人們發(fā)現(xiàn)把數(shù)據(jù)拆成不同的表單,并將其中的聯(lián)系對應(yīng),就能更高效管理信息。這種數(shù)據(jù)庫也被稱為關(guān)系型數(shù)據(jù)庫,是最傳統(tǒng)也最常見的數(shù)據(jù)庫種類。
后來,隨著數(shù)據(jù)種類的變化,人們又逐漸開發(fā)了適應(yīng)不同場景的新型數(shù)據(jù)庫,如專注于文檔存儲的文檔型數(shù)據(jù)庫,記錄傳感器每時每秒產(chǎn)生的數(shù)據(jù)的時序型數(shù)據(jù)庫等。
而隨著數(shù)據(jù)量的增大,一臺機器已無法滿足數(shù)據(jù)的存儲與處理要求,因而出現(xiàn)了新的數(shù)據(jù)庫架構(gòu),如采用多臺機器的分布式數(shù)據(jù)庫、基于內(nèi)存的內(nèi)存型數(shù)據(jù)庫。
到云計算時代,又出現(xiàn)了依托于云平臺的云原生數(shù)據(jù)庫,讓數(shù)據(jù)庫也能享受云計算的彈性與便捷。從管理小小的一間圖書館,到互聯(lián)網(wǎng)時代的大數(shù)據(jù)分析,隨著數(shù)據(jù)量的擴大與數(shù)據(jù)類型的增多,針對不同場景、采用不同架構(gòu)的數(shù)據(jù)庫種類也越來越多。
一個基本事實是,當(dāng)前全世界的數(shù)據(jù)庫產(chǎn)品至少多達數(shù)百種。而作為一種對數(shù)據(jù)進行查詢、存儲、修改和分析的軟件,由于討論語境的側(cè)重點不同,數(shù)據(jù)庫也存在多種不同分類方式,每種分類各有側(cè)重。
所以,綜合技術(shù)演進、用戶存儲查詢的數(shù)據(jù)特征、數(shù)據(jù)規(guī)模,以及行業(yè)認(rèn)可度等維度,我們將從數(shù)據(jù)格式、擴展能力、分析能力以及使用場景四個角度對數(shù)據(jù)庫進行分類。

數(shù)據(jù)庫分類維度
根據(jù)數(shù)據(jù)格式分類:數(shù)據(jù)格式通常被分類為結(jié)構(gòu)化(structured)數(shù)據(jù)和非結(jié)構(gòu)化(unstructured)數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)又包括文檔型(document)數(shù)據(jù)以及鍵值對(key-value)等多種類型。
在數(shù)據(jù)庫領(lǐng)域中,最常見的是結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)會有固定的格式,如網(wǎng)購的時候,一般會有訂單號、用戶 ID、商家 ID 等信息,對于不同的網(wǎng)購交易來說,每筆交易信息的格式都一樣,因此用戶可以事先定義好數(shù)據(jù)的格式(schema),此時通常會使用關(guān)系型(relational)數(shù)據(jù)庫來進行存儲。有些數(shù)據(jù)更側(cè)重文本信息,比如微博、博客,有大段文字信息,與之對應(yīng)的就是文檔型(document)數(shù)據(jù)庫。有些數(shù)據(jù)則是簡單的鍵值對(key-value),例如用戶的 ID 與頭像,通常會有一一對應(yīng)的關(guān)系,這時候可以在鍵值對型的數(shù)據(jù)庫中存儲這些信息。
根據(jù)擴展能力分類:數(shù)據(jù)庫可分為單機型、分布式型以及云原生型。單機型數(shù)據(jù)庫通常只在一臺機器上運行,因而維護起來比較簡單,但擴展能力有限,比如最常被用作個人博客后端的數(shù)據(jù)庫 MySQL,足以勝任幾百篇博客的備份存儲,以及一天幾千次的訪問量;分布式數(shù)據(jù)庫一般被部署在多臺機器組成的集群中,可以在一臺或多臺機器損壞的時候,通過多臺機器之間的備份機制,保證業(yè)務(wù)不被干擾;云原生數(shù)據(jù)庫則被部署在云端,如阿里云或者 AWS 上,由數(shù)據(jù)庫廠家進行機器的維護管理,用戶只需要按讀取次數(shù)和存儲空間的大小進行付費。
根據(jù)分析能力分類:數(shù)據(jù)庫有 OLTP、OLAP 和 HTAP 三大類。OLTP 類數(shù)據(jù)庫通常用來支持在線交易,如網(wǎng)購時,每筆新的訂單都對應(yīng)一條新的數(shù)據(jù)記錄,OLTP 類數(shù)據(jù)庫需要在極短的時間內(nèi),將這條新的記錄存儲下來;OLAP 類數(shù)據(jù)庫則更多的對應(yīng)離線數(shù)據(jù)分析,如分析某個商家當(dāng)月的銷售總額時,需要掃描當(dāng)月所有訂單并把它們的金融累加起來,這時候需要讀取多條記錄,但用戶通??梢缘却龓追昼姷綆仔r;HTAP 型數(shù)據(jù)庫則同時支持 OLTP 和 OLAP 兩種類型的操作,來進行實時的數(shù)據(jù)監(jiān)控,比如說當(dāng)檢測到某一瞬間訂單量突然下降時,HTAP 型數(shù)據(jù)庫可以提醒用戶對系統(tǒng)進行檢查并及時排除故障。
根據(jù)使用場景分類:除了以上提到的幾種常見的數(shù)據(jù)格式,一些特殊的使用場景下用戶會使用專門的數(shù)據(jù)庫。對于物聯(lián)網(wǎng)設(shè)備每時每刻都在產(chǎn)生的信息,時序數(shù)據(jù)庫會特意根據(jù)數(shù)據(jù)產(chǎn)生的時間來組織底層存儲結(jié)構(gòu),因而更加高效;圖數(shù)據(jù)庫更適用于可以抽象為點和線的信息,比如銀行的交易流水,每個賬戶可以看作一個點,兩個賬戶之間的轉(zhuǎn)賬可以當(dāng)作一條邊,使用圖數(shù)據(jù)庫能更快地追溯錢款的走向;此外,常見的場景還有文本檢索、流式數(shù)據(jù)分析、MapReduce 分析等,這些相應(yīng)的大數(shù)據(jù)工具,也可以看作是廣義的數(shù)據(jù)庫擴展。
市面上的數(shù)據(jù)庫公司都有自己的側(cè)重,不同公司之間的業(yè)務(wù)重點不同,也會存在重疊,因此在多個維度下,一個特定的數(shù)據(jù)庫通常會被分入多個不同的類別,比如 MySQL,既是結(jié)構(gòu)化數(shù)據(jù)庫,又是單機型數(shù)據(jù)庫以及 OLTP 型數(shù)據(jù)庫。
開源、分布式、分析能力被看重,技術(shù)規(guī)律逐步趨同
數(shù)據(jù)庫種類繁多已經(jīng)是不爭事實。不過從更宏觀的產(chǎn)業(yè)迭代角度,數(shù)據(jù)庫領(lǐng)域的技術(shù)演進,已經(jīng)隨著需求變遷而產(chǎn)生一定共識。在這一層面,通過查閱資料并盤點新興的數(shù)十家數(shù)據(jù)庫公司,我們發(fā)現(xiàn)在全球范圍內(nèi),數(shù)據(jù)庫領(lǐng)域已經(jīng)產(chǎn)生如下技術(shù)趨勢:
代碼開源成為主流
當(dāng)前,開源已是全球議題。多家公司都選擇將核心代碼開源來獲取用戶,擴展功能閉源來產(chǎn)生利潤。選擇開源并與社區(qū)共同開發(fā)數(shù)據(jù)庫內(nèi)核的有國外的PostgreSQL、MongoDB與CockroachDB,國內(nèi)的TiDB等。這樣做的好處是降低用戶嘗試的成本,畢竟對于開源代碼,用戶可以自己免費編譯、部署與試用。同時,用戶也可以根據(jù)自己的需要去直接調(diào)整源代碼,使數(shù)據(jù)庫更切近自身需求。此外,來自開源社區(qū)的愛好者們也可以貢獻自己的代碼,討論相關(guān)功能,并可以從源代碼的層面去解決用戶遇到的疑難雜癥。再者,開源也被不少中小公司視作獲得客戶信任的一種方式。
不過,關(guān)于開源和商業(yè)化之間的爭論也從未停止。于是,對于一些進階功能,商業(yè)公司可能會選擇閉源,比如MongoDB的企業(yè)級數(shù)據(jù)保護功能是閉源并收費的。而部分云數(shù)據(jù)庫則選擇始終閉源,如Snowflake,畢竟大部分用戶并沒有能力在云端部署云原生的數(shù)據(jù)庫,而只能直接使用云數(shù)據(jù)庫的相關(guān)服務(wù)。
分布式可以讓數(shù)據(jù)庫更強大
在互聯(lián)網(wǎng)時代之前,單機型數(shù)據(jù)庫,如MySQL,可以滿足大多中小網(wǎng)站的數(shù)據(jù)需要,而銀行則使用中大型機,單價不菲。在如今的大數(shù)據(jù)時代,單機已經(jīng)沒辦法滿足人們對數(shù)據(jù)庫的性能要求,而分布式技術(shù),通過增加機器的數(shù)量,可以更經(jīng)濟實惠的解決用戶的數(shù)據(jù)需求,近些年新興的數(shù)據(jù)庫公司也多采用分布式的架構(gòu),如TiDB、MongoDB等。開源與分布式同時也為用戶提供了更多選擇,用戶不再被局限在某兩三種數(shù)據(jù)庫的選擇題里,而運行這些數(shù)據(jù)庫的機器也可以是性能較好的家用機,不再是以前成本令人生畏的中大型機,更多的中小公司有能力選擇性能更為強大的分布式集群作為數(shù)據(jù)解決方案。
但在某些實操場景中,分布式是否真的可以降本增效還存在爭議。有國內(nèi)從業(yè)者指出,分布式和單機型數(shù)據(jù)庫適用的場景不一。具體而言,他認(rèn)為由于分布式相較于單機會存在性能瓶頸,所以跨節(jié)點的大數(shù)據(jù)量查詢場景可能會存在瓶頸。另外,數(shù)據(jù)庫的投入需要衡量不同架構(gòu)的硬件成本、運維成本等多個維度,采用何種架構(gòu)才能降本增效是一個綜合性命題,不能一概而論??蛻魬?yīng)該依照自身業(yè)務(wù)需求綜合評判。
對數(shù)據(jù)庫廠商而言,分布式帶來了新的架構(gòu)變化
大公司的數(shù)據(jù)庫通常會采取多層架構(gòu),像積木一樣,將數(shù)據(jù)庫分為分析層,事務(wù)層,存儲層等層次,不同的數(shù)據(jù)庫可能會使用同樣的底層代碼。如螞蟻集團的時序數(shù)據(jù)庫CeresDB就基于OceanBase 分布式存儲引擎底座。這樣做的好處是提高了代碼的使用率,減少了重復(fù)勞動,同時,數(shù)據(jù)庫的各個層次都可以交由專門的團隊負(fù)責(zé),提高工程師的專注度。此外,新的架構(gòu)也帶來了新的挑戰(zhàn),如在單機型數(shù)據(jù)庫中,數(shù)據(jù)的存儲與計算天然就在同一臺機器中進行,而對于分布式和云原生數(shù)據(jù)庫來說,則需要想辦法進行存算分離,以便于存儲層和計算層可以獨自擴展,有些用戶可能需要更多的存儲空間,其它用戶則可能需要更強的計算能力,這樣大家可以各取所需。
數(shù)據(jù)庫即服務(wù)讓產(chǎn)品使用越來越簡單
在最近的三十年里,對用戶來言,數(shù)據(jù)庫從最初需要付費購買使用許可的軟件,變成了可以自己編譯運行的開源代碼,再變成需要自己采購多臺機器組成機群來調(diào)度使用的分布式系統(tǒng),最后又成為只需要按數(shù)據(jù)的讀取次數(shù)付費的云數(shù)據(jù)庫服務(wù)(即Database-as-a-service)。
云原生數(shù)據(jù)庫讓用戶省去了數(shù)據(jù)庫集群維護、性能擴展的煩惱,也帶來了新的按讀取次數(shù)收費的模式:比如在微軟CosmosDB的serverless收費模式下,用戶并不知道微軟到底維護了多少臺機器,只需要關(guān)心自己對CosmosDB的讀取次數(shù)并以此付費,數(shù)據(jù)庫集群的擴展管理工作則由用戶交給微軟來統(tǒng)一調(diào)度負(fù)責(zé),用戶則可以減少工程師團隊規(guī)模并降低宕機風(fēng)險。
費用與安全性方面,對大部分中小公司來說,使用大廠的服務(wù)也比自行維護數(shù)據(jù)庫集群更經(jīng)濟可靠,畢竟大廠可以招聘成百上千的數(shù)據(jù)庫領(lǐng)域?qū)<襾韺W⑻嵘龜?shù)據(jù)庫服務(wù)。此外,云廠商的數(shù)據(jù)庫通常會與云廠商的主機有更密切的結(jié)合,用戶會更傾向于在某家云廠商進行一站式的采購,使用同一家云廠商的主機與數(shù)據(jù)庫。只是這樣用戶也加大了對云廠商的依賴,當(dāng)云服務(wù)中斷的時候,用戶的業(yè)務(wù)通常也會受影響。
云平臺使多地區(qū)的數(shù)據(jù)服務(wù)成為可能
依托于云平臺,用戶可以在美國的東西海岸,或者中國的北京、深圳等地輕松建立多個數(shù)據(jù)中心,使用本地的數(shù)據(jù)中心來服務(wù)本地用戶,以此減少消息延遲并滿足數(shù)據(jù)本地化的合規(guī)要求,并且,用戶也可以在異地進行數(shù)據(jù)備份。而在云時代之前,這些多地操作需要很高的成本,因為這意味著要在不同地區(qū)部署多個機房,當(dāng)時只有少數(shù)大廠才能做到。
數(shù)據(jù)庫的分析能力越來越被看重
傳統(tǒng)數(shù)據(jù)庫分為OLTP(在線交易型)與OLAP(在線分析型)兩大類型,而近些年HTAP(混合型)數(shù)據(jù)庫也更受歡迎,成為新的業(yè)界發(fā)展方向。這是因為在大數(shù)據(jù)時代,數(shù)據(jù)的分析價值越來越大,比如抖音等軟件,需要根據(jù)統(tǒng)計結(jié)果來提升自身推送服務(wù)的精準(zhǔn)度,這就需要數(shù)據(jù)庫與機器學(xué)習(xí)等工具有更緊密的融合,也需要數(shù)據(jù)庫能更高效得存儲并查詢海量數(shù)據(jù)。此外,新興的數(shù)據(jù)使用場景也帶來了新興的數(shù)據(jù)庫細(xì)分市場,如文檔型數(shù)據(jù)庫多使用MongoDB存儲,物聯(lián)網(wǎng)數(shù)據(jù)則需要流式數(shù)據(jù)庫或者時序數(shù)據(jù)庫來實時存儲查詢,也帶來了新的創(chuàng)業(yè)機會。
二.商業(yè)化:漫漫蟄伏期過后,國產(chǎn)數(shù)據(jù)庫打開新世界
追隨者的前行
產(chǎn)品力是科技公司的立身之本,商業(yè)化是公司綜合能力的"試金石"。但早前,由于技術(shù)源自國外、市場多被外企壟斷等因素,國內(nèi)數(shù)據(jù)庫廠商一直帶著"追隨者"的標(biāo)簽踽踽前行,商業(yè)想象力并不充足。
不過近5~10年,情況發(fā)生了顯著變化。在墨天輪的盤點中,我們可以看到有超過200個國產(chǎn)數(shù)據(jù)庫已浮出水面,這其中不僅包括歷史較久的關(guān)系型數(shù)據(jù)庫,還包括圖數(shù)據(jù)庫、時序數(shù)據(jù)庫等新型數(shù)據(jù)庫。
抽絲剝繭地去看,這種現(xiàn)象的出現(xiàn),和國內(nèi)數(shù)據(jù)庫行業(yè)的持續(xù)積累息息相關(guān)。
其實在早前,中國數(shù)據(jù)庫學(xué)術(shù)研究的開展并不算晚。1977年,數(shù)據(jù)庫學(xué)組成立于安徽黃山會議,當(dāng)時即定位于進行該領(lǐng)域的教學(xué)、科研等。但不可否認(rèn),國外產(chǎn)品在應(yīng)用落地上的持續(xù)搶先,讓國內(nèi)客戶首先采用了國外產(chǎn)品,也讓國產(chǎn)廠商在實踐中也多依賴于開源產(chǎn)品,從而錯失了自主產(chǎn)品的產(chǎn)業(yè)化機會。
但在近20年里,由于新場景的出現(xiàn)和移動浪潮的興起,國產(chǎn)數(shù)據(jù)庫的實踐也多了起來。最典型的例子就是,互聯(lián)網(wǎng)廠商出于自身的業(yè)務(wù)訴求,而自行開展數(shù)據(jù)庫產(chǎn)品的打磨。
也正在這些實踐中,國產(chǎn)數(shù)據(jù)庫的產(chǎn)品應(yīng)用逐步和國際接軌,縮減了差距。
前文提到,全球數(shù)據(jù)庫領(lǐng)域已經(jīng)產(chǎn)生代碼開源、分布式架構(gòu)、分析能力更被看重等技術(shù)趨勢。這些技術(shù)幾乎已形成全球共識,中國也不例外。
比如,分布式系統(tǒng)的理念主要來自于Google于2003~2006年發(fā)布的三篇論文。在這段時間里,國內(nèi)第一批數(shù)據(jù)庫公司,人大金倉、武漢達夢、南大通用相繼成立。曾有老牌國產(chǎn)數(shù)據(jù)庫高管告訴36氪,公司在10年前支持某大型央企的數(shù)據(jù)倉庫建設(shè)時,就被明確要求采用分布式技術(shù)。
開源在國內(nèi)的興起也值得一提。過去許久,開源在國內(nèi)一直是“小眾運動”。但2021年,隨著PingCAP等公司更為人所知,再加上國內(nèi)扶持基礎(chǔ)軟件生態(tài)的決心,開源也邁上新臺階。2021年,開源被寫入《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》,這被視作開源在國內(nèi)取得的一項里程碑。順此趨勢,36氪也觀察到長期處于強監(jiān)管要求下的金融領(lǐng)域,也在2021年開展了一系列開源軟件使用方式的探討。不過另一方面,年底Log4J 2安全漏洞的爆發(fā),又讓開源軟件的安全性備受質(zhì)疑。企業(yè)如何在開放中平衡安全,成為新的話題。
不論是早期就被順利實踐的分布式趨勢,還是突如其來的開源熱潮,都意味著在過去20年間,國產(chǎn)數(shù)據(jù)庫廠商一直在關(guān)注國際趨勢,并積累了一定技術(shù)能力。再加上國產(chǎn)化、云生態(tài)帶來的新市場機會,時至當(dāng)下,眾多國產(chǎn)數(shù)據(jù)庫迎來萬象更新的時代。
以占據(jù)市場主流關(guān)系型數(shù)據(jù)庫為例,過去在中國乃至全球OLTP市場中亮相的常是外企,直到2015年左右才零星出現(xiàn)了幾家新興的國產(chǎn)廠商。但近期36氪觀察到,至少在不少廠商對外發(fā)布的信息里,OLTP產(chǎn)品的數(shù)量已經(jīng)超出了預(yù)期(當(dāng)然,其中不少是基于國外開源產(chǎn)品的迭代)。其中除卻新興廠商的面孔,也有老牌數(shù)據(jù)庫公司發(fā)布相關(guān)產(chǎn)品。
另一方面,圖和時序等方向的國產(chǎn)廠商也不斷涌現(xiàn)。比如在圖數(shù)據(jù)庫中,當(dāng)前我們觀察到的國產(chǎn)產(chǎn)品就有十余個。而且由于這些領(lǐng)域整體較新,國產(chǎn)數(shù)據(jù)庫廠商暫時還不需要挑戰(zhàn)完全具備壟斷優(yōu)勢的巨頭。曾有國產(chǎn)圖數(shù)據(jù)庫廠商對外表示,當(dāng)前全球范圍內(nèi)的圖數(shù)據(jù)庫公司,不少都還走在完善產(chǎn)品的過程中。
總的來說,國產(chǎn)數(shù)據(jù)庫百花齊放的表象背后,其實隱藏著更巨大的商機——當(dāng)國內(nèi)產(chǎn)業(yè)不再和國際脫軌,數(shù)據(jù)庫廠商們面前呈現(xiàn)出國際化和國產(chǎn)替代兩種商業(yè)路徑。
國際化,還是國產(chǎn)替代?
不可否認(rèn),當(dāng)前國產(chǎn)數(shù)據(jù)庫的產(chǎn)品力還有提升空間。比如不久前曾有一些調(diào)研顯示,國內(nèi)OLTP類數(shù)據(jù)庫在部分場景中(如數(shù)據(jù)量大、高并發(fā)、變化速度快)和Oracle等公司的產(chǎn)品依然存在差距。
但值得肯定的是,如今這種商業(yè)路徑選擇權(quán)的出現(xiàn),在過去漫長的蟄伏期里是難以想象的——畢竟只有滿足了技術(shù)基本不脫鉤的基本條件,全球化或者國產(chǎn)替代的機會才能擺在眼前。而在這個迄今為止,國內(nèi)數(shù)據(jù)庫行業(yè)最好的時代中,當(dāng)前國產(chǎn)廠商們面臨的“幸福煩惱”是,選哪條路更合適?
在很大程度上,國際化和國產(chǎn)替代,是涇渭分明的兩條路。選擇不同路線的公司,往往也會具備一些顯性特點。
在主營國際化的路徑中,一些新興的國產(chǎn)數(shù)據(jù)庫公司多強調(diào)云原生、數(shù)據(jù)庫即服務(wù)等標(biāo)簽,希望讓產(chǎn)品區(qū)別于上一代數(shù)據(jù)庫。產(chǎn)品之外,這類新興廠商的集中特點大致包括,創(chuàng)立時間不久(多成立于2017年—2021年之間)、擁抱開源、受雙幣基金追捧等。
而在國產(chǎn)替代的世界里,在滿足資質(zhì)的條件下,不少成立許久的國產(chǎn)數(shù)據(jù)庫廠商主要基于關(guān)系型產(chǎn)品延伸,希望幫助客戶完成降低成本和自主可控的目標(biāo)。在這一目標(biāo)的指引下,這些廠商多具備成立時間較久、投資方多為人民幣基金,以及主打國內(nèi)大中B客戶等特點。
這是兩種完全不一樣的公司。而這分岔路背后所隱藏的,是國內(nèi)外商業(yè)環(huán)境的整體性差異。
在歐美市場,公有云與數(shù)據(jù)庫結(jié)合的路徑已被證明可行。Gartner近期的一份報告顯示,全球數(shù)據(jù)庫廠商的市場份額正借助云的能力獲得增長。報告中提出,過去10年間,堅定公有云戰(zhàn)略的廠商,在數(shù)據(jù)庫市場份額中的排名大多獲得了提升,這其中不僅包括亞馬遜、谷歌等自有數(shù)據(jù)庫產(chǎn)品的公有云廠商,也包括獨立數(shù)據(jù)庫公司Snowflake等。這樣做的好處很明顯,首先,數(shù)據(jù)庫公司可以和云廠商一起服務(wù)同一個客戶。另外,數(shù)據(jù)庫公司還可以復(fù)用云廠商的生態(tài),減少不必要的資源消耗。而數(shù)據(jù)庫即服務(wù)的模式,也建立于云基礎(chǔ)之上。
這也是不少關(guān)注出海的國產(chǎn)數(shù)據(jù)庫廠商,和看好它們的投資人所認(rèn)可的方向。但回到國內(nèi),由于國內(nèi)外在商業(yè)環(huán)境上的差異,這一模式難以完全復(fù)制。
原因不難理解。將公有云與數(shù)據(jù)庫的結(jié)合落地,需要云廠商、數(shù)據(jù)庫公司和客戶的多方協(xié)作。以被國內(nèi)對標(biāo)多次的Snowflake為例,其目前支持Amazon AWS、Google Cloud與微軟Azure三家云平臺。在不少解讀中,它也因為在公有云上具備中立第三方的身份而崛起。時至今日,Snowflake依然不支持私有云環(huán)境。
回到國內(nèi),Gartner在今年三月發(fā)布的指南中提出,國內(nèi)甲方業(yè)務(wù)向公有云遷徙的趨勢,是中國數(shù)據(jù)庫市場增長的一大動因。不過,這一趨勢至少在當(dāng)前并未大規(guī)模落定,不少大B客戶依然會出于安全、信任等方面的考慮,提出私有云或?qū)S性频慕ㄔO(shè)、更新需求。而且,目前國內(nèi)私有云的市場格局也相對分散,這導(dǎo)致的一個現(xiàn)象是,底層架構(gòu)不統(tǒng)一,國產(chǎn)數(shù)據(jù)庫公司單純依賴公有云廠商合作的必要性沒有海外充足。
具體在產(chǎn)品落地層面,36氪了解到,早前由不同云廠商搭建的私有云和現(xiàn)在公有云的平臺架構(gòu)有所差異,針對公有云環(huán)境的數(shù)據(jù)庫并不能被無縫部署到不同的私有云上。對比國外,美國的私有云與公有云的標(biāo)準(zhǔn)會更統(tǒng)一一些,如微軟為美國國防部以及一些美國公司(如可口可樂)搭建的私有Azure云平臺雖然在物理上與公有云獨立,但在底層架構(gòu)上會更兼容現(xiàn)有的公有云軟件,也為云數(shù)據(jù)庫公司向這些私有云的客戶銷售自家產(chǎn)品提供了可能。
產(chǎn)品架構(gòu)不統(tǒng)一、格局分散只是一部分難點。下一個問題是,目前還有不少私有云廠商也會主打信創(chuàng)云路線。而能做進國產(chǎn)替代市場的企業(yè),往往需要具備背景合格、產(chǎn)品適用于黨政和金融等業(yè)務(wù)場景、服務(wù)細(xì)致等能力。面對這些要求,獨立數(shù)據(jù)庫廠商應(yīng)該找準(zhǔn)自身定位。
另一方面,當(dāng)前國內(nèi)云生態(tài)競爭愈發(fā)激烈,云廠商的自有產(chǎn)品如何與獨立數(shù)據(jù)庫廠商合作,也是下一個值得討論的問題(當(dāng)然,這一問題海外也存在)。這種情況下,獨立數(shù)據(jù)庫公司能否依靠產(chǎn)品力等其他特點獲得合作伙伴和客戶的肯定,更成為重中之重。
總體而言,國內(nèi)廠商短期內(nèi)或許無法將海外優(yōu)解復(fù)刻到國內(nèi)。這也在很大程度上造成了數(shù)據(jù)庫公司商業(yè)路線的分化——對大多數(shù)人而言,是出海尋找真正的公有云+數(shù)據(jù)庫模式,還是抓緊國產(chǎn)化浪潮,此時更像是單選題。
三. 國際化VS國產(chǎn)化:不同的機會,不同的挑戰(zhàn)
曾有長期深耕數(shù)據(jù)庫領(lǐng)域的投資人告知36氪,數(shù)據(jù)庫公司的商業(yè)化路線,幾乎從創(chuàng)業(yè)第一天起就板上釘釘。在全球化和國產(chǎn)化的兩個不同世界里,廠商亦要具備不同的通關(guān)能力。
出海:最好的Global,是成為真正的Local
在出海路線中,國產(chǎn)數(shù)據(jù)庫廠商首先會遇到產(chǎn)品上的競爭,同時也要適應(yīng)不同國家客戶的使用習(xí)慣和銷售方式。
這三大關(guān)卡的任何一環(huán)出了差錯,都可能導(dǎo)致全球化戰(zhàn)略的失敗。在這其中,技術(shù)和產(chǎn)品力是首要前提——如果技術(shù)底蘊不深,產(chǎn)品做不到全球范圍內(nèi)的相對領(lǐng)先,那么征戰(zhàn)海外大概率是場竹籃打水。而在這一前提之下,銷售、市場方面的門門道道,也在持續(xù)影響著企業(yè)出海的成功率。
這樣的例子不是沒有發(fā)生過。36氪了解到,五六年前曾有一家細(xì)分領(lǐng)域的頭部軟件公司決定征戰(zhàn)北美市場,但最終卻由于產(chǎn)品無法適應(yīng)當(dāng)?shù)囟鴶”保?其實它的產(chǎn)品能力很強,但美國和國內(nèi)的數(shù)據(jù)傳輸格式不同,給國外的產(chǎn)品基本要重做。"一位接近這家公司的行業(yè)人士回顧。這導(dǎo)致的結(jié)果是,這家公司重新打磨產(chǎn)品花費成本過高,難以在不同市場中平衡,最終中美兩邊的業(yè)務(wù)都受到一定影響。
但經(jīng)過一段時間的持續(xù)摸索,在一些頭部公司眼中,如今這三重挑戰(zhàn)似乎都能指向同一個解法——“開源+云”,這是既受國外同行的啟發(fā),也是國內(nèi)企業(yè)在出海需求下的自主摸索。在這一思路中,開源是依靠全球開發(fā)者的力量收集反饋、打磨產(chǎn)品的方式。同時,這也能讓產(chǎn)品更契合當(dāng)?shù)乜蛻羰褂昧?xí)慣,并產(chǎn)生對品牌的認(rèn)知。而云戰(zhàn)略的好處上文也已提及,不僅能讓數(shù)據(jù)庫等基礎(chǔ)軟件廠商復(fù)用其生態(tài)能力,還能讓公司的整體運營更標(biāo)準(zhǔn)化。
在理想狀況下,這是一條將產(chǎn)品打磨和商業(yè)化緊密結(jié)合的路。但回到現(xiàn)實,不論是建設(shè)開源生態(tài)還是堅持云戰(zhàn)略,都需要付出不少努力。
尋求與公有云的契合之道,是一家公司管理層需要持續(xù)思考、堅定投入的戰(zhàn)略問題。做到這件事的基本前提包括,挑選可以協(xié)作的云廠商,并基于此將產(chǎn)品打磨標(biāo)準(zhǔn)、適合云交付,以及培養(yǎng)公司的服務(wù)能力。
首先,選擇合作伙伴可能牽涉到廠商的技術(shù)投入。實操方面,數(shù)據(jù)庫廠商自身的技術(shù)架構(gòu)通常也會依托并受限于底層云平臺。如Snowflake早期選擇依賴AWS的S3作為存儲層,數(shù)年后才支持了Google與微軟的云平臺。
另外,踐行云戰(zhàn)略的過程中還會存在一些另類的考驗。"現(xiàn)在要思考的是,我們要從一家產(chǎn)品、技術(shù)導(dǎo)向的公司,轉(zhuǎn)而更強調(diào)自己的服務(wù)、運營能力。"有正處于轉(zhuǎn)型期的公司高管坦言。這是公司整體定位的轉(zhuǎn)變,其中必然伴隨著不少企業(yè)文化、組織,乃至心理上的沖擊?!暗@可能也是優(yōu)勢,畢竟我們是真的勤勞,服務(wù)體驗可能更好?!庇袉T工這樣鼓勵自己。
相較之下,開源的考驗更滲透進細(xì)枝末節(jié)。
在很多人的共識中,一家公司是否能做好開源,可能是“氣質(zhì)”決定的。一般來說,理想的創(chuàng)始團隊需要具備國際化視野,比如擁有在國外技術(shù)領(lǐng)域長期求學(xué)、工作的經(jīng)歷就是一個加分項。另外,團隊還要對當(dāng)?shù)劁N售習(xí)慣有所認(rèn)知,做好商業(yè)化和開源之間的平衡。
這些基礎(chǔ)要求聽起來似乎不難,但具體的落地節(jié)奏卻仍值得細(xì)致推敲。
36氪在過去一段時間內(nèi)發(fā)現(xiàn),國內(nèi)有不少數(shù)據(jù)庫團隊正在規(guī)劃出海細(xì)節(jié)。但就算是一些在國內(nèi)已經(jīng)搭建起開源生態(tài),受到使用者肯定的廠商,在面臨出海時依然會產(chǎn)生擔(dān)憂。
“主要是擔(dān)心文化問題。開源生態(tài)的建設(shè)在不同國家也存在文化差異,讓融入當(dāng)?shù)馗永щy。”有建設(shè)開源生態(tài)近五年的數(shù)據(jù)庫廠商負(fù)責(zé)人表示,其公司在建立海外分部時,會計劃將國外辦事處和國內(nèi)分開獨立運營,希望降低雙方互相干擾的可能性。類似的細(xì)節(jié)還能數(shù)出不少,比如有創(chuàng)業(yè)者要求公司所有的文檔都是英文;還有社區(qū)的運營人員認(rèn)為自家產(chǎn)品使用門檻較高,需要琢磨海外頭部公司程序員的喜好,進行針對性推廣等等。
無數(shù)的細(xì)節(jié)證明,最好的Global,是成為真正的Local。這是不少新興國產(chǎn)數(shù)據(jù)庫廠商孜孜以求的出海效果。
國內(nèi)市場:國產(chǎn)替代正當(dāng)時,金融信創(chuàng)或是下一個機會
在第二條路線中,主打國產(chǎn)替代的數(shù)據(jù)庫廠商們需要滿足背景“正規(guī)”、服務(wù)意識強,以及產(chǎn)品自主可控、可用的要求。出于當(dāng)前國產(chǎn)替代的進度,我們認(rèn)為在黨政、金融等領(lǐng)域,尤其是金融信創(chuàng)的進展將給這類廠商提供更廣闊的空間。
原因不難推斷。
首先,黨政領(lǐng)域是國產(chǎn)替代的排頭兵。這些行業(yè)中,客戶的國產(chǎn)替代已經(jīng)進行了一段時間,存量相較之前略微下降。相較而言,黨政中的“下沉市場”會是接下來國產(chǎn)替代的重點。而2020年金融信創(chuàng)一期試點推行,2021、2022年的相關(guān)工作也在按計劃推進,市場空間更為廣闊。
第二,金融客戶向來重視IT投入。在疫情未散的前提下,它們是為數(shù)不多IT預(yù)算充裕的客戶。從數(shù)據(jù)看,2020年啟動的金融信創(chuàng)一期試點,要求信創(chuàng)基礎(chǔ)軟硬件采購額占到其IT外采的5%-8%;2021年金融信創(chuàng)二期新增100余家試點單位,信創(chuàng)基礎(chǔ)軟硬件在IT外采中占比要求提高至10-15%。當(dāng)然,這些預(yù)算既囊括基礎(chǔ)硬件,也包含操作系統(tǒng)、中間件等其他基礎(chǔ)軟件,數(shù)據(jù)庫所占比例暫不得而知。但根據(jù)一些券商調(diào)研,信創(chuàng)的出現(xiàn)在過去兩年內(nèi)整體提升了一些客戶的IT投入。當(dāng)金融信創(chuàng)進一步放開,相信包括數(shù)據(jù)庫在內(nèi)的基礎(chǔ)軟硬件廠商都會因此受惠。
第三,出于業(yè)務(wù)特點和由此帶來的強監(jiān)管要求,金融客戶對用作核心業(yè)務(wù)產(chǎn)品的可靠、可用性考量超過了其他種種。這雖然帶來了不少挑戰(zhàn),但同時也讓不少技術(shù)能力較強,且具備完整知識產(chǎn)權(quán)的廠商更有機會參與其中。
過去一段時間內(nèi),36氪觀察到不少數(shù)據(jù)庫廠商正在持續(xù)布局金融信創(chuàng)。但談及真正落地,其中的難度也不可忽視。
首先從產(chǎn)品層面,不同數(shù)據(jù)庫架構(gòu)不同,國產(chǎn)數(shù)據(jù)庫廠商需要重視自身的產(chǎn)品兼容性,減少遷移過程可能給客戶帶來的問題。另外,現(xiàn)在不少客戶是從非核心業(yè)務(wù)做起,再逐步開展對核心業(yè)務(wù)的數(shù)據(jù)庫替代工作。36氪了解到,從過去的一些替代實踐經(jīng)驗看,廠商需要從業(yè)務(wù)提出之初就和客戶一起共創(chuàng),不斷根據(jù)其需求打磨產(chǎn)品,最終完成上線。這一過程可能耗費三年以上的時間。
再者,信創(chuàng)是一個系統(tǒng)工程,從下層的基礎(chǔ)軟硬件到上游的應(yīng)用系統(tǒng)均屬其中。數(shù)據(jù)庫廠商作為其中的一個角色,也需要和各類廠商合作,為客戶提供解決方案式的體驗。這其中,產(chǎn)品間的兼容是一個重頭戲。我們了解到,有廠商每年花費在不同廠商、不同產(chǎn)品適配工作上的資金達到千萬元級別。
當(dāng)然還需要明確的一點是,目前狹義的國產(chǎn)替代主要指關(guān)系型數(shù)據(jù)庫層面。但在其他類型中,如圖數(shù)據(jù)庫領(lǐng)域,國內(nèi)產(chǎn)品也有一定替代國外產(chǎn)品的空間。而且,出于各種考慮,不少外企也有退出國內(nèi)市場的動作。這部分空余的市場空間也是國產(chǎn)廠商的新機會。
總而言之,國產(chǎn)替代對國內(nèi)不少企業(yè)而言意味著新空間,但這勢必也是一場攻堅戰(zhàn)。主攻于此的數(shù)據(jù)庫廠商需要具備戰(zhàn)略定力,在產(chǎn)品、服務(wù)等方面針對性地進行長期投入。
四. 多種多樣的參與者(按公司和其主要產(chǎn)品劃分)
不論是技術(shù)規(guī)律還是商業(yè)規(guī)律,都要落地到具體公司的實踐中。在這一章節(jié),36氪將按照不同分類,細(xì)致展示我們觀察到的數(shù)據(jù)庫領(lǐng)域參與者。
需要提前聲明的是,以下公司及產(chǎn)品主要按照首字母排序,沒有引申意義上的先后之分;另外,下文展示也不代表行業(yè)全貌,歡迎讀者持續(xù)補充行業(yè)玩家;再者,由于數(shù)據(jù)庫分類維度眾多,一個數(shù)據(jù)庫可能具備多種特點,本文展示僅提供參考價值。

數(shù)據(jù)庫分類維度
按分析能力:OLTP 及 HTAP類型
根據(jù)分析能力,數(shù)據(jù)庫可以分為 OLTP 與 OLAP 兩大類。一方面,數(shù)據(jù)庫要支持?jǐn)?shù)據(jù)記錄的增加修改,如網(wǎng)絡(luò)商城的交易(transaction),這類操作被稱為 OLTP(在線事務(wù)處理, Online Transaction Processing),另一方面,數(shù)據(jù)庫也需要支持復(fù)雜的查詢操作,比如說某個地區(qū)一個月之內(nèi)銷售額超過 10 萬元的商家所在的城市,這類操作被稱為 OLAP(在線分析處理,Online Analytical Processing)。此外,近些年有些新的數(shù)據(jù)庫可以同時支持 OLTP 與 OLAP 操作,因此被稱為 HTAP 型(混合事務(wù)分析處理,Hybrid transactional/analytical processing),另外,由于HTAP是兩種功能交織的產(chǎn)品,在本文中將會與OLTP和OLAP一同介紹。具體某個HTAP產(chǎn)品放在OLTP板塊還是OLAP板塊,主要依據(jù)公開資料中的描述進行判斷。但整體而言,HTAP兼具兩種功能,這里的分類僅供讀者參考。
OLTP 型數(shù)據(jù)庫:單機型、分布式和云原生
單機型
數(shù)據(jù)庫最初的應(yīng)用場景之一是賬本。大家外出購物時,家門口的小賣部的老板可能會用紙和筆來通過寫寫畫畫的方式,記錄下每天的銷售額和對應(yīng)的貨物清單,而大型超市則是通過掃碼槍來自動記錄生成售貨記錄,比如說在今天的下午三點,賣出一瓶礦泉水,價格是 1 塊錢。在這里,“下午三點、礦泉水、1 塊錢”這三條信息,便會作為一條記錄(record),被存儲到數(shù)據(jù)庫中,以備將來查詢。
對于個體商家來說,一般來講一臺計算機就能存儲并處理所需數(shù)據(jù),所需要的軟件也就是單機數(shù)據(jù)庫?,F(xiàn)在比較常見的單機數(shù)據(jù)庫有 MySQL 與 PostgreSQL。前者最早發(fā)布于 1995 年,由一家瑞典公司研發(fā),后者則是在 1996 年由美國加州大學(xué)伯克利分校立項。這兩者都秉承著開源,免費的原則,同時擁有成熟的社區(qū)與豐富的文檔,因此廣受中小企業(yè)的歡迎。
分布式
單機型數(shù)據(jù)庫可以解決小商戶的數(shù)據(jù)管理痛點。當(dāng)生意越做越大時,客戶需要的數(shù)據(jù)量也許會超出現(xiàn)有機器的存儲能力。對于這種業(yè)務(wù)擴張的需求,業(yè)界一般有兩種手段,一種是縱向擴展(scale up),也就是通過購買更先進的硬件,在現(xiàn)有機器數(shù)量不變的情況下,對現(xiàn)有的機器進行升級。這種手段的好處是機器的數(shù)量比較小,管理起來更加方便,也不需要采取更復(fù)雜的軟件架構(gòu)。銀行業(yè)更傾向于采用這樣的手段,銀行業(yè)使用的機器,比如工商銀行采用的 IBM 大型機,性能之強勁,價格之高昂,也不是中小公司能承受的,坊間相傳這樣的一臺大型機售價幾千萬人民幣甚至更高。
另一種更親民的手段則是橫向擴展(scale out),通過增加更多機器的手段來提供更強的存儲與查詢能力。這時候我們就需要用到分布式數(shù)據(jù)庫了。分布式數(shù)據(jù)庫在設(shè)計之初,就面對的是多臺機器的場景,同一套數(shù)據(jù)庫軟件,被部署到多臺機器上,這些機器彼此通過網(wǎng)絡(luò)進行連接,從而形成一個數(shù)據(jù)庫集群(cluster)。在這個宏大的集群中,通過一定的分割(partition)算法,每臺機器都會分配到自己能夠處理的一小塊數(shù)據(jù)。同時,多臺機器之間可以互相的實時備份(replication),這樣就算是有一臺甚至多臺機器出現(xiàn)故障的時候,這個分布式數(shù)據(jù)庫集群依然可以正常工作。得益于親民的價格以及良好的擴展性,分布式數(shù)據(jù)庫被視為業(yè)界最近的發(fā)展方向。
云原生
以前的數(shù)據(jù)庫,需要軟件公司或者互聯(lián)網(wǎng)公司自己采購機器,并且在這幾臺或幾十臺機器上部署單機或者分布式的數(shù)據(jù)庫,這種方式也被稱為本地部署(on-premise)。時至今日,云計算使得大家可以通過在云上租機器,甚至租服務(wù)的方式,來使用數(shù)據(jù)庫,這被稱為云端部署(off-premise, cloud computing)。一方面,現(xiàn)有的分布式數(shù)據(jù)庫可以從本地移到云端,來更方便大家使用,并把數(shù)據(jù)庫的安裝,部署和維護工作都交給云平臺上的專業(yè)人士完成,另一方面,云原生(cloud-native)數(shù)據(jù)庫也帶來了一些新的思路:
更易擴展(better scalability): 當(dāng)需要更多機器的時候,在云端可以在幾分鐘的時間里完成租用新機器并添加進數(shù)據(jù)庫集群的操作,而如果數(shù)據(jù)庫是部署在本地的話,大家不太可能在短時間內(nèi)購買新的物理機來增加集群中機器的數(shù)量。如今的一些云數(shù)據(jù)庫服務(wù),會在后臺進行機器的增減,在用戶業(yè)務(wù)量突然增大的時候,自動進行性能的擴展,不需要用戶操心具體的機器數(shù)量。
多租戶出租(multi-tenant): 傳統(tǒng)數(shù)據(jù)庫更多的是只服務(wù)一位客戶,在云端則沒有這個限制,一臺數(shù)據(jù)庫機器可以滿足多位客戶的不同的讀寫需求。在做好不同客戶之前的數(shù)據(jù)隔離的前提下,通過服務(wù)更多客戶,云數(shù)據(jù)庫可以進一步壓縮成本,降低收費標(biāo)準(zhǔn)。
異地備份: 大型的互聯(lián)網(wǎng)公司會有數(shù)據(jù)異地備份的需求,一方面是應(yīng)對某一地區(qū)的數(shù)據(jù)中心完全失效的情況,比如說發(fā)生火災(zāi)或地震這種大規(guī)模的不可抗力,另一方面,也是為了減少不同地區(qū)之間的數(shù)據(jù)延遲(latency),像是美國的東西海岸,中國的北京和深圳,都隔著遙遠(yuǎn)的距離,如果所需的數(shù)據(jù)在本地區(qū)的數(shù)據(jù)中心中有備份,那就不需要再從其它地區(qū)讀取數(shù)據(jù)。中小型公司一般不會有異地機房,因此借用云廠商的基礎(chǔ)設(shè)施,可以更好的保證自身數(shù)據(jù)安全。
云原生數(shù)據(jù)庫有兩類重量級玩家,一種是云廠商本身,如 Amazon 的 AWS、微軟的 Azure,這種云廠商自身的數(shù)據(jù)庫可以很好地和自身的其它服務(wù)結(jié)合起來,比如 AWS 的機器(VM)可以更快的讀取 AWS 的數(shù)據(jù)庫,而讀取其它地方的數(shù)據(jù)庫就要慢一些。同時,云廠商為自家數(shù)據(jù)庫提供了同樣高質(zhì)量的客服。另一類玩家則是獨立的第三方數(shù)據(jù)庫公司,如 MongoDB 的云數(shù)據(jù)庫,用戶可以選擇依托 AWS,Azure 或者 Google Cloud,不管用戶依托哪個云平臺,用戶都能享受 MongoDB 同樣的服務(wù)。這樣做的好處是,用戶不受限于某家特定的云廠商,因而在定價方面有了更多的自主權(quán)。另外,當(dāng)某一家云廠商發(fā)生問題的時候,用戶可以快速遷移到同地區(qū)的另一家云廠商,使自己的客戶不受影響。
在這一部分,我們重點羅列的公司和產(chǎn)品有:
阿里巴巴:AliSQL
簡介:AliSQL 是基于 MySQL 官方版本的一個分支,由阿里云數(shù)據(jù)庫團隊維護,目前也應(yīng)用于阿里巴巴集團業(yè)務(wù)以及阿里云數(shù)據(jù)庫服務(wù)。該版本在社區(qū)版的基礎(chǔ)上做了大量的性能與功能的優(yōu)化改進。尤其適合電商、云計算以及金融等行業(yè)環(huán)境。
阿里巴巴:PolarDB
簡介:PolarDB 是阿里巴巴自主研發(fā)的下一代關(guān)系型分布式云原生數(shù)據(jù)庫,目前兼容三種數(shù)據(jù)庫引擎:MySQL、PostgreSQL、高度兼容 Oracle 語法。計算能力最高可擴展至 1000 核以上,存儲容量最高可達 100T。經(jīng)過阿里巴巴雙十一活動的最佳實踐,讓用戶既享受到開源的靈活性與價格,又享受到商業(yè)數(shù)據(jù)庫的高性能和安全性。
百度:BaikalDB
簡介:BaikalDB 是百度推出的一個分布式增強型結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)。它支持 PB 級結(jié)構(gòu)數(shù)據(jù)的順序和隨機實時讀/寫。BaikalDB 兼容 MySQL 協(xié)議,支持 MySQL 風(fēng)格的 SQL 方言,用戶可以通過它無縫將數(shù)據(jù)存儲從 MySQL 遷移到 BaikalDB。
柏睿:Rapids TXDB
簡介:Rapids TXDB 是一款企業(yè)級交易型數(shù)據(jù)庫系統(tǒng),是柏睿數(shù)據(jù)基于 OpenGauss 開發(fā)推出并提供技術(shù)支持服務(wù)的商業(yè)發(fā)行版本,可為各行業(yè)客戶的交易型(OLTP)應(yīng)用場景提供安全、穩(wěn)定、快速的聯(lián)機事務(wù)處理支持。
達夢數(shù)據(jù)庫:DM8
簡介:DM8是達夢公司在總結(jié)DM系列產(chǎn)品研發(fā)與應(yīng)用經(jīng)驗的基礎(chǔ)上,推出的新一代自研數(shù)據(jù)庫。DM8融合了分布式、彈性計算與云計算的優(yōu)勢,對靈活性、易用性、可靠性、高安全性等方面進行了改進,支持超大規(guī)模并發(fā)事務(wù)處理和事務(wù)-分析混合型業(yè)務(wù)處理。
國網(wǎng)信通和創(chuàng)意信息聯(lián)合發(fā)布:思極有容
簡介:“思極有容”數(shù)據(jù)庫是一款國產(chǎn)自主可控的分布式關(guān)系型數(shù)據(jù)庫,支持國產(chǎn) CPU、操作系統(tǒng)生態(tài),支持云平臺和容器。在安全方面,設(shè)定多種權(quán)限訪問、審計、流量控制機制,實現(xiàn)真正資源隔離。產(chǎn)品采用當(dāng)前分布式技術(shù),提供多種隔離級別,保障完整分布式事務(wù)。
瀚高數(shù)據(jù)庫:HighGo DB
簡介:HighGo DB是一款企業(yè)級OLTP數(shù)據(jù)庫。其專注于企業(yè)級市場,在承擔(dān)海量數(shù)據(jù)、高并發(fā)的復(fù)雜業(yè)務(wù)應(yīng)用方面表現(xiàn)較為突出,能夠滿足企業(yè)級應(yīng)用對數(shù)據(jù)管理的需求。
航天紫光:CASICloud DBCP
簡介:航天天域數(shù)據(jù)庫管理系統(tǒng) CASICloud DBCP 是由北京航天紫光科技自主研發(fā)的基于無共享架構(gòu)的企業(yè)級分布式關(guān)系型數(shù)據(jù)庫,具備高性能、高可用、跨平臺、線性擴展等特性,并且具備強事務(wù)處理能力,同時支持分析。
恒生電子:LightDB
簡介:LightDB 是恒生電子股份有限公司研發(fā)并將長期支持的一款同時支持在線事務(wù)處理與在線分析處理的融合型分布式數(shù)據(jù)庫產(chǎn)品。它是一款基于 PostgreSQL 的關(guān)系型數(shù)據(jù)庫,99%兼容 PostgreSQL,主要針對金融業(yè)務(wù)場景優(yōu)化。
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院:Cedar
簡介:Cedar是由華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院基于OceanBase 0.4.2研發(fā)的高通量、可伸縮、高可用的分布式關(guān)系數(shù)據(jù)庫。
華為:openGauss
簡介:openGauss是一款開源關(guān)系型數(shù)據(jù)庫管理系統(tǒng),采用木蘭寬松許可證v2發(fā)行。openGauss內(nèi)核深度融合華為在數(shù)據(jù)庫領(lǐng)域多年的經(jīng)驗,內(nèi)核源自PostgreSQL,并著重在架構(gòu)、事務(wù)、存儲引擎、優(yōu)化器等方向持續(xù)構(gòu)建競爭力特性,在ARM架構(gòu)的芯片上深度優(yōu)化,并兼容X86架構(gòu)。
京東:StarDB
簡介:StarDB 是京東自主設(shè)計研發(fā)的一款金融級國產(chǎn)分布式數(shù)據(jù)庫,支持海量數(shù)據(jù)高并發(fā)在線事務(wù)處理,具備無感分布式、金融級高可用、高度兼容 MySQL、彈性伸縮、安全合規(guī)、智能運維管控等重要功能特性。
巨杉數(shù)據(jù)庫:SequoiaDB
簡介:SequoiaDB 巨杉數(shù)據(jù)庫是一款金融級分布式數(shù)據(jù)庫,目前在超過 50 家大型銀行核心生產(chǎn)業(yè)務(wù)規(guī)模應(yīng)用,主要面對高并發(fā)聯(lián)機交易型場景提供高性能、可靠穩(wěn)定以及無限水平擴展的數(shù)據(jù)庫服務(wù)。
科藍(lán):Goldilocks DBMS
簡介:Goldilocks DBMS 是由科藍(lán)軟件研發(fā)的擁有獨立知識產(chǎn)權(quán)的 RDBMS,適合需要 24 小時穩(wěn)定運行和高性能的交易型單機版及分布式系統(tǒng)使用。
螞蟻集團:OceanBase
簡介:OceanBase 是由螞蟻集團完全自主研發(fā)的企業(yè)級分布式關(guān)系數(shù)據(jù)庫,基于分布式架構(gòu)和通用服務(wù)器、實現(xiàn)了金融級可靠性及數(shù)據(jù)一致性,擁有 100%的知識產(chǎn)權(quán),始創(chuàng)于 2010 年。OceanBase 具有數(shù)據(jù)強一致、高可用、高性能、在線擴展、高度兼容 SQL 標(biāo)準(zhǔn)和主流關(guān)系數(shù)據(jù)庫、低成本等特點。
南大通用:GBase 8s
簡介:GBase 8s是天津南大通用數(shù)據(jù)技術(shù)股份有限公司自主研發(fā)的企業(yè)級分布式事務(wù)型數(shù)據(jù)庫。支持分布式部署、集中式部署、共享存儲高可用部署、支持兩地三中心高可用部署。GBase 8s適用于OLTP 應(yīng)用場景。
GBase 8c
簡介:分布式交易型數(shù)據(jù)庫GBase 8c是一款shared nothing架構(gòu)的分布式交易型數(shù)據(jù)庫,具備高性能、高可用、低成本、資源調(diào)度精細(xì)化、集群運維智能化等特性,可以為金融核心系統(tǒng)、互聯(lián)網(wǎng)業(yè)務(wù)系統(tǒng)和政企業(yè)務(wù)系統(tǒng)提供安全、穩(wěn)定、可靠的數(shù)據(jù)存儲和管理服務(wù)。
PingCAP:TiDB
簡介:TiDB 是 PingCAP 公司自主設(shè)計、研發(fā)的開源分布式關(guān)系型數(shù)據(jù)庫,是一款同時支持在線事務(wù)處理與在線分析處理的融合型分布式數(shù)據(jù)庫產(chǎn)品。目標(biāo)是為用戶提供一站式 OLTP、OLAP 、HTAP 解決方案。TiDB 適合高可用、強一致要求較高、數(shù)據(jù)規(guī)模較大等各種應(yīng)用場景。
熱璞數(shù)據(jù)庫:HotDB Server
簡介:HotDB Server 是一款實現(xiàn)數(shù)據(jù)容量和性能橫向擴展的交易關(guān)系型分布式事務(wù)數(shù)據(jù)庫產(chǎn)品。它兼容主流數(shù)據(jù)庫協(xié)議和 SQL92/SQL99/SQL2003 標(biāo)準(zhǔn)語法,支持自動水平拆分和垂直拆分,能在數(shù)據(jù)存儲分布式化環(huán)境下為應(yīng)用提供集中式數(shù)據(jù)庫的操作體驗。
人大金倉:KingbaseES
簡介:KingbaseES是一款面向事務(wù)處理應(yīng)用,兼顧簡單分析應(yīng)用的企業(yè)級關(guān)系型數(shù)據(jù)庫,產(chǎn)品融合了金倉在數(shù)據(jù)庫領(lǐng)域多年的產(chǎn)品研發(fā)經(jīng)驗和企業(yè)級應(yīng)用經(jīng)驗,可滿足各行業(yè)用戶多種場景的數(shù)據(jù)處理需求。
神舟通用:神通數(shù)據(jù)庫管理系統(tǒng)
簡介:神通數(shù)據(jù)庫管理系統(tǒng)是天津神舟通用數(shù)據(jù)技術(shù)有限公司自主研發(fā)的大型通用數(shù)據(jù)庫產(chǎn)品,擁有全文檢索、層次查詢、結(jié)果集緩存、并行數(shù)據(jù)遷移、雙機熱備、水平分區(qū)、并行查詢和數(shù)據(jù)庫集群等增強型功能,并具有海量數(shù)據(jù)管理和大規(guī)模并發(fā)處理能力。
騰訊:TDSQL MySQL版
簡介:TDSQL MySQL版(TDSQL for MySQL)是部署在騰訊云上的一種支持自動水平拆分、Shared Nothing 架構(gòu)的分布式數(shù)據(jù)庫。TDSQL MySQL版 默認(rèn)部署主備架構(gòu),提供容災(zāi)、備份、恢復(fù)、監(jiān)控、遷移等全套解決方案,適用于 TB 或 PB 級的海量數(shù)據(jù)庫場景。
騰訊:TDSQL PostgreSQL版 (原TBase)
簡介:TDSQL PostgreSQL版(TDSQL for PostgreSQL, 原 TBase)是騰訊自主研發(fā)的分布式數(shù)據(jù)庫系統(tǒng),具備高 SQL 兼容度、完整分布式事務(wù)、高安全、高擴展、多級容災(zāi)等能力,成功應(yīng)用在金融、政府、電信等行業(yè)核心業(yè)務(wù)中。
萬里開源:GreatDB
簡介:GreatDB 分布式是一款原生分布式關(guān)系型數(shù)據(jù)庫軟件,具有動態(tài)擴展、數(shù)據(jù)強一致、集群高可用等特性。采用 shared-nothing 架構(gòu),基于數(shù)據(jù)冗余與副本管理確保數(shù)據(jù)庫穩(wěn)定可靠,基于數(shù)據(jù) sharding 與 mpp 技術(shù)實現(xiàn)高性能,并具備動態(tài)擴展數(shù)據(jù)節(jié)點能力。目前已廣泛應(yīng)用于金融、運營商、能源、政府、互聯(lián)網(wǎng)等行業(yè)核心系統(tǒng),兼容國產(chǎn)操作系統(tǒng)、芯片等國產(chǎn)軟硬件生態(tài)。
新華三:SeaSQL DRDS分布式事務(wù)數(shù)據(jù)庫
簡介:H3C SeaSQL DRDS是一款實現(xiàn)數(shù)據(jù)容量和性能橫向擴展的交易關(guān)系型分布式事務(wù)數(shù)據(jù)庫產(chǎn)品。它兼容主流數(shù)據(jù)庫協(xié)議和 SQL92/SQL99標(biāo)準(zhǔn)語法,支持自動水平拆分和垂直拆分,能在數(shù)據(jù)存儲分布式化環(huán)境下為應(yīng)用提供集中式數(shù)據(jù)庫的操作體驗。
星環(huán)科技:KunDB
簡介:KunDB 是星環(huán)分布式交易型數(shù)據(jù)庫。公司介紹,其實高度兼容 MySQL、Oracle的國產(chǎn)分布式交易型數(shù)據(jù)庫,為企業(yè)核心業(yè)務(wù)數(shù)據(jù)庫建設(shè)提供完備的能力支撐和可靠的國產(chǎn)化遷移方案。
亞信科技:AISWare AntDB
簡介:AntDB是一款通用企業(yè)級,高可用、高性能的原生分布式關(guān)系型數(shù)據(jù)庫,憑多年技術(shù)累積面向電信、政務(wù)、能源、金融、交通等行業(yè)精心打造。該產(chǎn)品采用了原生分布式架構(gòu),實現(xiàn)了在線彈性伸縮和分布式強一致,全面兼容MySQL、PostgreSQL 并支持SQL 2016標(biāo)準(zhǔn)。
易鯨捷:QianBase xTP
簡介:面向大中型銀行的新一代云原生分布式核心交易數(shù)據(jù)庫。
云和恩墨:MogDB
簡介:MogDB 是云和恩墨基于 openGauss 開源數(shù)據(jù)庫進行定制、推出的企業(yè)發(fā)行版。
澤拓科技:昆侖數(shù)據(jù)庫
簡介:昆侖數(shù)據(jù)庫是澤拓科技研發(fā)的NewSQL分布式關(guān)系數(shù)據(jù)庫,面向TB和PB級別海量數(shù)據(jù)處理,以高吞吐量和低延時處理海量高并發(fā)讀寫請求。它提供事務(wù)ACID保障,高可擴展性,高可用性和透明的分庫分表數(shù)據(jù)處理功能。
中興通訊:GoldenDB
簡介:針對銀行 OLTP 業(yè)務(wù),中興通訊分布式數(shù)據(jù)庫 GoldenDB 為業(yè)務(wù)帶來傳統(tǒng)單機數(shù)據(jù)庫無法提供的計算及擴展能力,提供高可用、高可靠、資源調(diào)度靈活的數(shù)據(jù)庫服務(wù),支持金融行業(yè)已有業(yè)務(wù)升級及創(chuàng)新業(yè)務(wù)快速部署的需求。
Amazon:Aurora
簡介: Amazon Aurora 是一種與 MySQL 和 PostgreSQL 兼容的關(guān)系數(shù)據(jù)庫,專為云而打造,既具有傳統(tǒng)企業(yè)數(shù)據(jù)庫的性能和可用性,又具有開源數(shù)據(jù)庫的簡單性和成本效益。Amazon Aurora 的速度最高可以達到標(biāo)準(zhǔn) MySQL 數(shù)據(jù)庫的五倍、標(biāo)準(zhǔn) PostgreSQL 數(shù)據(jù)庫的三倍。它可以實現(xiàn)商用數(shù)據(jù)庫的安全性、可用性和可靠性,而成本只有商用數(shù)據(jù)庫的 1/10。Amazon Aurora 由 Amazon Relational Database Service (RDS) 完全托管,RDS 可以自動執(zhí)行各種耗時的管理任務(wù),例如硬件預(yù)置以及數(shù)據(jù)庫設(shè)置、修補和備份。Amazon Aurora 采用一種有容錯能力并且可以自我修復(fù)的分布式存儲系統(tǒng),這一系統(tǒng)可以把每個數(shù)據(jù)庫實例擴展到最高 128TB。它具備高性能和高可用性,支持最多 15 個低延遲讀取副本、時間點恢復(fù)、持續(xù)備份到 Amazon S3,還支持跨三個可用區(qū)復(fù)制。
Amazon:Keyspaces
簡介:Amazon Keyspaces(for Apache Cassandra)是一種可擴展、高度可用、托管式 Apache Cassandra 兼容數(shù)據(jù)庫服務(wù)。借助 Amazon Keyspaces,用戶可以繼續(xù)使用當(dāng)前的相同 Cassandra 應(yīng)用程序代碼和開發(fā)人員工具在 AWS 上運行 Cassandra 工作負(fù)載,而無需預(yù)置、修補或管理服務(wù)器,并且不需要安裝、維護或操作軟件。Amazon Keyspaces 是無服務(wù)器服務(wù),因此您只需為實際使用的資源付費,并且該服務(wù)會根據(jù)應(yīng)用程序流量自動擴展和縮減表。
Apache Cassandra
簡介:Apache Cassandra(一般被簡稱為 C*)是由 Facebook 開發(fā)并開源的分布式數(shù)據(jù)庫系統(tǒng),具有良好的擴展性,可以動態(tài)的在運行過程中進行機器數(shù)量的加減,但并不支持太過復(fù)雜的 SQL 操作。Cassandra 采用寬列存儲模型,每一行數(shù)據(jù)都由唯一的 key 標(biāo)識,并可以有多列,類似于二維的鍵值存儲。Cassandra 本身開源,并由開源社區(qū)進行維護,因此眾多云廠商基于開源版本,都提供了各自的 Cassandra 云服務(wù)。
Cockroach Labs:CockarochDB
簡介: CockroachDB的目標(biāo)是打造一個開源、可伸縮、跨地域復(fù)制且兼容事務(wù)的 ACID 特性的分布式數(shù)據(jù)庫。據(jù)介紹,它不僅能實現(xiàn)全局(多數(shù)據(jù)中心)的一致性,而且保證了數(shù)據(jù)庫的生存能力,就像 Cockroach(蟑螂)這個名字一樣,是打不死的小強。CockroachDB 的思路源自 Google 的全球性分布式數(shù)據(jù)庫 Spanner。其理念是將數(shù)據(jù)分布在多數(shù)據(jù)中心的多臺服務(wù)器上,實現(xiàn)一個可擴展,多版本,全球分布式并支持同步復(fù)制的數(shù)據(jù)庫。2021年12月,Cockroach Labs進行了F輪融資,共融資2.78億美元,估值50億美元。
Couchbase
簡介: Couchbase 是一個高性能、分布式、面向文檔的NoSQL數(shù)據(jù)庫。Couchbase 提供了一些和其他一些領(lǐng)先的NoSQL數(shù)據(jù)庫相似的功能或者增強功能。Couchbase是MemBase與couchDB這兩個NoSQL數(shù)據(jù)庫的合并的產(chǎn)物,擁有CouchDB的簡單和可靠以及Memcached的高性能。Couchbase于2021年7月在美國納斯達克交易所進行IPO,目前市值8億美元左右。
FaunaDB
簡介:FaunaDB是一個靈活,用戶友好的,支持事務(wù)的數(shù)據(jù)庫。Fauna支持原生GraphSQL,同時,F(xiàn)auna的數(shù)據(jù)庫服務(wù)是以安全可擴展的云API的形式來提供,以此來讓用戶無需操心數(shù)據(jù)庫的機器數(shù)量,擴展,分片,備份等諸多問題。2020年7月Fauna進行了A輪融資,共計2700萬美元。
Google:Google Cloud Spanner
簡介: Cloud Spanner是一項完全托管式用于關(guān)鍵任務(wù)的關(guān)系型數(shù)據(jù)庫服務(wù),可提供全球范圍的事務(wù)一致性、自動同步復(fù)制功能以實現(xiàn)高可用性,以及對兩種 SQL 方言的支持:Google 標(biāo)準(zhǔn) SQL(ANSI 2011 及擴展程序)和PostgreSQL。
Google:Google Bigtable
簡介:Bigtable是Google研發(fā)并商用的全代管式可擴縮的 NoSQL 數(shù)據(jù)庫服務(wù),用于處理大規(guī)模分析和運營工作負(fù)載,可用性達 99.999%。其具有以下的特點:延遲時間始終在 10 毫秒以內(nèi),每秒可處理數(shù)百萬個請求; 非常適合個性化、廣告技術(shù)、金融技術(shù)、數(shù)字媒體和 IoT 等使用場景; 可根據(jù)用戶的存儲需求無縫擴縮;重新配置時無需停機; 采用適合機器學(xué)習(xí)應(yīng)用的存儲引擎設(shè)計,可提升預(yù)測效果; 可輕松連接到 Google Cloud 服務(wù)(例如 BigQuery)或 Apache 生態(tài)系統(tǒng)。
IBM : DB2
介紹:IBM DB2 是美國 IBM 公司開發(fā)的一套關(guān)系型數(shù)據(jù)庫管理系統(tǒng),它主要的運行環(huán)境為 UNIX(包括 IBM 自家的 AIX)、Linux、IBM i(舊稱 OS/400)、z/OS,以及 Windows 服務(wù)器版本。DB2 主要應(yīng)用于大型應(yīng)用系統(tǒng),具有較好的可伸縮性,可支持從大型機到單用戶環(huán)境,應(yīng)用于所有常見的服務(wù)器操作系統(tǒng)平臺下。DB2 采用了數(shù)據(jù)分級技術(shù),能夠使大型機數(shù)據(jù)很方便地下載到 LAN 數(shù)據(jù)庫服務(wù)器,使得客戶機/服務(wù)器用戶和基于 LAN 的應(yīng)用程序可以訪問大型機數(shù)據(jù),并使數(shù)據(jù)庫本地化及遠(yuǎn)程連接透明化。DB2 以擁有一個非常完備的查詢優(yōu)化器而著稱,其外部連接改善了查詢性能,并支持多任務(wù)并行查詢。DB2 具有很好的網(wǎng)絡(luò)支持能力,每個子系統(tǒng)可以連接十幾萬個分布式用戶,可同時激活上千個活動線程,對大型分布式應(yīng)用系統(tǒng)尤為適用。
MariaDB:MariaDB Enterprise、SkySQL
簡介:MariaDB 是 MySQL 數(shù)據(jù)庫在 Oracle 公司之外的獨立分枝,由原 MySQL 團隊的部分創(chuàng)始成員開發(fā),并高度兼容 MySQL。這些 MySQL 團隊成員擔(dān)心 MySQL 被 Oracle 公司收購之后,會帶來一系列的法律和產(chǎn)權(quán)問題,因此創(chuàng)立了一條新的開源分支。如今MariaDB也在進行迭代,比如SkySQL是MariaDB Enterprise數(shù)據(jù)庫的云服務(wù)版本,提供database-as-a-service (DBaaS)功能。其整合了豐富而強大的數(shù)據(jù)庫功能,簡單易用,并且高度自動化。
Microsoft:Azure Cosmos DB
簡介: Azure Cosmos DB 是一種用于現(xiàn)代應(yīng)用開發(fā)的完全托管式NoSQL數(shù)據(jù)庫服務(wù)。具有有保證的個位數(shù)毫秒級響應(yīng)時間和由SLA支持的99.999%可用性、自動、即時的可伸縮性,以及用于MongoDB和Cassandra的開放源代碼API。借助統(tǒng)包數(shù)據(jù)復(fù)制和多區(qū)域?qū)懭?,在世界任何地方都能進行快速讀寫操作。
Microsoft:SQL Server
簡介:SQL Server 是 Microsoft 公司推出的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。具有使用方便可伸縮性好與相關(guān)軟件集成程度高等優(yōu)點,可跨越從運行 Microsoft Windows 98 到運行 Microsoft Windows 2012 的大型多處理器的服務(wù)器等多種平臺使用。
MongoDB Inc.:MongoDB
簡介:MongoDB 是一種面向文檔的數(shù)據(jù)庫系統(tǒng),主要管理類似于 JSON 格式的文檔型數(shù)據(jù)。由總部位于美國紐約的MongoDB Inc.公司研發(fā),并于 2009 年首次發(fā)布開源版本。MongoDB 采用主從式架構(gòu),以此來保證數(shù)據(jù)的高可用性與可靠性。用戶可以自行部署 MongoDB 集群,也可以付費使用 MongoDB 的云數(shù)據(jù)庫服務(wù)。
MySQL
簡介:MySQL 是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),現(xiàn)屬于 Oracle 旗下產(chǎn)品,是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一。MySQL 軟件采用了雙授權(quán)政策,分為社區(qū)版和商業(yè)版,由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型網(wǎng)站的開發(fā)都選擇 MySQL作為網(wǎng)站數(shù)據(jù)庫。
Oracle:Oracle Database
簡介::Oracle Database,又名 Oracle RDBMS,或簡稱 Oracle。是 甲骨文公司的一款關(guān)系數(shù)據(jù)庫管理系統(tǒng) 。它在數(shù)據(jù)庫領(lǐng)域一直處于領(lǐng)先地位的產(chǎn)品,可以說是世界上流行的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。
PostgreSQL
簡介:PostgreSQL 是一種特性非常齊全的自由軟件的對象-關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(ORDBMS),是以加州大學(xué)計算機系開發(fā)的 POSTGRES4.2 版本為基礎(chǔ)的對象關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。PostgreSQL 支持大部分的 SQL 標(biāo)準(zhǔn)并且提供了很多其他現(xiàn)代特性,如復(fù)雜查詢、外鍵 、觸發(fā)器、視圖、事務(wù)完整性、多版本并發(fā)控制等。同樣,PostgreSQL也可以用許多方法擴展,例如通過增加新的數(shù)據(jù)類型、函數(shù)、操作符、聚集函數(shù) 索引方法、過程語言等。另外,因為許可證的靈活,任何人都可以以任何目的免費使用、修改和分發(fā)PostgreSQL。
YugabyteDB
簡介:YugabyteDB是一款開源,高性能,云原生的分布式數(shù)據(jù)庫,致力于兼容PostgreSQL所有的特性。它適用于需要高實時性,高可靠性與高數(shù)據(jù)一致性的云原生應(yīng)用,同時,它提供了高擴展性,高容錯性與全球部署的可能。
按分析能力:OLAP 型與HTAP型數(shù)據(jù)庫
前文講到的數(shù)據(jù)庫大多是 OLTP 類型,更關(guān)注于對交易與線上業(yè)務(wù)的支持,而分析型的 OLAP 數(shù)據(jù)庫則更有助于用戶了解自己的業(yè)務(wù)現(xiàn)狀,并對已有的數(shù)據(jù)進行分析處理。OLTP 和 OLAP 有很大的交集,但是側(cè)重點不一樣,比如說網(wǎng)絡(luò)商城的 OLTP 數(shù)據(jù)庫需要應(yīng)對非常多的用戶,非常高的并發(fā)量,但每條交易可能只是短短的一條購買記錄,而 OLAP的用戶則多為企業(yè)內(nèi)部人員,需要周期性的對數(shù)據(jù)進行分析,比如生成周報來分析產(chǎn)品銷量。OLAP 數(shù)據(jù)庫的并發(fā)量要低很多,畢竟一般只限內(nèi)部人員使用,但是數(shù)據(jù)的讀取量會大很多,經(jīng)常需要對這一周的所有用戶購買數(shù)據(jù)進行逐一掃描,相關(guān)的查詢也會更加復(fù)雜,因此需要更長的查詢時間,比如幾小時之后才能生成對應(yīng)的周報。
在OLAP型數(shù)據(jù)庫中,比較常見的概念之一是數(shù)據(jù)倉庫。進入云時代以來,為了更好的分析數(shù)據(jù),數(shù)據(jù)倉庫(data warehouse)的概念應(yīng)運而生。用戶在產(chǎn)生數(shù)據(jù)的同時,把相應(yīng)的數(shù)據(jù)上傳到數(shù)據(jù)倉庫中,之后就可以在數(shù)據(jù)倉庫中進行相應(yīng)的查詢。在數(shù)據(jù)倉庫這個領(lǐng)域最引人注目的玩家就是前面提到的 Snowflake。作為軟件史上最大的IPO之一,Snowflake上市當(dāng)天股票就翻番,現(xiàn)在的市值在450億美元左右。
這一章節(jié)我們將盤點業(yè)內(nèi)的 OLAP 型數(shù)據(jù)庫,以及一些兼容OLTP與OLAP操作的HTAP型數(shù)據(jù)庫。同樣如前文提及,具體某個HTAP產(chǎn)品放在OLTP板塊還是OLAP板塊,主要依據(jù)一些公開資料中的描述判斷。但整體而言,HTAP兼具兩種功能,這里的分類僅供讀者參考。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache Doris
簡介:Apache Doris是由百度開源并貢獻給Apache的MPP架構(gòu)OLAP數(shù)據(jù)庫,以極速易用的特性被業(yè)內(nèi)所熟知,支持標(biāo)準(zhǔn)SQL并兼容MySQL協(xié)議,僅需秒級響應(yīng)時間可返回海量數(shù)據(jù)下的查詢結(jié)果,可有效支持實時分析、交互式分析等多種需求場景。
Apache HAWQ
簡介:Apache HAWQ是面向企業(yè)用戶的先進大規(guī)模分布式分析型數(shù)據(jù)庫,完整支持SQL規(guī)范并提供優(yōu)秀的大數(shù)據(jù)分析性能表現(xiàn)。Apache HAWQ于2018年8月15日正式畢業(yè)。
Apache Kylin
簡介:Apache Kylin? (麒麟)是一個開源的分布式大數(shù)據(jù)分析數(shù)據(jù)倉庫;它旨在提供大數(shù)據(jù)時代的OLAP(在線分析處理)能力。通過在 Hadoop 和 Spark 上革新多維立方體和預(yù)計算技術(shù),Kylin 能夠在數(shù)據(jù)量不斷增長的情況下實現(xiàn)接近恒定的查詢速度,將查詢延遲從幾分鐘減少到亞秒級。
阿里巴巴:AnalyticDB
簡介:AnalyticDB 是阿里云自主研發(fā)的云原生數(shù)據(jù)倉庫,采用存儲計算分離+多副本架構(gòu),支持最大 5000 節(jié)點規(guī)模的彈性擴容,對復(fù)雜 SQL 查詢速度比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫快 10 倍以上。不同于復(fù)雜、高門檻的大數(shù)據(jù)體系,AnalyticDB 高度兼容 MySQL、PostgreSQL,Oracle 應(yīng)用遷移成本低,可對萬億級別的數(shù)據(jù)進行實時的多維度分析透視,極大地提升了企業(yè)挖掘數(shù)據(jù)價值效率。
柏睿:分布式分析型數(shù)據(jù)庫 Rapids UXDB
介紹:Rapids UXDB 是一款具備大規(guī)模并行處理能力的企業(yè)級關(guān)系型數(shù)據(jù)庫,采用 MPP 架構(gòu),支持 1000+節(jié)點擴展。面向智能數(shù)據(jù)分析(OLAP)應(yīng)用場景,提供 EB 級數(shù)據(jù)的復(fù)雜數(shù)據(jù)分析能力。
達夢數(shù)據(jù)庫:達夢分析型大規(guī)模數(shù)據(jù)處理集群DMMPP
簡介:達夢分析型大規(guī)模數(shù)據(jù)處理集群軟件(DMMPP)是基于達夢數(shù)據(jù)庫管理系統(tǒng)研發(fā)的完全對等無共享式的并行集群組件,支持將多個DM8節(jié)點組織為一個并行計算網(wǎng)絡(luò),對外提供統(tǒng)一的數(shù)據(jù)庫服務(wù),最多可支持1024個節(jié)點,支持TB到PB級的數(shù)據(jù)存儲與分析,并提供高可用性和動態(tài)擴展能力,是超大型數(shù)據(jù)應(yīng)用的高性價比通用解決方案。
鼎石縱橫:StarRocks
簡介:StarRocks 是一款開源的新一代極速全場景 MPP 數(shù)據(jù)庫。它采用新一代的彈性 MPP 架構(gòu),可以高效支持海量數(shù)據(jù)的多維分析、實時分析、高并發(fā)分析等多種數(shù)據(jù)分析場景。它采用了全面向量化技術(shù)。StarRocks 的目標(biāo)是成為新一代流批融合的極速湖倉(Lakehouse)。
東方國信:CirroData-AP
簡介:CirroData-AP 分布式云化數(shù)據(jù)庫面向海量數(shù)據(jù)分析型應(yīng)用領(lǐng)域,便于用戶管理全量數(shù)據(jù),進行快速的統(tǒng)計分析,進而獲得數(shù)據(jù)驅(qū)動的商業(yè)洞察。CirroData 采用了計算和存儲分離的技術(shù)架構(gòu),融合了分布式存儲和 MPP 并行計算的各自優(yōu)勢,不但可以實現(xiàn)云平臺上的伸縮擴展能力,而且可以提供隨需部署的能力。
東軟:思來得數(shù)據(jù)倉庫
簡介:Neusoft Select Data Warehous(簡稱東軟思來得)是東軟專家團隊基于MPP架構(gòu),采用Pivotal Greenplum開源平臺打造的擁有自主知識產(chǎn)權(quán)的,適用于云原生環(huán)境的分布式數(shù)據(jù)庫。為企業(yè)提供海量數(shù)據(jù)的管控及并行處理的能力,為IT架構(gòu)的靈活擴展提供數(shù)據(jù)底座。
飛輪科技:SelectDB
簡介:基于Doris內(nèi)核的云原生發(fā)行版SelectDB,是運行在云上的實時數(shù)據(jù)倉庫,為用戶和客戶提供開箱即用的能力。據(jù)介紹,其主要的特色功能體現(xiàn)在:充分發(fā)揮彈性云計算、彈性云存儲的優(yōu)勢,實現(xiàn)高性價比;提供可視化、易用的管控平臺和用戶交互開發(fā)平臺。
跬智科技:Kyligence
簡介:Kyligence全場景OLAP,通過有機融合 Apache Kylin 與 ClickHouse,全面覆蓋各類分析場景,用戶無需維護復(fù)雜的數(shù)據(jù)平臺,即可獲得統(tǒng)一的查詢分析體驗。
瀚高數(shù)據(jù)庫:HGDW
簡介:瀚高數(shù)據(jù)倉庫是一款基于大規(guī)模并行技術(shù)的數(shù)據(jù)倉庫軟件,具備無共享、高性能、高可用、擴展容易、海量數(shù)據(jù)處理等特性??梢詾槌笠?guī)模數(shù)據(jù)管理提供高性價比的通用計算平臺,廣泛用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)。
火山引擎:ByteHouse
簡介:ByteHouse 是火山引擎基于ClickHouse研發(fā)的一款分析型數(shù)據(jù)庫產(chǎn)品,能夠?qū)?PB 級海量數(shù)據(jù)進行高效分析。目前,在字節(jié)跳動內(nèi)部,ByteHouse已經(jīng)支持了80%的分析應(yīng)用,能夠高效賦能精準(zhǔn)營銷、廣告效果評估、增長分析等多種場景。
聚云位智:Linkoop DB/ZettaBase
簡介:這是一款擁有內(nèi)核專利的純國產(chǎn)自研企業(yè)級人工智能數(shù)據(jù)庫,吸收了 MPP 庫和 Hadoop 兩種技術(shù)路線的特長,以企業(yè)級分析型數(shù)據(jù)庫能力為基礎(chǔ)核心,增強了流式計算和人工智能計算能力,并且可以統(tǒng)一使用 SQL 驅(qū)動。當(dāng)前公司產(chǎn)品已經(jīng)覆蓋了電信、公安、軍工、金融等領(lǐng)域,場景包括智慧醫(yī)療、智能制造、精準(zhǔn)營銷、輿情分析等場景。
酷克數(shù)據(jù)科技:HashData
簡介:HashData數(shù)據(jù)倉庫融合了MPP數(shù)據(jù)庫的高性能和豐富分析功能、大數(shù)據(jù)平臺的擴展性和靈活性,以及云計算的彈性和敏捷性,以創(chuàng)新性的元數(shù)據(jù)、計算和存儲三者分離的架構(gòu),提供了傳統(tǒng)解決方案做不到的高并發(fā)、彈性、易用性、高可用性、高性能和擴展性。
浪潮:K-DB(m 版)分析型數(shù)據(jù)庫
簡介:K-DB(m 版)是大規(guī)模并行處理(MPP)數(shù)據(jù)庫和并行計算框架,可以支撐 PB 級數(shù)據(jù),結(jié)構(gòu)化和半結(jié)構(gòu)化分析型數(shù)據(jù)庫。其產(chǎn)品可作為數(shù)據(jù)倉庫、數(shù)據(jù)湖中的結(jié)構(gòu)化數(shù)據(jù)存儲、庫內(nèi)數(shù)據(jù)計算挖掘平臺,支撐決策支持、數(shù)據(jù)挖掘等高級分析場景,幫助用戶降低成本和提高效率,從數(shù)據(jù)中獲取對業(yè)務(wù)的洞察和預(yù)測。
南大通用:GBase 8a
簡介:GBase 8a分析型數(shù)據(jù)庫的主要市場是商業(yè)分析和商業(yè)智能市場。產(chǎn)品主要應(yīng)用在政府、黨委、安全敏感部門、國防、統(tǒng)計、審計、銀監(jiān)、證監(jiān)等領(lǐng)域,以及電信、金融、電力等擁有海量業(yè)務(wù)數(shù)據(jù)的行業(yè)。
偶數(shù)科技:OushuDB
介紹:OushuDB 是由 Apache HAWQ 創(chuàng)始團隊打造的新一代云原生數(shù)據(jù)倉庫,該產(chǎn)品采用了存儲與計算分離技術(shù)架構(gòu),具有 MPP 的優(yōu)點,還具有彈性,支持混合工作負(fù)載和高擴展性等優(yōu)點。
人大金倉:KingbaseAnalyticsDB
介紹:KingbaseAnalyticsDB是一款采用shared-nothing分布式架構(gòu),具有高性能,高擴展性能力的MPP數(shù)據(jù)庫產(chǎn)品。適用于數(shù)據(jù)倉庫、決策支持、高級分析等分析類應(yīng)用場景。
睿帆科技:雪球 DB/Snowball
介紹:分布式分析型數(shù)據(jù)庫雪球 DB 是睿帆科技自主研發(fā)的一款基于 PB 級數(shù)據(jù)在線高并發(fā)極速即席查詢的聯(lián)機分析處理(OLAP)MPP 列式數(shù)據(jù)庫管理系統(tǒng)。
可提供 PB 級數(shù)據(jù)的在線多維查詢和分布式存儲,特別適用于海量結(jié)構(gòu)化數(shù)據(jù)存儲、高并發(fā)查詢、高吞吐即席查詢(Ad-hoc)、多維分析和實時查詢場景,能夠?qū)崿F(xiàn) PB 級數(shù)據(jù)超高的壓縮比,節(jié)省硬件成本。
數(shù)變科技:Databend
簡介:Databend 是一個使用Rust研發(fā)、開源的、完全面向云架構(gòu)的新式數(shù)倉,致力于提供極速的彈性擴展能力,打造按需、按量的Data Cloud 產(chǎn)品體驗。
石原子:AtomData
簡介:AtomData是石原子自研的高并發(fā)低延時下一代PB級云原生數(shù)據(jù)倉庫,可以對海量數(shù)據(jù)進行實時的多維分析透視和業(yè)務(wù)探索分析,將數(shù)據(jù)分析和價值化從傳統(tǒng)的離線數(shù)倉轉(zhuǎn)化為在線實時分析模式。
騰訊:TDSQL-A ClickHouse 版
簡介:TDSQL-A ClickHouse 版(TDSQL-A for ClickHouse,TDACH)是騰訊云數(shù)據(jù)庫團隊在 ClickHouse 社區(qū)版基礎(chǔ)上,適配騰訊定制化數(shù)據(jù)庫專用硬件,進行了功能增強和性能提升,并且完善了高可用能力而形成的一套分析型數(shù)據(jù)庫產(chǎn)品。
天云數(shù)據(jù):HUBBLE
簡介:Hubble是一款自主研發(fā)的國產(chǎn)分布式HTAP數(shù)據(jù)庫。具備超高并發(fā)、多源異構(gòu)、全量SQL支持等功能特性,能同時支持金融級的在線交易和大規(guī)模數(shù)據(jù)分析的場景,已在多家大型股份制銀行落地應(yīng)用,同時服務(wù)支撐證券、保險、能源、政府等眾多領(lǐng)域。
星環(huán)科技:ArgoDB
簡介:Transwarp ArgoDB 是星環(huán)科技自主研發(fā)的分布式分析型閃存數(shù)據(jù)庫,可以替代 Hadoop+MPP 混合架構(gòu)。支持標(biāo)準(zhǔn) SQL 語法,提供多模分析、實時數(shù)據(jù)處理、存算解耦、混合負(fù)載、數(shù)據(jù)聯(lián)邦、異構(gòu)服務(wù)器混合部署等先進技術(shù)能力。其介紹,通過一個 ArgoDB 數(shù)據(jù)庫,就可以滿足數(shù)據(jù)倉庫、實時數(shù)據(jù)倉庫、數(shù)據(jù)集市、OLAP、AETP、聯(lián)邦計算等各種需求。
炎凰數(shù)據(jù):炎凰數(shù)據(jù)平臺2.0
簡介:炎凰數(shù)據(jù)?產(chǎn)品提供從采集、導(dǎo)入、存儲、分析、可視化和告警等一系列服務(wù)。提供客戶靈活地管理海量多源異構(gòu)數(shù)據(jù),快速分析數(shù)據(jù)特征,實現(xiàn)異常預(yù)測、智能應(yīng)對的解決方案
易鯨捷:QianBase MPP
簡介:針對數(shù)據(jù)查詢分析、企業(yè)級數(shù)據(jù)倉庫、商業(yè)智能、物聯(lián)網(wǎng)和大數(shù)據(jù)等領(lǐng)域設(shè)計的一款大規(guī)模并行處理分析型數(shù)據(jù)庫產(chǎn)品。
致大盡微科技:TensorBase
簡介:TensorBase是用開源的文化和方式,構(gòu)建的一個Rust下的實時數(shù)據(jù)倉庫,服務(wù)于海量數(shù)據(jù)時代的數(shù)據(jù)存儲和分析。
DuckDB Labs:DuckDB
簡介:DuckDB 是一款開源的嵌入式OLAP數(shù)據(jù)庫,被用作嵌入其他程序以進行快速SQL查詢分析,因而被稱為"OLAP數(shù)據(jù)庫中的 SQLite"。DuckDB具有簡單易用,快速,開源等特點,并支持包括事務(wù)在內(nèi)的多種功能。DuckDB背后的商業(yè)化公司DuckDB Labs總部位于荷蘭阿姆斯特丹。
Google:Google Big Query
簡介: Big Query是伸縮能力極強且經(jīng)濟實惠的無服務(wù)器多云數(shù)據(jù)倉庫,幫助用戶提升業(yè)務(wù)敏捷性。用戶可以批量上傳數(shù)據(jù)并進行分析。Big Query有以下的特點:利用內(nèi)置機器學(xué)習(xí)技術(shù)的平臺,安全且可伸縮,使更多的用戶可以獲取數(shù)據(jù)洞見;通過靈活的多云分析解決方案,以存儲在多種云環(huán)境內(nèi)的數(shù)據(jù)推動業(yè)務(wù)決策;大規(guī)模運行分析的三年期總擁有成本 (TCO) 比其他云數(shù)據(jù)倉庫低 26%–34%
Pivotal:Greenplum
簡介:Greenplum是一款基于PostgreSQL的開源數(shù)據(jù)倉庫軟件。Greenplum支持50PB(1PB=1024TB)級海量數(shù)據(jù)的存儲和處理,Greenplum將來自不同源系統(tǒng)的、不同部門、不同平臺的數(shù)據(jù)集成到數(shù)據(jù)庫中集中存放,并且存放詳盡歷史的數(shù)據(jù)軌跡,業(yè)務(wù)用戶不用再面對一個又一個信息孤島,也不再困惑于不同版本數(shù)據(jù)導(dǎo)致的偏差,同時對于IT人員也降低管理維護工作的復(fù)雜度。
Snowflake Inc.:Snowflake
簡介:Snowflake是一種云原生數(shù)據(jù)倉庫,提供基于云平臺的數(shù)據(jù)存儲與查詢服務(wù)。它支持Amazon AWS S3,微軟Azure和Google Cloud三種不同的云平臺。其背后的Snowflake Inc.公司成立于2012年7月,并于2020年9月在紐約證券交易所上市。
Teradata
簡介Teradata的數(shù)據(jù)倉庫使用“無共享(shared nothing)”架構(gòu),各個服務(wù)器之間擁有獨立內(nèi)存和處理能力,增加服務(wù)器與節(jié)點即增加可儲存的資料量,并由數(shù)據(jù)庫軟件集中管理各服務(wù)器間的承載負(fù)荷量 。2010年,Teradata加入文字分析功能,借此追蹤非結(jié)構(gòu)性資料(如文書檔案)或半結(jié)構(gòu)性資料(如試算表),并可應(yīng)用于商業(yè)分析,例如使用資料倉庫追蹤公司資料,如銷售、客戶偏好、產(chǎn)品位置等。Teradata于2007年在紐約證券交易所上市。
Yandex:ClickHouse
簡介:ClickHouse是一個用于OLAP的開源列式數(shù)據(jù)庫。ClickHouse最早由俄羅斯IT公司Yandex為Yandex.Metrica網(wǎng)絡(luò)分析服務(wù)開發(fā)。ClickHouse允許分析實時更新的數(shù)據(jù),并以高性能為目標(biāo),此外ClickHouse還有以下的特點:真正的列式數(shù)據(jù)庫: 沒有任何內(nèi)容與值一起存儲;線性可擴展性: 可以通過添加服務(wù)器來擴展集群;容錯性: 系統(tǒng)是一個分片集群,其中每個分片都是一組副本;能夠存儲和處理數(shù)PB的數(shù)據(jù);SQL支持。其背后的ClickHouse Inc.公司位于美國舊金山灣區(qū),同時在荷蘭阿姆斯特丹有分部。2021年10月,該公司進行了B輪融資,共計融資2.5億美元。
按照使用場景
3.1 圖數(shù)據(jù)庫
傳統(tǒng)數(shù)據(jù)庫更像是一張張 Excel 表,數(shù)據(jù)一行行的寫入數(shù)據(jù)庫。而有些信息,比如說銀行轉(zhuǎn)賬,記錄更多的是點和邊的信息,轉(zhuǎn)賬時我們可以把每一個用戶看作是一個點,每一筆交易看作是一條邊,這樣在進行交易查詢的時候,用戶可以沿著邊,一步步的去查詢資金的流向。如果使用傳統(tǒng)的數(shù)據(jù)庫進行查詢,比較耗時耗力,需要在大量的交易信息里,查詢到某位特定用戶的交易信息,之后再返回大量的交易信息里,查詢下一筆交易信息以及相應(yīng)的客戶,這就需要對數(shù)據(jù)進行很多輪查詢。圖數(shù)據(jù)庫則專門應(yīng)對這樣的場景,采用以邊為主的存儲與查詢方式,可以更快的順著一條條邊進行信息的查詢。因為主要處理點和邊的信息,這些點和邊構(gòu)成了一張張圖,對應(yīng)的數(shù)據(jù)庫就叫作圖數(shù)據(jù)庫。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache HugeGraph
簡介:HugeGraph是一款易用、高效、通用的圖數(shù)據(jù)庫,實現(xiàn)了Apache TinkerPop3框架及兼容Gremlin查詢語言。支持百億以上的頂點(Vertex)和邊(Edge)快速導(dǎo)入,并提供毫秒級的關(guān)聯(lián)查詢能力,并可與Hadoop、Spark等大數(shù)據(jù)平臺集成以進行離線分析。主要應(yīng)用場景包括關(guān)聯(lián)分析、欺詐檢測和知識圖譜等。
百度:BGraph
簡介:百度自研的原生圖數(shù)據(jù)庫引擎,能支持超大規(guī)模的圖數(shù)據(jù),具有極高的查詢性能,您可將它應(yīng)用在知識圖譜、金融風(fēng)控、推薦引擎和公共安全等場景。
創(chuàng)鄰科技:Galaxybase
簡介:Galaxybase 是中國自主知識產(chǎn)權(quán)的通用商業(yè)化分布式圖數(shù)據(jù)庫。Galaxybase 改變了傳統(tǒng)數(shù)據(jù)存儲的方式,以一種更為靈活的基于“對象”和其間“關(guān)系”的圖數(shù)據(jù)結(jié)構(gòu),將分散的不同種類的原始數(shù)據(jù)連接在一起形成一個關(guān)系網(wǎng)絡(luò),打通數(shù)據(jù)孤島,通過自然語言處理、機器學(xué)習(xí)、圖挖掘等人工智能算法,提供用戶從關(guān)系角度分析問題的能力,幫助其完成實時決策。
華為:GraphBase
簡介:GraphBase是基于FusionInsight HD的分布式圖數(shù)據(jù)庫,基于HBase的分布式存儲機制,能夠支持百億節(jié)點,千億關(guān)系的海量數(shù)據(jù),提供基于Spark的數(shù)據(jù)導(dǎo)入和基于Elasticsearch的索引機制,在推薦、關(guān)系分析和金融反欺詐等領(lǐng)域有廣泛應(yīng)用。
極致嬴圖:Ultipa
簡介:據(jù)36氪2021年的報道,公司介紹,Ultipa的性能被客戶稱為“核動力”引擎,在計算速度上以三角形計算為例,其速度可達 3 億個三角形/秒——這樣的速度在某種程度上已經(jīng)挑戰(zhàn)了現(xiàn)有計算機系統(tǒng)的物理極限;在計算深度上,可做 30 層的深度穿透及關(guān)聯(lián)發(fā)現(xiàn),并能夠方便的構(gòu)建復(fù)雜的模型并與數(shù)據(jù)相關(guān)聯(lián)。
螞蟻集團:TuGraph
簡介:TuGraph 是螞蟻集團聯(lián)合清華大學(xué)自主研發(fā)的大規(guī)模全棧圖計算系統(tǒng),是高效存儲、計算和分析海量圖數(shù)據(jù)的一站式平臺,支持在線、近線和離線模式,能夠在萬億邊圖上進行實時查詢,其處理規(guī)模和性能均達到了國際領(lǐng)先水平,已獲得規(guī)?;瘧?yīng)用,成為螞蟻集團各種業(yè)務(wù)風(fēng)控能力的重要支撐,在數(shù)字支付、數(shù)字服務(wù)、數(shù)字金融等核心業(yè)務(wù)中,顯著提升了風(fēng)險行為的實時識別能力和調(diào)查分析效率。
另一家圖數(shù)據(jù)庫廠商費馬科技已被收購,產(chǎn)品和技術(shù)目前融合進了TuGraph。
夢圖數(shù)據(jù)庫:GDM
簡介:GDM 是四川蜀天夢圖數(shù)據(jù)科技有限公司自主研發(fā)的分布式圖數(shù)據(jù)庫管理系統(tǒng)。
GDM 采用分布式架構(gòu),支持橫向擴展,能夠滿足大數(shù)據(jù)時代海量數(shù)據(jù)的存儲需求?;趫D理論,GDM 針對圖數(shù)據(jù)模型進行了優(yōu)化存儲,在兼顧性能和存儲空間上做了平衡,采用多節(jié)點并行計算,能夠提高大圖、超大圖的圖計算能力。GDM 支持分布式事務(wù),能同時滿足 OLTP 和 OLAP 需求。
歐若數(shù)網(wǎng):Nebula
簡介:Nebula Graph 一款開源、分布式圖數(shù)據(jù)庫,擅長處理超大規(guī)模數(shù)據(jù)集。Nebula Graph 采用存儲計算分離架構(gòu),支持水平擴展,利用 RAFT 分布式 concensus 協(xié)議來實現(xiàn)金融級的高可用,類 SQL 查詢語言降低了 SQL 程序員遷移成本。
騰訊:TGDB
簡介:騰訊云數(shù)圖 TGDB(Tencent Graph Database)是騰訊云推出的原生分布式并行圖數(shù)據(jù)庫,以原生方式實現(xiàn)屬性圖,高效存儲關(guān)聯(lián)數(shù)據(jù),支持千億級節(jié)點大圖的高效查詢和關(guān)聯(lián)分析。
圖特摩斯科技:AbutionGraph
簡介:其結(jié)合了圖數(shù)據(jù)庫(GDB)的簡潔拓?fù)潢P(guān)系、數(shù)據(jù)倉庫(ROLAP+MOLAP)、時序知識圖譜的新穎存儲思想,首創(chuàng)動態(tài)知識圖譜數(shù)據(jù)倉庫(Graph Hybrid OLAP),集多種先進存儲技術(shù)于一身,實現(xiàn)數(shù)據(jù)高效存儲與分析。幫助企業(yè)快速構(gòu)建數(shù)據(jù)運營能力,滿足個性化定制需求,解決既往圖數(shù)據(jù)庫產(chǎn)品無法滿足的場景。
維佳星科技:TigerGraph
簡介:TigerGraph可以在幾小時內(nèi)加載上TB的數(shù)據(jù),并支持超過十跳的圖數(shù)據(jù)查詢。TigerGraph同時支持ACID事務(wù)操作,數(shù)據(jù)分片,數(shù)據(jù)庫的橫向與縱向擴展。TigerGraph適用于反欺詐,物聯(lián)網(wǎng),AI與機器學(xué)習(xí)等場景,并被中國移動,Wish與Zillow等客戶采用。
星環(huán)科技:Transwarp StellarDB
簡介:Transwarp StellarDB 是一款為企業(yè)級圖應(yīng)用而打造的分布式圖數(shù)據(jù)庫,用于快速查找數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,并提供強大算法分析能力。StellarDB 克服了萬億級關(guān)聯(lián)圖數(shù)據(jù)存儲的難題,通過自定義圖存儲格式和集群化存儲,實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫無法提供的低延時多層關(guān)系查詢,在社交網(wǎng)絡(luò)、金融領(lǐng)域都有較大應(yīng)用潛力。
中科知道:PandaDB
簡介:為實現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的融合管理和關(guān)聯(lián)查詢分析,“中科知道”采用智能屬性圖模型,基于 Neo4j 開源版本,設(shè)計并實現(xiàn)了異構(gòu)數(shù)據(jù)智能融合管理系統(tǒng) PandaDB。該系統(tǒng)實現(xiàn)了結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的高效存儲管理,并提供了靈活的 AI 算子擴展機制,具備對多元異構(gòu)數(shù)據(jù)內(nèi)在信息的即席查詢能力。
字節(jié)跳動:ByteGraph
簡介:ByteGraph是字節(jié)跳動自研的分布式圖數(shù)據(jù)庫。ByteGraph 支持有向?qū)傩詧D數(shù)據(jù)模型,支持 Gremlin 查詢語言,支持靈活豐富的寫入和查詢接口,讀寫吞吐可擴展到千萬 QPS,延遲毫秒級。據(jù)介紹,ByteGraph 支持頭條、抖音、 TikTok、西瓜、火山等幾乎字節(jié)跳動全部產(chǎn)品線。
Amazon:Neptune
簡介:Neptune是AWS上的圖數(shù)據(jù)庫,其底層依托于AWS S3存儲平臺,支持快速進行圖數(shù)據(jù)的查詢與處理,并支持多種開源API接口。
ArangoDB Inc.:ArangoDB
簡介:ArangoDB支持鍵值型,圖數(shù)據(jù),與文檔數(shù)據(jù)三種不同的數(shù)據(jù)格式,并以統(tǒng)一的AQL語言進行數(shù)據(jù)查詢與處理。ArangoDB開源免費,采取分布式架構(gòu)。ArangoDB Oasis是由其背后的ArangoDB Inc.公司提供的云數(shù)據(jù)庫服務(wù)。2021年10月ArangoDB Inc.進行了B輪融資,共計2780萬美元。
JanusGraph
簡介:JanusGraph是Linux基金會旗下的一款高擴展性的分布式開源圖數(shù)據(jù)庫,針對于數(shù)十億量級的點和邊的應(yīng)用場景專門優(yōu)化。JanusGraph支持事務(wù)特性以及幾千名用戶的并發(fā)交易,以及復(fù)雜的圖數(shù)據(jù)分析查詢。
NEO Technology:Neo4j
簡介:在Neo4j中,所有的數(shù)據(jù)都被存儲為點,線,或者點和線的標(biāo)簽的形式,每個點或者每條邊都可以有多個標(biāo)簽。Neo4j的核心組件開源,但諸如在線數(shù)據(jù)備份與高可用性的進階功能的代碼則是閉源的。2021年6月Neo4j公司進行了3.25億美元的F輪融資。
3.2 時序數(shù)據(jù)庫
現(xiàn)如今,隨著物聯(lián)網(wǎng)的普及,越來越多的設(shè)備開始產(chǎn)生實時數(shù)據(jù),比如路邊的監(jiān)控攝像頭,每天就會產(chǎn)生數(shù)據(jù)量巨大的信息。物聯(lián)網(wǎng)設(shè)備產(chǎn)生的信息量之大,如果以一行行的方式寫入傳統(tǒng)關(guān)系型數(shù)據(jù)庫,則很快會面臨存儲與查詢性能上的瓶頸。同時,對于這些信息,用戶可能更關(guān)注最近一周的數(shù)據(jù),比如說一小時前的氣溫,而對去年甚至更久遠(yuǎn)的信息,用戶只關(guān)心一個大概的統(tǒng)計學(xué)上的趨勢,比如說去年某個月的平均氣溫,而不需要非常具體的數(shù)據(jù)。此外,物聯(lián)網(wǎng)設(shè)備的數(shù)量可能十分龐大,如果我們把全國的監(jiān)控攝像頭當(dāng)成是同一套物聯(lián)網(wǎng)系統(tǒng),那設(shè)備總數(shù)會達到上億甚至十幾億的規(guī)模。
時序數(shù)據(jù)庫針對這樣的場景,采用不同的底層架構(gòu),可以幾十上百倍得加速存儲與查詢物聯(lián)網(wǎng)設(shè)備時時刻刻產(chǎn)生的海量信息。時序數(shù)據(jù)庫也可以看作是一種特殊的以時間為主線的流式數(shù)據(jù)庫。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:TSDB
簡介:阿里云時間序列數(shù)據(jù)庫 ( Time Series Database , 簡稱 TSDB) 是一種集時序數(shù)據(jù)高效讀寫,壓縮存儲,實時計算能力為一體的數(shù)據(jù)庫服務(wù),可廣泛應(yīng)用于物聯(lián)網(wǎng)和互聯(lián)網(wǎng)領(lǐng)域,實現(xiàn)對設(shè)備及業(yè)務(wù)服務(wù)的實時監(jiān)控,實時預(yù)測告警。
百度云:TSDB
簡介:時序時空數(shù)據(jù)庫 TSDB 是用于存儲和管理時間序列數(shù)據(jù)及地理空間數(shù)據(jù)的專業(yè)化數(shù)據(jù)庫,為時間序列數(shù)據(jù)及地理空間數(shù)據(jù)提供高性能讀寫和強計算能力的分布式云端數(shù)據(jù)庫服務(wù)。
螞蟻集團:CeresDB
簡介:CeresDB是螞蟻集團 OceanBase 推出的時序數(shù)據(jù)庫產(chǎn)品,該數(shù)據(jù)庫將為用戶提供安全可靠的數(shù)據(jù)查詢和存儲管理服務(wù),解決監(jiān)控運維、物聯(lián)網(wǎng)等場景中,時間序列數(shù)據(jù)的高吞吐、橫向擴展等難題。它是基于OceanBase分布式存儲引擎底座的時序數(shù)據(jù)庫產(chǎn)品,適用于物聯(lián)網(wǎng) IoT、運維監(jiān)控、金融分析等行業(yè)場景。
諾司時空:CnosDB
簡介: CnosDB是一個專注于時序數(shù)據(jù)場景的時序型數(shù)據(jù)庫,適用于各種時序場景,如服務(wù)器指標(biāo)、應(yīng)用程序指標(biāo)、性能指標(biāo)、函數(shù)接口調(diào)用指標(biāo)、網(wǎng)絡(luò)流量數(shù)據(jù)、探測器數(shù)據(jù)、日志、市場交易記錄等。CnosDB有如下的特點:全面與InfluxDB 1.X 穩(wěn)定版兼容;開源分布式集群,產(chǎn)品永久免費;支持海量時間序列線:在海量標(biāo)簽、海量時間序列線的情況下,依然能夠高效實現(xiàn)分布式迭代器及查詢優(yōu)化;低成本/碳中和:高效的存儲引擎可充分發(fā)揮硬件性能,并在高效壓縮存儲的同時保障查詢效率;強大完整的生態(tài):可集成市面上主流的采集、存儲、分析、可視化等工具。CnosDB由北京諾司時空科技有限公司開發(fā),2021年07月21日成立于北京市。
四維縱橫:MatrixDB
簡介:MatrixDB 是四維縱橫推出的超融合型分布式數(shù)據(jù)庫產(chǎn)品,是同時支持在線事務(wù)處理(OLTP)、在線分析處理(OLAP)和物聯(lián)網(wǎng)時序應(yīng)用的超融合型分布式數(shù)據(jù)庫,具備嚴(yán)格分布式事務(wù)一致性、水平在線擴容、安全可靠、成熟穩(wěn)定、兼容 PostgreSQL/Greenplum 協(xié)議和生態(tài)等重要特性。為萬物互聯(lián)的智能時代提供智能數(shù)據(jù)核心基礎(chǔ)設(shè)施,為物聯(lián)網(wǎng)應(yīng)用、工業(yè)互聯(lián)網(wǎng)、智能運維、智慧城市、實時數(shù)倉、智能家居、車聯(lián)網(wǎng)等場景提供一站式高效解決方案。
濤思數(shù)據(jù):TDengine
簡介:為物聯(lián)網(wǎng)而生的大數(shù)據(jù)平臺 TDengine 是濤思數(shù)據(jù)推出的一款開源的專為物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、IT 運維等設(shè)計和優(yōu)化的大數(shù)據(jù)平臺。除核心的快 10 倍以上的時序數(shù)據(jù)庫功能外,還提供緩存、數(shù)據(jù)訂閱、流式計算等功能,最大程度減少研發(fā)和運維的復(fù)雜度。
騰訊云:CTSDB
簡介:騰訊云時序數(shù)據(jù)庫(TencentDB for CTSDB)是一種高效、安全、易用的云上時序數(shù)據(jù)存儲服務(wù)。特別適用于物聯(lián)網(wǎng)、大數(shù)據(jù)和互聯(lián)網(wǎng)監(jiān)控等擁有海量時序數(shù)據(jù)的場景。
智臾科技:DolphinDB
簡介:DolphinDB 是由浙江智臾科技有限公司研發(fā)的一款高性能分布式時序數(shù)據(jù)庫,集成了功能強大的編程語言和高容量高速度的流數(shù)據(jù)分析系統(tǒng),為海量結(jié)構(gòu)化數(shù)據(jù)的快速存儲、檢索、分析及計算提供一站式解決方案,適用于量化金融及工業(yè)物聯(lián)網(wǎng)等領(lǐng)域。
InfluxData, Inc.:InfluxDB
簡介:InfluxDB是一套由InfluxData, Inc.公司開發(fā)的開源時序型數(shù)據(jù)庫。它由Go語言實現(xiàn),致力于更高效得查詢與存儲時序型數(shù)據(jù)。InfluxDB被廣泛應(yīng)用于物聯(lián)網(wǎng)的實時數(shù)據(jù)與計算機系統(tǒng)的后臺監(jiān)控等場景。InfluxDB的核心部分開源,但InfluxData將用于支撐InfluxDB集群水平擴展的組件作為閉源產(chǎn)品單獨銷售。
3.3流式數(shù)據(jù)處理
傳統(tǒng)數(shù)據(jù)庫在載入數(shù)據(jù)的時候,為了提高效率,有時會采取批處理的方式,分批加載數(shù)據(jù),比如說數(shù)據(jù)倉庫常用的ETL操作(Extract,Transform,Load的縮寫,指將數(shù)據(jù)從來源處經(jīng)過抽取,轉(zhuǎn)換,加載進入數(shù)據(jù)倉庫以供查詢的過程),經(jīng)常將數(shù)據(jù)打包成一個個批次,每一塊會有多條數(shù)據(jù),分批次進行處理查詢。這樣雖然總體效率會有提高,但是查詢某條數(shù)據(jù)的時候,經(jīng)常要等這條數(shù)據(jù)所在的一整個批次都被加載完才可以,導(dǎo)致查詢的實時性會有下降。
流式數(shù)據(jù)庫則將數(shù)據(jù)看作是一條連續(xù)的,永不終止的河流,每收到一條數(shù)據(jù),都會對這條數(shù)據(jù)進行加載和存儲,并提供更為實時(real-time)的查詢功能。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache Flink
簡介:一個開源流處理框架,其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,F(xiàn)link的流水線運行時系統(tǒng)可以執(zhí)行批處理和流處理程序。
Apache Kafka
簡介:它是歸屬于Apache基金會的一個開源流數(shù)據(jù)處理系統(tǒng),致力于為實時數(shù)據(jù)處理提供一個統(tǒng)一、高吞吐、低延遲的平臺。Kafka采用“發(fā)布/訂閱消息隊列”的形式來在計算機的不同組件中傳遞消息,發(fā)布者將自己要發(fā)布的消息以話題的形式組織,不同的接收者可以選擇訂閱不同的話題,Kafka則負(fù)責(zé)將這些消息準(zhǔn)確無誤的在發(fā)布者與接收者之間進行傳遞。Kafka背后的商業(yè)公司Confluent Inc.于2021年6月在納斯達克證券交易所上市。
柏睿:全內(nèi)存分布式流數(shù)據(jù)庫 Rapids StreamDB
介紹:柏睿數(shù)據(jù)自主研發(fā)的兼顧批處理和流處理的分布式全內(nèi)存流數(shù)據(jù)庫系統(tǒng),由 SQL 編譯器和優(yōu)化器、MPP 執(zhí)行引擎、數(shù)據(jù)庫存儲引擎等核心組件構(gòu)成。不僅如此,該系統(tǒng)還兼容多個主流操作系統(tǒng)如 windows 與 linux,以及各大編程語言接口如 C++,JAVA,Python,C#。
EMQ:HStreamDB
簡介:HStreamDB 是一款專為流式數(shù)據(jù)設(shè)計的, 針對大規(guī)模實時數(shù)據(jù)流的接入、存儲、處理、分發(fā)等環(huán)節(jié)進行全生命周期管理的流數(shù)據(jù)庫。它使用標(biāo)準(zhǔn) SQL (及其流式拓展)作為主要接口語言,以實時性作為主要特征,旨在簡化數(shù)據(jù)流的運維管理以及實時應(yīng)用的開發(fā)。
奇點無限:RisingWave
簡介:RisingWave是開源云原生的支持SQL的流式數(shù)據(jù)庫。其致力于幫助用戶建立基于云的低開發(fā)成本,低運營成本與低性能成本的實時應(yīng)用。有了RisingWave,數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家與工程師可以輕易得使用SQL來查詢流式數(shù)據(jù),并挖掘數(shù)據(jù)背后的價值。RisingWave背后的Singularity Data(奇點無限公司)成立于2021年,已經(jīng)完成數(shù)千萬美元的融資。
Timeplus
簡介:Timeplus解決的核心問題是在滿足實時高效的基礎(chǔ)上,在統(tǒng)一的分析引擎上對實時流式分析和歷史分析能力的融合,從而縮短從復(fù)雜多樣的實時數(shù)據(jù)到實時業(yè)務(wù)價值的時間(Time-To-Value)。同時以SQL為統(tǒng)一分析語言,在保證超低延遲和超強性能 的前提上,依然提供了強大的數(shù)據(jù)分析能力。Timeplus設(shè)計了一個以時間為核心的統(tǒng)一實時分析引擎。支持多層計算模型,兼顧流式和歷史分析。
Materialize
簡介:Materialize 是一個用 Rust 編寫的流式數(shù)據(jù)庫。它在數(shù)據(jù)更改時在內(nèi)存中維護 SQL 查詢的結(jié)果。傳統(tǒng)數(shù)據(jù)庫在發(fā)出 SELECT 語句時進行評估,而 Materialize 會預(yù)先要求查詢,并在新數(shù)據(jù)到達時逐步計算結(jié)果。Materialize 中的讀取速度快、可擴展且無需計算,支持將更新推送到客戶端。
VoltDB, Inc.:VoltDB
簡介:VoltDB是一個企業(yè)級數(shù)據(jù)平臺,VoltDB為各應(yīng)用提供流式數(shù)據(jù)實時決策上的支持。VoltDB將洞察立即付諸實踐,幫助打造更靈活、更智能的數(shù)據(jù)驅(qū)動型企業(yè)。
3.4 內(nèi)存數(shù)據(jù)庫
一般的數(shù)據(jù)庫都針對硬盤上的數(shù)據(jù)讀寫,值得一提的是有些公司偏偏劍走偏鋒,研發(fā)基于內(nèi)存的數(shù)據(jù)庫?;趦?nèi)存的數(shù)據(jù)庫一般會快很多,但面對的風(fēng)險則是斷電后數(shù)據(jù)有可能丟失,因此多被用來緩存數(shù)據(jù),加速數(shù)據(jù)查詢,而不是作為數(shù)據(jù)的主要存儲媒介。目前,業(yè)界也在期待新的存儲硬件的成熟,希望能帶來數(shù)據(jù)庫的變革。
阿里巴巴:Tair
簡介:云原生內(nèi)存數(shù)據(jù)庫Tair(Redis企業(yè)版)是阿里云推出的支持高并發(fā)低延遲訪問的云原生內(nèi)存數(shù)據(jù)庫,完全兼容Redis數(shù)據(jù)結(jié)構(gòu)和API。支持主從與集群架構(gòu),采用多樣存儲介質(zhì)應(yīng)對不同數(shù)據(jù)溫度場景,并提供全球多活、數(shù)據(jù)閃回、大熱Key探測與優(yōu)化、和豐富的數(shù)據(jù)模型等特性,賦能大規(guī)模高性能要求的在線數(shù)據(jù)業(yè)務(wù)。Tair從2009年開始正式承載集團緩存業(yè)務(wù),歷經(jīng)天貓雙十一、優(yōu)酷春晚、菜鳥、高德等業(yè)務(wù)場景的磨練。
柏睿:全內(nèi)存分布式數(shù)據(jù)庫 RapidsDB
簡介:柏睿數(shù)據(jù)自主研發(fā)的基于分布式架構(gòu)的全內(nèi)存數(shù)據(jù)庫,關(guān)鍵組件包括 SQL 編譯器及優(yōu)化器、MPP 執(zhí)行引擎、數(shù)據(jù)庫存儲引擎等,性能對標(biāo) Oracle TimesTen 和 SAP HANA。
快立方:Qcubic
簡介:Qcubic 內(nèi)存數(shù)據(jù)庫是快立方自主研發(fā)的關(guān)系型內(nèi)存數(shù)據(jù)庫,致力于解決海量高頻事務(wù)處理,具有高性能、高并發(fā)、高可用、低延時特性。公司介紹,其核心技術(shù)指標(biāo)比傳統(tǒng)數(shù)據(jù)庫提升10倍以上。
Pika
簡介:Pika是一個可持久化的大容量redis存儲服務(wù),最早由360奇虎公司研發(fā)并開源。
Oracle:TimesTen
簡介:TimesTen是Oracle旗下的基于內(nèi)存的OLTP數(shù)據(jù)庫,其致力于高穩(wěn)定性與彈性擴展。TimesTen屬于關(guān)系型數(shù)據(jù)庫,支持橫向的分布式擴展。
Redis Labs :Redis
簡介:Redis 是基于內(nèi)存的分布式鍵值對存儲數(shù)據(jù)庫。與基于硬盤的傳統(tǒng)關(guān)系型數(shù)據(jù)庫不同,Redis 為了實現(xiàn)更高的性能,將數(shù)據(jù)存儲在多臺機器的內(nèi)存中,以此來實現(xiàn)更快的讀寫速度,此外,Redis 也不支持關(guān)系型數(shù)據(jù)庫的表單存儲,而是只支持最簡單的鍵值對存儲。因為其基于內(nèi)存的特性,Redis 多被用于計算機系統(tǒng)的緩存層(cache),一方面使系統(tǒng)更快速,并減輕底層數(shù)據(jù)庫的壓力,另一方面即使斷電,也只會丟失緩存中的數(shù)據(jù),而底層的數(shù)據(jù)依然由其它的數(shù)據(jù)庫存儲在硬盤中,不會使底層的數(shù)據(jù)永久丟失。
SAP:HANA
簡介:SAP HANA是一款基于內(nèi)存的列存儲的關(guān)系型多模數(shù)據(jù)庫,支持實時數(shù)據(jù)分析與多種ETL操作。SAP HANA Cloud是其對應(yīng)的云服務(wù)版本。
3.5 多模數(shù)據(jù)庫
隨著數(shù)據(jù)種類的增加,數(shù)據(jù)庫經(jīng)常要處理存儲不同格式不同來源的數(shù)據(jù),因而多模數(shù)據(jù)庫應(yīng)運而生。多模數(shù)據(jù)庫支持更多的數(shù)據(jù)類型,并提升更為靈活的查詢接口,以此來幫助用戶應(yīng)對新的數(shù)據(jù)挑戰(zhàn)。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:Lindorm
簡介:Lindorm 是阿里云推出的一款適用于任何規(guī)模、多種類型的云原生數(shù)據(jù)庫服務(wù),支持海量數(shù)據(jù)的低成本存儲處理和彈性按需付費,提供寬表、時序、搜索、文件等多種數(shù)據(jù)模型,兼容 HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL 等多種開源標(biāo)準(zhǔn)接口,適合元數(shù)據(jù)、日志、賬單、標(biāo)簽、消息、報表、維表、結(jié)果表、Feed 流、用戶畫像、設(shè)備數(shù)據(jù)、監(jiān)控數(shù)據(jù)、傳感器數(shù)據(jù)、小文件、小圖片等數(shù)據(jù)的存儲和分析。
矩陣起源:MatrixOne
簡介:MatrixOne 是面向未來的超融合云和邊緣原生 DBMS,它通過簡化的分布式數(shù)據(jù)庫引擎支持跨多個數(shù)據(jù)中心、云、邊緣和其他異構(gòu)基礎(chǔ)架構(gòu)的事務(wù)、分析和流工作負(fù)載。
另外,前文還介紹過MatrixDB、HANA也具備多模特點,在此不再贅述。
3.6 數(shù)據(jù)湖與MapReduce相關(guān)
為了更好的整合數(shù)據(jù),數(shù)據(jù)倉庫一般要求用戶提前定義好數(shù)據(jù)庫中表單的結(jié)構(gòu)(schema),比如說一張公司員工的表單,可能會有人員的姓名,部門,加入公司的時間等等,這些所需的信息一般來講是可以提前定義好的。不過,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的格式也越來越靈活多變,有時候事先并沒有辦法定義好數(shù)據(jù)格式。比如微博,用戶每發(fā)一條微博,除了微博本身的文字信息外,在新版本的微博中,用戶可以選擇上傳地理位置信息,而老版本的微博就沒有地理位置信息,在將來的新版本微博中,又可能會有其它的新的信息。如果我們每添加一種新的信息,就對數(shù)據(jù)庫的表單結(jié)構(gòu)進行更改,這樣表單的結(jié)構(gòu)會很復(fù)雜,畢竟需要兼容所有微博里可能有的信息,而有些信息可能只有極少數(shù)微博才有。
數(shù)據(jù)湖,作為數(shù)據(jù)庫的一個新的分枝,提供了更靈活的數(shù)據(jù)格式。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,同一張表單里的每一行數(shù)據(jù)都有相同的字段,而在數(shù)據(jù)湖中,用戶在插入數(shù)據(jù)的時候,通過 JSON 等格式,每一條數(shù)據(jù)都有可以有不同的字段,比如說某位公司員工的信息里有(年齡:25, 入職時間:2022 年 1 月 1 日),而另一位退休員工的信息則是(年齡:65,退休時間:2020 年 1 月 1 日)。通過這樣不同的字段,數(shù)據(jù)湖可以提供更靈活的格式,方便用戶寫入擁有不同字段的數(shù)據(jù)。只是,這樣不規(guī)則的數(shù)據(jù),雖然在寫入的時候更加便捷,但在讀取查詢時會有更多效率方面的挑戰(zhàn)。
MapReduce則是一種新的大數(shù)據(jù)工具,由Google于2004年研發(fā),之后業(yè)界依據(jù)Google的相關(guān)論文,開發(fā)出開源版本的Hadoop與Spark等工具。MapReduce通常會被用在數(shù)據(jù)湖的數(shù)據(jù)分析階段,因此在這里我們將MapReduce與數(shù)據(jù)湖放在一起介紹。MapReduce將大數(shù)據(jù)的處理分為Map(映射)和Reduce(歸約)兩個步驟,比如說用戶想統(tǒng)計紅樓夢的120回章節(jié)中,“林黛玉”的名字出現(xiàn)的次數(shù),如果用戶有六臺服務(wù)器的話,用戶可以讓每臺服務(wù)器各自統(tǒng)計20章節(jié)中“林黛玉”出現(xiàn)的次數(shù),把120回分為六個20回的這一步,就被稱為Map,這樣這20回可以被不同的機器單獨處理,之后,用戶再將六臺機器得到的名字次數(shù)加起來,就可以得到“林黛玉”名字出現(xiàn)的總的次數(shù),這個相加的操作被稱為Reduce,因為是把6份數(shù)據(jù),歸約成了一份數(shù)據(jù)。
相比關(guān)系型數(shù)據(jù)庫,MapReduce的查詢功能更加靈活,并且不要求底層數(shù)據(jù)結(jié)構(gòu)化,因而MapReduce經(jīng)常被用來處理非結(jié)構(gòu)化的數(shù)據(jù),因而與NoSQL數(shù)據(jù)庫一起,被當(dāng)作非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)處理工具。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:E-MapReduce
簡介:開源大數(shù)據(jù)開發(fā)平臺 E-MapReduce(簡稱 EMR),是運行在阿里云平臺上的一種大數(shù)據(jù)處理的系統(tǒng)解決方案。開源大數(shù)據(jù)開發(fā)平臺 EMR 構(gòu)建于云服務(wù)器 ECS 上,基于開源的 Apache Hadoop 和 Apache Spark,讓用戶可以方便地使用 Hadoop 和 Spark 生態(tài)系統(tǒng)中的其他周邊系統(tǒng)分析和處理數(shù)據(jù)。EMR 還可以與阿里云其他的云數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)庫系統(tǒng)(例如,阿里云 OSS 和 RDS 等)進行數(shù)據(jù)傳輸。開源大數(shù)據(jù)開發(fā)平臺 EMR 的 SmartData 組件是 EMR Jindo 引擎的主要存儲部分,為開源大數(shù)據(jù)開發(fā)平臺 EMR 各個計算引擎提供統(tǒng)一的存儲優(yōu)化、緩存優(yōu)化、計算緩存加速優(yōu)化和多個存儲功能擴展。
H3C:E-MapReduce
簡介:E-MapReduce 數(shù)據(jù)平臺服務(wù):提供豐富的大數(shù)據(jù)組件即服務(wù),包括但不限于分布式文件系統(tǒng)、NoSQL 數(shù)據(jù)庫服務(wù)、內(nèi)存數(shù)據(jù)庫服務(wù)、離線計算、流式計算、內(nèi)存計算、SQL on Hadoop 等服務(wù),同時還提供自研統(tǒng)一 SQL 服務(wù),可兼容標(biāo)準(zhǔn) SQL,對外提供統(tǒng)一的數(shù)據(jù)查詢/分析服務(wù),提升平臺的整體易用性。
大應(yīng)科技:Aloudata
簡介:Aloudata 是一站式的敏捷數(shù)據(jù)工作臺,基于 AI 增強的湖倉引擎,提供自助式的數(shù)據(jù)準(zhǔn)備和閃電般的查詢能力。Aloudata致力于讓企業(yè)無需搭建復(fù)雜ETL鏈路,業(yè)務(wù)人員即可自助完成數(shù)據(jù)處理和分析,讓每一個業(yè)務(wù)需求和創(chuàng)意都能及時獲得數(shù)據(jù)支撐。
Databricks
簡介:Spark與Hadoop是業(yè)界最主要的開源MapReduce工具,而Databricks是由Spark的創(chuàng)立者成立的商業(yè)公司,致力于為用戶提供更好的大數(shù)據(jù)分析工具。公司的主要發(fā)力點為數(shù)據(jù)湖與云計算,其開發(fā)的Delta Lake項目將數(shù)據(jù)湖與機器學(xué)習(xí)結(jié)合起來,方便數(shù)據(jù)科學(xué)家在格式并不規(guī)整的數(shù)據(jù)湖中進行數(shù)據(jù)分析。此外,Databricks也在微軟的Azure與Google Cloud上提供Spark的云服務(wù)。2021年8月,Databricks完成了第八輪融資,共融資16億美元,估值38億美元。
HBase與Hive
簡介:HBase是一個開源的非關(guān)系型分布式數(shù)據(jù)庫(NoSQL),運行于HDFS文件系統(tǒng)之上,為 Hadoop 提供類似于BigTable 規(guī)模的服務(wù)。HBase的表能夠作為MapReduce任務(wù)的輸入和輸出。Hive是一種用類SQL語句來協(xié)助讀寫、管理那些存儲在分布式存儲系統(tǒng)上大數(shù)據(jù)集的數(shù)據(jù)倉庫軟件。Facebook為了解決海量日志數(shù)據(jù)的分析而開發(fā)了Hive,后來開源給了Apache軟件基金會。HBase與Hive都屬于Hadoop生態(tài)的一部分,其對應(yīng)的商業(yè)化公司有Amazon AWS,Cloudera等。
3.7 文本搜索
文本搜索引擎和數(shù)據(jù)庫有很多相似的地方,因此我們在這里將它列為一種特殊的數(shù)據(jù)庫。與文檔型數(shù)據(jù)庫的相似點在于,文本搜索引擎需要加載大量的文檔,建立文本索引,并對這些文檔依據(jù)關(guān)鍵字進行查詢,同時,分布式的文本搜索引擎一樣要處理數(shù)據(jù)在多臺機器上的分片與備份。不同之處在于,文本搜索引擎更關(guān)注于關(guān)鍵字搜索,因此會提供更多的語法工具,比如說中文的分詞工具,英語單詞的單復(fù)數(shù)變換工具等等。此外,文本搜索引擎收錄的文檔可能字?jǐn)?shù)很多,但是更新頻率較低,因而通常會禁止用戶對已經(jīng)存錄的文檔進行修改,而鼓勵用戶將修改后的文檔當(dāng)成是全新的文檔另行存儲加載。而數(shù)據(jù)庫通常會支持?jǐn)?shù)據(jù)的更新修改。此外,文本搜索引擎也不支持?jǐn)?shù)據(jù)庫的事務(wù)操作。
ElasticSearch
ElasticSearch 是開源的分布式文本搜索引擎,是當(dāng)前最受歡迎的企業(yè)搜索引擎。ElasticSearch 本身更關(guān)注于搜索,與支持增刪改查的傳統(tǒng)數(shù)據(jù)庫不同,ElasticSearch 只支持文檔的增加與刪除,并不支持文檔內(nèi)容的修改。ElasticSearch 本身有一定的存儲功能,多被用于只讀類型的文檔存儲,此外,ElasticSearch 也不支持分布式事務(wù)。ElasticSearch 背后的 Elastic 公司在 2018 年 10 月在紐約證券交易所上市。
3.8向量檢索引擎
在人工智能領(lǐng)域,用戶進行模型訓(xùn)練時會將數(shù)據(jù)進行壓縮轉(zhuǎn)換,變成相應(yīng)的向量(vector),比如說把一張張圖片變成相應(yīng)的向量,之后根據(jù)這些向量之間的距離來判斷對應(yīng)照片的相似度。隨著人工智能的發(fā)展,向量檢索的速度成為AI領(lǐng)域的瓶頸之一,而向量檢索引擎正是解決這一問題的手段之一。
賾睿信息科技:Milvus
簡介:Milvus是上海賾睿信息科技有限公司(Zilliz)研發(fā)的海量特性向量檢索系統(tǒng)。Milvus依托GPU加速,提供極速特征向量匹配以及多維度數(shù)據(jù)聯(lián)合查詢(特征、標(biāo)簽、圖片、視頻、文本和語音等聯(lián)合查詢)功能,并且支持自動分表分庫和多副本,能完美對接TensorFlow、Pytorch和MxNet等AI模型,可實現(xiàn)百億特征向量的秒級查詢。
Faceboook Faiss
簡介:Faiss是由Facebook研究院(FAIR)研發(fā)并開源的進行高效向量查詢檢索的代碼庫(library),它支持對不同大小的向量集的檢索,同時也實現(xiàn)了多種參數(shù)調(diào)優(yōu)的算法,可以用作人臉識別,基因?qū)Ρ鹊扔猛尽?/p>
Proxima
簡介:Proxima 是阿里巴巴達摩院系統(tǒng) AI 實驗室自研的向量檢索內(nèi)核。Proxima BE是 Proxima 團隊開發(fā)的服務(wù)化引擎,實現(xiàn)了對大數(shù)據(jù)的高性能相似性搜索。目前,其核心能力廣泛應(yīng)用于阿里巴巴和螞蟻集團內(nèi)眾多業(yè)務(wù),如淘寶搜索和推薦、螞蟻人臉支付、優(yōu)酷視頻搜索、阿里媽媽廣告檢索等。
Vearch
簡介:Vearch 是對大規(guī)模深度學(xué)習(xí)向量進行高性能相似搜索的彈性分布式系統(tǒng),支持多種數(shù)據(jù)模型,如空間、文檔、向量和標(biāo)量。
(注:36氪對基礎(chǔ)軟件保持持續(xù)關(guān)注,通過和數(shù)十位行業(yè)人士溝通,以及多方收集資料完成了本文。但由于資源、視角有限,本文難免出現(xiàn)錯誤、片面等問題,歡迎各位讀者指正交流。)
參考文獻:
《深氪|鏖戰(zhàn)!國產(chǎn)數(shù)據(jù)庫》,36氪
《2022年的企服投資:基礎(chǔ)層,還是應(yīng)用層?|2022展望》,36氪
《解讀開源的2021:從“開發(fā)者亞文化”,變成主流軟件開發(fā)模式》,InfoQ
《產(chǎn)業(yè)調(diào)研:混沌初開的國產(chǎn)數(shù)據(jù)庫市場》,計算機文藝復(fù)興
《中國數(shù)據(jù)庫管理系統(tǒng)市場指南》,Gartner
《2020年中國行業(yè)大數(shù)據(jù)市場現(xiàn)狀及發(fā)展前景分析,未來五年市場規(guī)模或?qū)⒔?萬億元》,前瞻研究院
產(chǎn)品介紹部分主要來源于企業(yè)官網(wǎng)和其他公開資料,部分參考自墨天輪、DB-Engines、維基百科、百度百科,另感謝36氪作者楊逍對本文的貢獻。
好了,這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里,如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525 備注:發(fā)貨聯(lián)盟引流學(xué)習(xí); 我拉你進直播課程學(xué)習(xí)群,每周135晚上都是有實戰(zhàn)干貨的推廣引流技術(shù)課程免費分享!