比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads
首頁 > 酷幣 > Info

世界上最快的圖數據庫開源了!它會改變什么?_DBC

Author:

Time:1900/1/1 0:00:00

18世紀初,在普魯士的哥尼斯堡上有一條河,這條河流沿經兩個小島,當地人們建了七座橋把兩個島與河岸聯系起來。有個人經過這條河時提出了一個問題:一個步行者怎樣才能不重復、不遺漏地一次走完七座橋,最后回到出發點。

問題提出后,很多人對此很感興趣,紛紛進行試驗,但在相當長的時間里,始終未能解決。這就是著名的“哥尼斯堡七橋問題”。

1735年,有幾名大學生寫信給當時正在俄羅斯彼得斯堡科學院任職的天才數學家歐拉,請他幫忙解決這一問題。經過一年的研究之后,29歲的歐拉提交了《哥尼斯堡七橋》論文,圓滿解決了這一問題。

歐拉把每一塊陸地考慮成一個點,連接兩塊陸地的橋以線表示。每一次當一個人由一座橋進入一塊陸地時,他同時也由另一座橋離開此點。所以每行經一點時,計算為兩座橋,從起點離開的線與最后回到始點的線亦計算為兩座橋,因此每一個陸地與其他陸地連接的橋數必為偶數。

但七橋所成之圖形中,沒有一點含有偶數條數,因此上述的任務無法完成。

歐拉把一個實際問題抽象成“圖形數學模型”。“圖”由節點和邊組成,這個節點代表實體,邊代表它們之間的關系,由此開創了數學新一分支——圖論。

200多年后,隨著計算機技術的發展,圖論成為了數學家和計算機學家們解決很多實際問題的底層能力。

放在互聯網的場景下,如果把微博用戶關系抽象成一個圖,賬號抽象成圖上的點,關注關系則是圖上的邊。那么,這些圖數據就可以很好地描述賬號之間的聯系,包括描述聯系的方向和屬性。這種圖可能非常大,社交網絡賬號之間構成的圖,它可能是有幾億節點,幾百億邊的巨大規模。

利用圖形結構描述事物聯系的數據建模方式就是圖計算。但你可能不知道的是,全世界最快的單機圖計算平臺、最快的分布式圖計算平臺來自于一家中國企業。

Cardano的創始人:ADA將成為世界上市值最大的加密貨幣:金色財經報道,Cardano的創始人Charles Hoskinson預測,Cardano區塊鏈的原生代幣ADA即將取代當前的加密貨幣巨頭比特幣和以太坊,成為世界上市值最大的加密貨幣。[2023/8/27 12:59:19]

作為中國最早研究圖計算技術的企業之一,螞蟻集團開發的大規模圖計算系統是業內首個在大規模圖上提供實時服務的圖計算平臺,擁有世界規模領先的圖數據庫集群。

在2022世界人工智能大會新一代圖智能技術發展與實踐論壇上,螞蟻集團宣布開源其大規模圖計算系統中的TuGraph圖數據庫單機版。

這是螞蟻集團圖計算技術一個非常重要的里程碑。TuGraph單機版的開源也為推動中國乃至全球的圖計算規模化和商業化應用奠定了重要的基礎。

圖計算,大型科技公司逐浪的“新風口”

圖計算是一種能夠研究客觀世界當中任何事物和事物之間關系,并對其進行完整的刻畫、計算和分析的技術。

在Gartner發布的《2021年十大數據和分析技術趨勢》報告中顯示,自2018年10月至2020年10月,Gartner有關圖計算技術領域的查詢量和興趣增長了280%。Gartner認為,通過圖計算分析和洞察數據之間的關聯關系能夠提高社會運行效率,成為大數據與AI領域下一個戰略制高點。

在數據庫流行度排行榜網站DB-Engines上也可以看到,近10年來,人們對于圖數據庫的關注度,在過去十年內比其他的數據庫都要高。

相比關系數據庫,圖形數據庫是NoSQL數據庫中的一種,是表示和查詢連接數據的最佳方式。

willy Woo:世界上7%的人用TradingView:9月28日消息,比特幣分析師 willy Woo 推特發了一條深思熟慮的消息:世界上 7% 的人使用 TradingView,自 COVID 以來其增長了 5 倍。 相比之下,加密用戶占 2.5%(保守估計)。Gen-Z預計到今年年底將在股票上花費 1萬億美元 ,Gen-Z 現在是金融市場的關鍵力量。

注:Gen-Z 是Generation Z(Z世代)的縮寫,特指在1990年代末葉至2010年代前期出生的人。[2021/9/28 17:11:57]

而相對其他非關系型數據庫,采用的數據結構和分布式架構,適合離散、關聯關系弱的數據存儲管理。圖數據庫可以實現更好、更快地查詢和分析,更簡化地數據建模,由點及面地挖掘知識體系,面向對象的思維,以及更強大的問題解決能力等。

最常見例子就是社會網絡中人與人之間的關系,傳統數據庫效果并不好,查詢復雜、緩慢、超出預期,而圖形數據庫的設計恰恰彌補了這一缺陷。

目前,圖數據庫主要適應的場景需求有兩類:一是對時間有要求,希望快速分析并得到結果的場景;二是對分析深度有要求的場景,如一些區塊鏈金融客戶希望對數字貨幣交易可追蹤不只深入到幾十步,而是上百步甚至上千步。

根據CBInsights預計,到2027年,圖數據庫市場將以17.7%的復合年增長率增長,達到46億美元。

全球主要研究圖計算的廠商,包括了許多大型科技公司,亞馬遜和谷歌是最早推出了自己的圖數據庫的大廠,隨后,微軟、IBM、Twitter、Facebook等也開始采用圖數據庫。

另外,一些初創公司也在跟隨,如NeoTechnology開發了主流圖數據庫Neo4j,以及TigerGraph等初創公司等。

而中國,近幾年圖數據庫市場已經引起了一定的關注。首先是互聯網廠商已經開始推出自研的圖數據庫,初創公司在后跟隨,并出現了原生圖數據庫領域的初創企業。

比如螞蟻集團的TuGraph,阿里云圖數據庫GDB,百度的BGraph和HugeGraph等。還有初創公司費馬科技的LightGraph,這家公司成立于2016年,由多位清華大學博士創立,在2020年與螞蟻集團圖計算系統整合,發展成為了螞蟻集團大規模圖計算系統。

斯洛文尼亞成為世界上接受加密貨幣支付地點最多的國家:8月8日消息,Gocrypto數據顯示,當前在斯洛文尼亞已有超過1000個地點接受加密貨幣付款,包括咖啡館、酒店、私人醫院等。隨著加密貨幣采用率的迅速增長,斯洛文尼亞已成為世界上接受加密貨幣支付地點最多的國家。(Bitcoin.com)[2020/8/9]

這些全球知名的大型科技公司正在大力投入圖計算研發創新,顯而易見是看到了圖計算對未來業務驅動的巨大潛力。

實際上,Gartner也預測過,到2025年,圖技術將應用于80%的數據和分析創新,能夠促進企業的快速決策。因為圖計算鏈接著所有數據,它們構成了許多現代數據分析的基石。通過對分析數據和人工智能數據的高效管理,包括對圖結構的分析,能夠為過于復雜而難以解決的傳統業務難題提供解決方案。

目前圖計算已被應用于金融安全、互聯網、工業、生物醫藥、公共安全、智慧城市等多個領域,成為全球研發機構、新興創業公司,以及大型科技公司逐浪的“新風口”。

螞蟻的嘗試、探索和創新

中國企業對圖計算的研發應用要從2015年左右開始說起。

那一年,螞蟻集團開始組建自己的圖數據庫團隊。螞蟻研究圖計算的初衷源于其業務的驅動。

在一個典型的金融場景模型中,有著多種不同類型的關系,形成了數十億的結點和邊,有些是相對靜態的,如企業之間的股權關系、個人客戶之間的親屬關系,有些則是不斷地在動態變化,如轉賬關系、貿易關系等。這些靜態或者動態的關系背后,隱藏著許多未知風險,比如金融信貸風險等。

過去,風險分析通常都是從個體本身的角度出發,去分析個體與個體之間的差異,很少從個體之間的關聯關系角度去分析。

而圖計算和基于圖的認知分析正是能夠彌補傳統分析技術的不足,它可以完整刻畫企業客戶之間、企業與自然人之間的社會關系、經濟往來關系,由此構建全方位的風險關聯網絡。

比特幣核心開發者:比特幣是世界上第一種可以在現在和未來驗證稀缺性的貨幣:比特幣核心開發者Jimmy?Song今日發推稱,比特幣是世界上第一種任何人不僅可以在現在驗證它的稀缺性,還可以在未來驗證它的稀缺性的貨幣。在充滿不確定性的世界中,比特幣是可以肯定的。[2020/5/4]

基于對金融模型的圖數據分析,2016年螞蟻集團發布自研圖數據庫版本GeaBase,并接入支付寶,正式投入應用。在2018年雙十一,圖計算真正證明了自己的價值。在大促極端流量高峰情況下,圖計算動態識別了超過六度關系鏈、隱蔽性較強的異常資金風險,顯著提高了支付寶的風控能力。

在螞蟻發布GeaBase的同一年,由清華大學計算機系教授陳文光帶領的清華師生團隊成立了費馬科技。并在一年后開發出了自己的圖數據庫產品LightGraph,支持完整的圖數據庫事務和企業級的高效圖數據存儲、查詢。

到了2020年,費馬科技就成為了中國第一家通過圖數據庫國際標準基準測試程序LDBC-SNB官方審計測試的企業,研發實力強硬,發展非常迅速。

但不管怎么樣,費馬科技還是一家以學術研發驅動為主的創業團隊,他們對技術如何大規模投入到真實的應用場景當中仍然缺乏抓手。

在陳文光看來,圖計算要想真正發展起來,需要技術加場景的雙輪驅動,才能實現從“有人用”到“大規模使用”。

而對于當時的螞蟻集團來說,其圖計算團隊更偏向于業務驅動,也就是業務有什么需求就去做什么需求。

費馬科技聯合創始人、現螞蟻集團圖數據庫負責人洪春濤博士介紹道,這種由需求帶來的產品設計邏輯有優有劣。優點是業務要求的產品性能較高,比如支付寶業務要求實時在線,不能有任何的中斷,那么圖數據庫就要有非常高的穩定性和吞吐率。此外,業務對數據查詢延遲時間也有限制,比如發一個請求到服務器反饋時間要在20毫秒之內等。這些都是由真實業務中鍛煉出來的性能要求。

聲音 | Circle CEO:世界上沒有其他央行比中國更接近CBDC:Circle首席執行官Jeremy Allaire近日采訪中表示,迄今為止,中國央行對央行數字貨幣(CBDCs)有最先進的思考。根據Allaire的說法,中國央行是唯一一家從研發角度研究CBDC的全球中央銀行。Allaire補充到,世界上沒有其他央行比中國更接近CBDC。(cointelegraph)[2019/9/11]

但這也在另一方面上導致了產品架構缺乏標準化,可能某種功能臨時滿足了業務上線的需求,但對于產品架構來說卻不一定是最優的解決方案。

如何從長遠的角度來把握圖計算未來的設計方向,是螞蟻集團要靜下心來思考的核心問題。

在這樣的業務痛點下,螞蟻意識到如果能與學術界科研實力打通并形成合力,將能更深度拓展圖計算的潛力,而螞蟻的實際應用場景又能不斷對圖計算技術進行訓練升級。

2020年,螞蟻集團正式將自有圖計算技術系統GeaBase與費馬科技的產品和技術進行整合,隨后升級形成了一套完整的圖計算系統,并正式更名為TuGraph。

這套系統集成了螞蟻集團以及清華大學原有優勢,無論從功能的完整性,吞吐率、響應時間等技術指標,還是應用領域,都達到了世界領先水平。2020年,TuGraph成為圖數據庫基準性能測試LDBC-SNB世界紀錄保持者,性能領先第二名7.6倍,并獲得了2021“世界互聯網領先科技成果”獎。

隨著TuGraph在技術上不斷精進,2022年8月,TuGraph在最新一次的LDBC-SNB測試中,再一次打破世界紀錄,吞吐率較上一次官方紀錄提升了52%,也超過了兩年前由自身保持的世界紀錄1倍以上,再次體現了TuGraph高并發低延遲的強大性能優勢。

圖計算“開源”,它會改變什么?

圖計算對于數字化時代大規模、復雜的數據處理來說十分關鍵。經過7年多研究和探討,螞蟻圖計算技術已經具備業界領先的技術能力和非常豐富的應用經驗。

以企業擔保場景為例,比如金融機構要給一個企業A貸款,這個企業找B企業擔保,然后B企業找了C企業擔保,但C又找A擔保過,最后發現他們形成了一個環。那么這個擔保等于是無效的,因為一層一層地下來,它回到了最初的這個公司。這可以都把它抽象成在圖上找環的問題。

過去有些銀行用MapReduce大數據處理的方法,但在企業擔保場景里,大概只能找到長度為6的環,更長的環就找不到了。又比如像套現分析的場景,不僅是需要找環,而且速度還要非常快。因為用戶去刷一個信用卡,肯定不希望后臺算上兩個小時才說有風險。

利用圖計算系統,就可以在金融的場景中實現實時地找到最完整的路徑。比如在螞蟻的數字支付、數字服務、數字金融等核心業務中,利用圖技術就可以顯著提升風險行為的實時識別和調查分析效率。根據螞蟻的數據顯示,基于圖數據庫,支撐支付寶的重要風險識別能力提升了近10倍,風險審理分析效率提升90%。

螞蟻已經在復雜的用戶交易行為中印證了大規模圖計算的高效性能。秉承“成熟一個開放一個”的理念,螞蟻希望圖計算技術也能夠走入更多大眾的視野。

TuGraph單機版開源主要是開放其圖數據庫的工具和技術性能,解決圖譜應用項目中圖數據庫成本過高,易用性差,性能低下的問題。實際上,大量的應用場景下用戶更關心成本、性能和易用性。TuGraph能夠實現單機部署,使用成本更低,并且性能優秀、通用易學。

但此次開源的更關鍵意義,在于螞蟻希望通過開源去拓展圖計算應用的生態,來帶動整個市場發展。

在洪春濤博士看來,圖計算的應用要經歷三個階段。

第一個階段是解決傳統大數據分析沒法做的事情。比如金融反套現,常規的大數據手段很難快速地找到異常的套現環路,但圖數據庫能夠做到實時監控。許多企業的圖計算應用都處于這一階段。

第二個階段是有些場景既需要傳統大數據分析,又需要圖數據庫查詢。大部分企業的做法是使用關系數據庫和圖數據庫分別操作分析,但如果圖數據庫做得足夠好,實際上只需要一個圖數據庫,即一個系統就能夠滿足以上需求。這對于用戶而言是一個更加簡潔的工具。目前螞蟻則處于這個階段。

第三個階段則是對傳統關系數據庫的替代。圖數據庫的數據抽象比關系數據抽象更貼近自然和符合人類直覺,因此圖數據庫是比關系數據庫更容易理解的。長遠來講,這種表達上的便利性會讓人們傾向于使用圖數據庫來解決問題,從而使圖數據庫替代關系數據庫成為一種主流。這是一種思維方式上的改變。

“這是圖數據庫從一個配角走到主角的過程,它要取代原來已經很成熟的數據庫系統,那么就意味著它要建造一個更成熟、更穩定的技術和商業生態。”洪春濤說。

生態不僅需要囊括圖計算產業鏈上下游,更應該覆蓋各種各樣的行業領域。

技術開源后,對圖計算的學術研究也具備重要的意義。

一方面,開源的數據庫工具能夠提供給學術界繼續作為技術研究的基礎,讓研究人員在TuGraph代碼的基礎上更便捷地做自己的研究創新。

另一方面,讓越來越多的生態和業務場景參與進來后,也有助于反哺技術的改進升級。

螞蟻技術研究院圖計算實驗室研究員朱曉偉博士介紹說,最開始做圖計算方面學術研究的時候,發現大部分分布式圖計算系統的論文認為通信是技術的瓶頸,所以主要研究如何讓網絡通信盡可能快。深入探索之后,我們發現很多工作過于側重“通信”的優化,而忽略了“計算”部分因此引入的開銷,反倒沒有達到想要的效果。尤其隨著網絡條件越來越好,我們應該把重心放回“計算”上,優化的目標從“通信”為中心變成“計算”為中心,這是我們當時做的這個研究工作輸出的核心觀點,也是我們的產品能夠取得相比之前系統很大幅度提升的關鍵。但后來當我們試圖把它變成一個商業化產品來打磨的時候,發現“計算”也不一定是最關鍵的事情。比如在雙十一大流量沖擊的情況下,服務器的內存就變得更為重要,必須要保證整個計算過程在足夠的內存下跑起來,不能斷掉。這就從“計算”為中心變成以“空間或者成本”為中心。

把學術原型系統產品化的過程,除了不斷改進計算性能,更重要的是如何通過業務場景的反饋將產品做得更加實用,由此更好地驅動業務發展。

在螞蟻的業務板塊中,目前圖計算的應用不僅在金融上,在復雜電網的故障分析,電商產品的智能推薦,疫情期間的密接、次密接以及時空伴隨者發現都有重要的應用,包括大家日常生活中在螞蟻森林偷能量,現在也是用圖數據庫來管理。

實際上,不管是人們的日常生活,還是新興產業發展,如今都離不開高性能計算,比如天氣預報、新藥研發、新型材料、安全系數更高的汽車、高鐵和飛機等都需要高性能計算作支撐。圖計算作為一個高維的數據結構,能夠更好地挖掘數據之間的關聯特性,為行業提供精準高效的決策。

所以,螞蟻期待通過TuGraph開源把這套技術共享到更多行業。在螞蟻看來,只有當大家都參與到圖計算當中,才能夠一起把整個生態做好,從而讓圖計算技術的商業化真正滾動起來。

Tags:GraphDBCLDBCGraph幣是什么幣DBC幣DBC價格LDBC幣是什么幣

酷幣
崢嶸十年|中國疫苗這十年:咬定自主研發,正迎來收獲期_RBD

有人曾將接種疫苗的益處與安全飲水比肩。兩年多前,面對新冠大流行,疫苗再次以希望的代名詞出現。人們對疫苗的期待與認知前所未有地高漲,諸多本土疫苗企業開始走向前臺.

1900/1/1 0:00:00
比特幣跌破20000美元/枚_比特幣

薩爾瓦多再次購買420枚比特幣:金色財經報道,薩爾瓦多總統Nayib Bukele周三表示,該政府已額外購買了420枚比特幣,使其迄今為止購買的總比特幣數量增加到1120枚.

1900/1/1 0:00:00
元宇宙概念的理解——區塊鏈技術發展(上篇)_區塊鏈

2020年,DeFi在區塊鏈行業的廣泛應用,讓區塊鏈技術與元宇宙的結合產生了質的飛躍,并直接影響到了游戲、網絡與算力、VR顯示的發展進程.

1900/1/1 0:00:00
全球銷量超越特斯拉!比亞迪是怎么做到的?_LUS

眾所周知,新能源車型在近年來越來越受消費者所歡迎了。實際上,就在今年上半年,新能源車的市場占有率已經達到了21.6%,銷量增長達到1.2倍之多.

1900/1/1 0:00:00
代幣價格暴跌近90%!“幣圈”版《羊了個羊》消失跑路,鏈游P2E是真需求還是假炒作?_區塊鏈游戲

本報記者趙奕胡金華上海報道近期,消除類小游戲《羊了個羊》火爆全網,隨后號稱是“由羊了個羊開發商原程序員開發”的“GameFi”版《羊了個羊》便被推出.

1900/1/1 0:00:00
狗狗幣是一項好的投資嗎?它是如何工作的?_狗狗幣

狗狗幣是目前最受歡迎和最成功的meme加密貨幣。事實上,它是如此受歡迎,我們不禁不斷問自己,狗狗幣是否是一項好的投資。答案各不相同。硬幣大部分時間都被解雇了,因為它開始是一個笑話.

1900/1/1 0:00:00
ads