tft每日頭條

 > 科技

 > 數據倉庫的數據分析

數據倉庫的數據分析

科技 更新时间:2024-12-17 17:42:12

數據倉庫的數據分析?圖片來源@視覺中國一周前,諾貝爾物理學獎結果公布,值得注意的,獲獎的三位科學家有一個共同點就是在複雜物理系統上做出了開創性貢獻其中真鍋秀郎和克勞斯·哈塞爾曼的研究對象是地球氣候以及人類如何影響地球氣候,喬治·帕裡西研究的則是無序材料和随機過程理論,我來為大家科普一下關于數據倉庫的數據分析?以下内容希望對你有幫助!

數據倉庫的數據分析(探索圖數據庫商業化新路)1

數據倉庫的數據分析

圖片來源@視覺中國

一周前,諾貝爾物理學獎結果公布,值得注意的,獲獎的三位科學家有一個共同點就是在複雜物理系統上做出了開創性貢獻。其中真鍋秀郎和克勞斯·哈塞爾曼的研究對象是地球氣候以及人類如何影響地球氣候,喬治·帕裡西研究的則是無序材料和随機過程理論。

無論是地球氣候還是無序材料都是複雜系統的一種。複雜系統雖然系統内各個因素看起來毫無關系,卻又是彼此相連的,類似“蝴蝶效應”:因複雜系統中某個微小因子發生了變化,導緻整個系統發生變化。

圖數據庫,就是處理複雜系統的高手,它可以尋着數據之間或明或暗的關系,查詢到那個可能引發系統改變的微小因子。

關系數據增長迅猛,跑出一衆圖數據庫玩家

近來,圖數據庫備受關注,一個很大原因就是随着互聯網的發展和各大企業數字化轉型,關系數據越來越多,比如淘寶購物車中消費品與消費品之間的關系、今日頭條用戶浏覽的信息之間的關系等等。這些數據,彼此之間組成了一張網狀的虛拟圖。

數據之間的網狀關系讓圖數據庫與傳統的關系型數據庫的計算方式産生了很大差别,傳統的關系型數據庫是以尋着表格信息計算掉每個數據之後得出結論,而圖數據庫深度關聯數據之間的關系,讓分析者能更多維度地觀察和分析數據,讓數據分析效率更高,洞察更深層的數據價值。

這也是為什麼一些數據的處理,用傳統數據庫計算,需要耗費幾十天,而圖數據庫可以将時間縮短到幾十分鐘的原因,前提是這些數據之間存在關系。

“到 2025 年,圖技術(graph technologies)将用于 80% 數據與分析的創新,這一數據高于 2021 年的 10%,圖技術将會促進整個組織的快速決策。”Gartner在《2021十大數據與分析技術趨勢》一文中對圖數據庫未來市場空間也做出了判斷。

圖數據庫的在關系數據處理上的優勢地位,也讓業界希望在圖數據庫領域有所作為的企業和創始人躍躍欲試。

在國際調研機構Forrester的2020年Q4的一份圖數據庫報告中,五家提供圖數據庫産品的企業入局領導者,而這五家企業中,有兩家獨立提供圖數據庫産品的專業公司,分别是Neo4j和TigerGraph。

今年上半年,Neo4j和TigerGraph相繼拿下新一輪融資:Neo4j獲得了3.25億美元的F輪融資,由歐瑞澤 (Eurazeo)基金領投;TigerGraph 獲得了1.05億美元C輪融資,由老虎基金(Tiger Fund)領投。兩筆大額融資側面反饋了圖數據庫當前的市場行情,以及兩家圖數據庫企業你追我趕的競争局面。

圖數據庫市場玩家衆多,玩法也不同。在上篇文章《被視為下一個“Snowflake”,圖數據平台Neo4j高明在哪兒?》中,我們以Neo4j為例,對圖數據庫同數倉的差異、圖數據庫在主數據管理上的應用做了一個較為簡單的介紹。而區别于Neo4j,TigerGraph也走出了一條不同的圖數據庫商業化道路。

選擇閉源,自上而下打造KA标杆

2012年成立的TigerGraph,2017年才發布了第一款商用産品,2018年正式進入中國。雖然入局較Neo4j 晚了幾年,但TigerGraph在市場上的表現毫不遜色。

Neo4j走得是常規的開源路線,用開源吸引開發者,然後促成後面的系列商業轉化。但這種方式的問題在于,代碼即便被開源出來,對項目比較了解的仍然是源碼廠商。如果後期源碼廠商對這種在圖數據庫上有深入應用的企業不能及時介入,就可能面臨用戶流失。

“用過Neo4j開源版的企業,有很大概率轉化成TG的客戶。因為在圖技術領域來時,Neo4j更像是教學類産品,比較難支撐起龐大的企業級應用。”業界人士表示。

閉源,用商業的力量自上而下來約束項目向好的方向演進,以訂閱付費的形式,并提供免費版本降低開發者使用門檻,是TigerGraph選擇的路線。

所謂自上而下,就是先行打造大客戶使用案例,在其他客戶看到使用效果後跟進。因此,TigerGraph的業務人員接觸最多的就是企業數字化轉型中的決策者們,他們可能是CEO、CTO、CIO,當然也可能某個業務線的負責人或者項目經理。這就要求,TigerGraph能夠率先解決圖數據庫應用中的關鍵的痛點和難點,比如如何解決龐大企業級應用中大規模數據的處理和分析問題。

TigerGraph的創始人兼CEO許昱曾有在推特、Teradata 等大規模社交軟件和軟件産品的的從業經曆,對大規模數據分析和處理有着相對豐富的經驗。正是早期的從業經曆,讓許昱開始尋找合适的圖數據庫工具,而後創立了TigerGraph。

也正是有着這樣的創業淵源,TigerGraph逐漸形成了在産品功能上擅長解決複雜系統、大規模數據深入分析的競争優勢。

差異化:标準AI算法與通用語言

數據顯示,TigerGraph 能夠在每台機器每秒中搜索超過 1000 萬(希臘人口)種數據類型和數據連接,每增加一個并行機器,這個數量就會翻倍。TigerGraph 還可以支持每台機器每秒對圖中任何位置的任何數據點進行100,000 次更新。 獨立測試證明,相比之下,其他數據庫慢 10 到 1000 倍。

TigerGraph之所以能夠在關系數據上達到這樣的效果,一個很大原因在于,其對于AI模型算法的靈活運用。

在算法的使用上,Neo4j 隻支持作為固定内置函數的算法,這意味着用戶無法直接自定義算法本身。Neo4j 的查詢語言Cypher 也被有意限制,Neo4j 開發人員代表他們的用戶進行所有編程/定制。

而TigerGraph則使用了開源的标準算法,這讓客戶可以完全從頭開始設計任何問題或編輯預配置的問題。而在查詢語言上,TigerGraph使用的是GSQL 編程語言,對于熟悉 SQL 的數據科學家來說,可以很快上手。

TigerGraph打造的生态系統

TigerGraph 還創造了一種數據進化文化,其中連接的數據保持流動性,不斷産生新的數據和連接,ML 模型走向真實。TigerGraph 通過企業的數據湖、數據可視化和 AI 工具完成了一個互補的生态系統。

雲戰略:與三大雲服務商打通

2021年對于TigerGraph是一個特殊的年份,今年拿下C輪融資之後,TigerGraph加快了“雲化”步伐。可以理解為這是TigerGraph迎合市場的一種行為。畢竟走閉源路線,讓客戶一開始就對産品買單,需要對市場風向做出快速的反應。

TigerGraph成立于矽谷,由美籍華裔許昱創辦,這也讓TigerGraph有了一層濃厚的國際化色彩。事實也正是如此,TigerGraph的全球市場由4大區域組成,以美國市場為主,其次是歐洲,然後是中國和亞太。

許昱向钛媒體App表示,當前,歐美市場對已經到了充分“雲化”的階段:他們傾向于選擇有雲服務配套的産品,即便一時用不到,雲服務的靈活擴展能夠備不時之需——雲産品成為客戶采購的關鍵影響因素。

此前,TigerGraph的交付模式是基于中大型客戶的本地服務器或私有雲提供産品和服務。2020年開始,TigerGraph從産品技術到團隊進行了雲化調整,調整後,同樣是訂閱付費,但客戶可以選擇使用與TigerGraph合作的公有雲産品。當前TigerGraph的合作雲服務商有AWS、谷歌雲以及微軟雲。

當然,擁抱雲,也可以理解為是TigerGraph降低圖數據庫使用門檻的另一項動作。無論是歐美市場還是中國市場,TigerGraph都已經打造了足夠多的标杆客戶,例如,全球十大銀行,有七家已經采用TigerGraph;中國的頭部大型企業,銀聯、國家電網和中國移動也已經是TigerGraph的客戶。在打造了足夠多的标杆客戶之後,TigerGraph需要推進“向下”滲透的步伐。

在與主流雲服務廠商對接之後,即便是小的開發者也能夠方便地使用TigerGraph。“我們也有免費版本,隻不過在數據容量上做了限制。”許昱告訴钛媒體App。

一周後,TigerGraph也将在中國舉辦一場Graph AI的峰會,屆時還将吸引一批圖數據領域的探索者。

(本文首發钛媒體App 作者 | 秦聰慧)

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved