Spark是一個基于内存計算的開源集群計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei為主的小團隊使用Scala開發,其核心部分的代碼隻有63個Scala文件,非常輕量級。Spark提供了與 Hadoop相似的開源集群計算環境,但基于内存和叠代優化的設計,Spark在某些工作負載表現更優秀。SPARK是一種安全的、經正式定義的編程語言,它被設計用來支持一些安全或商業集成為關鍵因素的應用軟件的設計。從高的層面來看,其實每一個Spark的應用,都是一個Driver類,通過運行用戶定義的main函數,在集群上執行各種并發操作和計算Spark提供的最主要的抽象,是一個彈性分布式數據集,它是一種特殊集合,可以分布在集群的節點上,以函數式編程操作集合的方式,進行各種各樣的并發操作。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!