tft每日頭條

 > 科技

 > 大數據處理的主要場景

大數據處理的主要場景

科技 更新时间:2024-10-15 00:25:52
介紹

三分鐘快速搭建流式處理應用!簡單實用的分布式大數據處理框架,特點是零基礎操作,支持批處理和流式處理。

軟件架構

大數據處理的主要場景(三分鐘快速搭建流式處理應用)1

項目目前由core、xmlbuilder、JSONbuilder、Spark1、spark2、flink1和client七個模塊組成。

  • core模塊封裝了各個部分的抽象組件。
  • xmlbuilder和jsonbuilder模塊是以xml或json解析為執行配置來源的讀取模塊。
  • spark1、spark2和flink1模塊為大數據引擎模塊,目前spark1模塊開發比較完整,是基于spark1.6版本。
  • client模塊是客戶端調用模塊。

Magnet提供統一的配置接口,隻需要配置一次就可以在任何引擎上處理大數據,真正做到“ 一次編寫,到處執行 ”的效果。項目具備優秀的可擴展性,設計良好的接口可以兼容任何大數據引擎。架構圖中藍色部分為框架的核心模塊,非藍色部分均為可擴展模塊。你可以擴展配置文件的格式,可以是xml配置、json配置或自定義格式;你也可以擴展大數據處理引擎,Spark、Flink、Hive、Kafka或MapReduce;你也可以擴展各種标簽組件;你還可以擴展每個标簽組件的包裝wrapper,用于處理每個标簽組件的前置和後置操作。

使用說明

文檔獲取方式:關注轉發之後私信回複【源碼】即可免費獲取

大數據處理的主要場景(三分鐘快速搭建流式處理應用)2

  • 介紹
  • 快速入門
  • 配置文件結構
  • 使用IDEA打包項目
  • 在yarn上運行Magnet
  • parameter參數标簽
  • fragment碎片标簽
  • datasource數據源标簽

datasource數據源概述讀取複雜JSON數據

  • workflow工作流标簽

SQL标簽filter标簽distinct标簽output标簽valueMappers标簽splitFieldToRows标簽stringCuts标簽addFields标簽addSequence标簽rownum标簽

  • 開發指南

框架結構介紹擴展新處理引擎擴展新标簽

項目源碼獲取方式:關注轉發之後私信回複【源碼】即可免費獲取

大數據處理的主要場景(三分鐘快速搭建流式處理應用)3

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved