SparkSQL對于批流支持的特性及批流一體化支持框架的難點(diǎn)
二、基于SparkSQL-Flow的
分析框架
何為 SparkSQL-Flow
1.一個由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型;
2.一個可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架,提供了靈活的可擴(kuò)展 API;
3.一個提供了 對文件,數(shù)據(jù)庫,NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式;
4.基于 SQL 的開發(fā)語言和 XML 的模板配置,支持 SparkSQL UDF 的擴(kuò)展管理;
5.支持基于 Spark Standlone,Yarn,Mesos 資源管理平臺;
6.支持多種平臺Kerberos認(rèn)證(開源、華為、星環(huán))等平臺統(tǒng)一認(rèn)證;
SparkSQL Flow XML 概覽
用戶只需要定義 Source,Transformer,Target 幾個核心組件:
1.Source 數(shù)據(jù)源:支持Data、DB、File、NoSQL、MQ 等眾多源;
2.Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作,一般為SQL;
3.Target 為輸出目標(biāo),支持show、DB、File、NoSQL、MQ 等眾多目標(biāo),支持類型基本和源相同;
4.用戶可以在Properties定義一些變量,作為Source/Transformer/Target 的宏替換;
SparkSQL Flow 適合的場景
1.批量 ETL;
2.非實(shí)時分析服務(wù);
3.流式 ETL;
支持從多種獲得數(shù)據(jù)源:
1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile
2.大數(shù)據(jù):Hive、HDFS
3.支持RDBMS數(shù)據(jù)庫:PostgreSQL、 MySQL、Oracle
4.支持 NOSQL 數(shù)據(jù)庫:Hbase、MongoDB、Redis
5.Streaming:JMS、AMQP、Kafka、Socket
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 三次錯失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 7 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 8 英偉達(dá)的麻煩在后頭?
- 9 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 10 智慧貨架管理引領(lǐng)零售新風(fēng)尚
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市