spark讀寫流程-tft每日頭條

spark讀寫流程

生活更新时间:2024-07-30 18:25:19

修改源碼的背景

在大數據框架Spark的源碼中我們使用addFile方法将一些文件分發給各個節點，當我們要訪問Spark作業中的文件，将使用Sparkfiles.get(fileName)找到它的下載位置，但是Spark隻提供給我們addFile方法，卻沒有提供deleteFile。我們知道addFile是SparkContext類的方法，而SparkContext是Spark功能的主要入口。SparkContext代表了與Spark集群的連接，可用于在該集群上創建RDD、累積器和廣播變量。每個JVM隻能活動一個SparkContext。

在SparkContext添加deleteFile方法

下面是SparkContext中addFile的源碼,首先我們是不知道源碼中是怎麼操作這些文件的，我們将通過閱讀addFile的源碼來學習怎麼去添加deleteFile方法，我們隻有知道怎麼添加才知道怎麼去修改它，所謂觸類旁通。

spark讀寫流程（Spark源碼中添加deleteFile方法）1

def addFile(path: String, recursive: Boolean): Unit = { val uri = new Path(path).toUri val schemeCorrectedPath = uri.getScheme match { case null | "local" => new File(path).getCanonicalFile.toURI.toString case _ => path } val hadoopPath = new Path(schemeCorrectedPath) val scheme = new URI(schemeCorrectedPath).getScheme if (!Array("http", "https", "ftp").contains(scheme)) { val fs = hadoopPath.getFileSystem(hadoopConfiguration) val isDir = fs.getFileStatus(hadoopPath).isDirectory if (!isLocal && scheme == "file" && isDir) { throw new SparkException(s"addFile does not support local directories when not running " "local mode.") } if (!recursive && isDir) { throw new SparkException(s"Added file $hadoopPath is a directory and recursive is not " "turned on.") } } else { Utils.validateURL(uri) } val key = if (!isLocal && scheme == "file") { env.rpcEnv.fileServer.addFile(new File(uri.getPath)) } else { schemeCorrectedPath } val timestamp = System.currentTimeMillis if (addedFiles.putIfAbsent(key, timestamp).isEmpty) { logInfo(s"Added file $path at $key with timestamp $timestamp") Utils.fetchFile(uri.toString, new File(SparkFiles.getRootDirectory()), conf, env.securityManager, hadoopConfiguration, timestamp, useCache = false) postEnvironmentUpdate() } }

通過上面的源碼我們知道，是使用addedFiles 這個ConcurrentHashMap[用于存儲每個靜态文件/jar的URL以及文件的本地時間戳的

private[spark] val addedFiles = new ConcurrentHashMap[String, Long]().asScala

上面的學習我們已經知道了添加的方法，然後就是添加deleteFilele了，具體的實現如下：

spark讀寫流程（Spark源碼中添加deleteFile方法）2

NettyStreamManager中添加deleteFile方法實現

我們已經了解了在SparkContext添加deleteFile方法，我們了解下NettyStreamManager。NettyStreamManager是StreamManager實現，用于服務于NettyRpcEnv中的文件。在這個管理器中可以注冊三種資源，都是由實際文件支持的。

- "/files"：一個扁平的文件列表；作為SparkContext.addFile的後端。
- "/jars"：一個扁平的文件列表；作為SparkContext.addJar的後端。
- 任意目錄；該目錄下的所有文件通過管理器變得可用，尊重目錄的層次結構。隻支持流媒體（openStream）。

我們還是先看addFile的源碼，先看父類RpcEnvFileServer的接口，RpcEnv用來向應用程序所擁有的其他進程提供文件的服務器。該file Server可以返回由普通庫處理的URI（如 "http "或 "hdfs"），也可以返回由RpcEnv#fetchFile處理的 "spark "URI。

def addFile(file: File): String

2. NettyStreamManager中addFile方法實現

override def addFile(file: File): String = { val existingPath = files.putIfAbsent(file.getName, file) require(existingPath == null || existingPath == file, s"File ${file.getName} was already registered with a different path " s"(old path = $existingPath, new path = $file") s"${rpcEnv.address.toSparkURL}/files/${Utils.encodeFileNameToURIRawPath(file.getName())}" }

3. 跟addFile一樣，先去父類RpcEnvFileServer中添加deleteFile方法

spark讀寫流程（Spark源碼中添加deleteFile方法）3

4. 接下來我們将在NettyStreamManager中實現deleteFile方法，如下

spark讀寫流程（Spark源碼中添加deleteFile方法）4

修改Antlr4的sqlBase.g4文件

我們知道Spark中的SQL解析是通過ANTLR4來解析成語法樹的，如果不清楚這個過程，可以閱讀我的這篇博客【Spark SQL解析過程以及Antlr4入門】來了解，所以我們如果要在Spark Sql也支持的話，那麼需要修改SqlBase.g4這個文件，添加DElETE

spark讀寫流程（Spark源碼中添加deleteFile方法）5

修改SparkSqlParser解析器

找到org.apache.spark.sql.execution.SparkSqlParser類，添加對移除文件的支持。SparkSqlParser是Spark SQL語句的具體解析器。

override def visitManageResource(ctx: ManageResourceContext): LogicalPlan = withOrigin(ctx) { val mayebePaths = remainder(ctx.identifier).trim ctx.op.getType match { case SqlBaseParser.ADD => ctx.identifier.getText.toLowerCase match { case "file" => AddFileCommand(mayebePaths) case "jar" => AddJarCommand(mayebePaths) case other => operationNotAllowed(s"ADD with resource type '$other'", ctx) } /* *TODO 添加支持移除文件 * */ case SqlBaseParser.DELETE => ctx.identifier.getText.toLowerCase(Locale.ROOT) match { case "file" => DeleteFileCommand(mayebePaths) case other => operationNotAllowed(s"DELETE with resource type '$other'", ctx) } case SqlBaseParser.LIST => ctx.identifier.getText.toLowerCase match { case "files" | "file" => if (mayebePaths.length > 0) { ListFilesCommand(mayebePaths.split("\\s ")) } else { ListFilesCommand() } case "jars" | "jar" => if (mayebePaths.length > 0) { ListJarsCommand(mayebePaths.split("\\s ")) } else { ListJarsCommand() } case other => operationNotAllowed(s"LIST with resource type '$other'", ctx) } case _ => operationNotAllowed(s"Other types of operation on resources", ctx) } }

再找到resources.scala文件

spark讀寫流程（Spark源碼中添加deleteFile方法）6

修改SparkSQLCLIDriver

找到org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver 這個類，然後修改

spark讀寫流程（Spark源碼中添加deleteFile方法）7

源碼編譯

我們将源碼放到linux的服務器中去編譯，然後部署

./dev/make-distribution.sh --name 2.6.0-cdh5.14.2 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.14.2

驗證是否生效

spark讀寫流程（Spark源碼中添加deleteFile方法）8

如果你對源碼感興趣，關注我獲取已經修改好的源碼

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活 word中設置頁面效果在哪裡
通常，我們在做好Word文檔後，總會覺得有些不夠商務範，有些細節做的不夠到位。今天，我就來跟大家分享一些小技巧，教你怎麼對文檔進行細節設置，提高你的文檔商務範：1、添加頁眉和頁碼2、調節頁邊距3、消除孤行學會這些技巧，你也能輕松做出商務範的... 2022-12-15
生活抖音已崩潰是什麼意思
提起抖音我想大家都不陌生，在無聊的時候，大家一般都會打開抖音來刷着玩，但是在今天抖音卻突然出現了故障!怎麼刷都刷不出來什麼東西，很多的網友都還以為是自己的問題，以為是自己的手機出現了一些問題，但是在這些網友和其他人交流之後，發現不止一個人的... 2022-12-31
生活小兒霧化一般做多久
小兒霧化一般做多久?紅網時刻10月20日訊（通訊員張蓓）秋季到來，寶寶們又進入了呼吸道疾病高發期，輕則出現感冒、咳嗽，重則産生肺炎、支氣管炎等經常聽到身邊的寶媽們讨論：“我家寶寶這幾天一直咳嗽還痰多，醫生讓做霧化，可我擔心霧化含抗生素，副作... 2022-11-04
生活靜悄悄的校園甯靜而美麗
靜悄悄的校園甯靜而美麗?集美學村與廈門島隔海相對，沒有城市的喧嚣與繁華，有的是校園獨特的書卷氣息和雅緻浪漫的氛圍在風清氣爽的夜晚漫步，靜享學村的美好時光，聽最純粹的海浪聲，着實為一樁美事，現在小編就來說說關于靜悄悄的校園甯靜而美麗?下面内容... 2022-12-28
生活陳述句改被字句和把字句的轉換
, 2022-11-15
生活姥姥什麼意思
姥姥什麼意思?我的姥姥善良、勤快她穿衣幹淨整齊，頭發一絲不亂，皮膚白白淨淨，說起話來輕聲細語，臉上永遠是慈祥和藹的笑容頗有大家閨秀範，下面我們就來說一說關于姥姥什麼意思?我們一起去了解并探讨一下這個問題吧!姥姥什麼意思我的姥姥善良、勤快。她... 2023-02-04
生活脫歐帶來的不确定性
脫歐帶來的不确定性?當地時間4月10日，是英國正式脫歐100天如果觀察過去100天内顯現出來的英國脫歐的直接後果，可能并沒有英國政府預期的那麼積極，我來為大家講解一下關于脫歐帶來的不确定性?跟着小編一起來看一看吧!脫歐帶來的不确定性當地時間... 2022-12-25
生活每日減脂湯
最近很多人都在推薦一款做法十分簡單的減脂湯食譜，很多網友都親測有效，既然那麼簡單而且能瘦，那我也做個湯嘗嘗吧，瘦不瘦的不重要，重點是湯還挺好喝啊首先準備食材，新鮮冬瓜半圈，新鮮黑木耳半碗，新鮮香菜一小把這麼大塊的冬瓜是兩碗的量冬瓜洗幹淨，随... 2023-01-05
生活谷文昌紀念館在哪裡
谷文昌紀念館在哪裡?谷文昌紀念館，位于河南省林州市石闆岩鎮太行大峽谷内，南灣村西側，南面靠山，北俯露水河其作為安陽市級廉政教育基地，谷文昌紀念館建成後将與谷文昌故居遙相呼應，成為廣大黨員幹部靜思冥想，洗心補鈣的精神聖地，我來為大家科普一下關... 2022-08-22
生活花兒為什麼有香氣
#春日生活打卡季#黃色的迎春花，首先來報春；粉色的白色的玉蘭花，在寒冷中依然開放；白色的杏花，一簇一簇的，不甘示弱……迎春花當你看到這些美麗的花朵時，定會被吸引住。并且，有些花兒不僅鮮豔美麗，而且還散發出陣陣的清香，那麼，你有沒有問過這花兒... 2023-01-12
生活常回家看看陳紅現在怎樣了
1999年，春節晚會上陳紅和蔡國慶一首《常回家看看》唱哭了無數觀衆，樸實的歌詞道出了父母最真實的心聲，也唱出了老百姓現實生活的心酸與無奈。這首歌一出就引起無數人的共鳴，也因此成為當時全民流行的歌曲，而這首歌的演唱者陳紅也因為這首歌而家喻戶曉... 2023-03-26
生活劉慈欣三體電影宣傳片
近日，由劉慈欣作品改編的科幻電影《流浪地球》正在全國熱映，電影特效勁爆，故事感人，受到了觀衆們的喜愛，票房也是持續大爆。2月22日，由詹姆斯·卡梅隆監制的科幻電影《阿麗塔：戰鬥天使》也将在中國上映，卡梅隆此前的作品《阿凡達》在全球大爆，這次... 2022-12-07
生活身份證丢失後應該去哪裡補辦
身份證丢失後應該去哪裡補辦?原标題：身份證、護照等，一旦丢失莫慌張——，下面我們就來說一說關于身份證丢失後應該去哪裡補辦?我們一起去了解并探讨一下這個問題吧!身份證丢失後應該去哪裡補辦原标題：身份證、護照等，一旦丢失莫慌張——十大證件“補辦... 2022-11-16
生活相思昨夜雨
一夜相思雨半生不了情白發再相聚相看卻似夢寂寂無言語卻嫌報時鐘心中蒼茫茫一片夕陽紅, 2023-03-15
生活心得體會短句
心得體會短句?學渣最高分永遠體現在作文上路曼曼其修遠兮，吾将上下而求索，現在小編就來說說關于心得體會短句?下面内容希望能幫助到你，我們來一起看看吧!心得體會短句學渣最高分永遠體現在作文上。路曼曼其修遠兮，吾将上下而求索。在奔往未來的路上無人... 2022-08-15
生活脈管炎小腿潰瘍引發原因
脈管炎潰瘍是怎麼回事呢?脈管炎如果出現潰瘍的情況說明病情發展得比較嚴重，因為潰瘍是脈管炎的症狀，而且是晚期的症狀，一旦發生潰瘍應該及時的處理傷口，避免發生感染。脈管炎産生潰瘍是怎麼回事?脈管炎患者患處潰爛的主要原因是由于皮膚動脈血流的嚴重受... 2022-11-19
生活耳鳴耳聾800年古方
9年前的春節前，我們一家準備回老家過年！說是老家，真是已經從自己18歲上學出去後，就再也沒回過的地方。家裡沒有什麼親戚，隻剩下一個伯父，因為春節兒子從國外回來，兄弟姐妹幾個一起聚一下。回去之後，我驚訝了，老家大變樣，很多年的小土路已經花城了... 2022-11-06
生活三豆飲不能随便喝
三豆飲不能随便喝?容易過敏的患者不建議吃，特别是其中含有一些豆類，屬于異體蛋白，容易導緻患者出現過敏，下面我們就來聊聊關于三豆飲不能随便喝?接下來我們就一起去了解一下吧!三豆飲不能随便喝容易過敏的患者不建議吃，特别是其中含有一些豆類，屬于異... 2022-06-15
生活 jeep自由光新款降價
Jeep曾經有多輝煌，如今就有多慘淡。曾經的Jeep自由光是可以和奧迪Q5一較高下的，但是現在落得這般境地也是不勝唏噓。不出所料，今年九月Jeep自由光月銷不超過三百輛，廣汽菲克Jeep旗下在售五款車型中沒有一款銷量超過三位數，本該在“金九... 2022-12-07
生活德國原裝進口澤德污水提升泵
最近碰到很多小夥伴在咨詢馬桶污水提升泵，今天澤德小編推薦兩款馬桶污水提升泵。第一款也就是澤德常用的比較多的Microboy污水提升泵，這款設備可以直接與後排馬桶相連，除此之外側面4個進水口可以連接淋浴、洗手盆和浴缸等，最主要的當然就是外置泵... 2022-12-15
生活化學中常見的12種沉澱
化學是一門美麗的學科，【美麗科學】使用顯微、微距、熱成像、高速、延時等攝影技術，通過“重現化學”來向人們展示化學的美麗。将硝酸銀滴入氯化鈉溶液，産生白色的氯化銀沉澱将硝酸銀滴入硫代硫酸鈉溶液，産生黃色的硫代硫酸銀沉澱将硝酸銀滴入鉻酸鉀溶液，... 2023-02-11
生活怎麼說自己單身了
怎麼說自己單身了?告訴桃花，不必開了，老子自己種花海，我來為大家講解一下關于怎麼說自己單身了?跟着小編一起來看一看吧!怎麼說自己單身了告訴桃花，不必開了，老子自己種花海。平平無奇的單身小天才。我的第二杯半價是我自己。低質量的戀愛不如高質量的... 2022-07-07
生活科邁羅zl1所有車型
雪佛蘭全新科邁羅ZL1于今年年初在紐約車展正式發布，新車搭載了6.2升LT4機械增壓V8引擎，但雪佛蘭并未公布新車的具體性能參數。網通社從美國媒體motor1獲悉，雪佛蘭頂配版科邁羅ZL1的最終動力參數已曝光，新車發動機所産生的最大功率達4... 2022-11-11
生活對方微信隐私設置了怎麼加
對方微信隐私設置了怎麼加?首先：打開微信app，這裡有用名片添加好友受限制為例，點擊“名片”，接下來我們就來聊聊關于對方微信隐私設置了怎麼加?以下内容大家不妨參考一二希望能幫到您!對方微信隐私設置了怎麼加首先：打開微信app，這裡有用名片添... 2022-06-19
生活未來5年财運最好的4大生肖
今年五月容易有意外橫财的幾大生肖文/星座命理師老王（原創）人無橫财不富，馬無夜草不肥。可見要想發大财還得要有意外橫财才行，靠上班給人打工正常很難發大财。意外橫财得到要靠意外的機遇，是強求不了的，可以說是命中注定吧。正如有的人花幾塊錢就中了五... 2023-01-14
生活英語單詞背誦記憶法口訣
英語單詞背誦記憶法口訣?掌握此記憶法必須掌握的前提基礎知識：，今天小編就來聊一聊關于英語單詞背誦記憶法口訣?接下來我們就一起去研究一下吧!英語單詞背誦記憶法口訣讀音标記單詞，看形立即出聲即讀聽，聽聲出形意即聽記，先會讀才有聽記。英語背單詞背... 2022-12-11
生活鎮宅旺财的樹
鎮宅旺财的樹?桂花樹：應該都是大部分人都會選擇将桂花樹種在院子裡，桂花可以起到鎮宅的作用，将桂花樹種在院子中，可以寓意着富貴吉祥桂花樹還可以起到旺财的作用，使養殖它的主人工作上更順利，接下來我們就來聊聊關于鎮宅旺财的樹?以下内容大家不妨參考... 2022-06-18
生活花木蘭低端局打法思路
前面更新過花木蘭的基礎教學，銘文出裝沉默練習方式後，現在教大家打小花思路，玩小花一定要會蹲，并且一蹲一個準，需要練習好前面的内容。這個版本邊路射手特别多，經常對線到的都是輔助射手，但這是沒有關系，輔助是沒有傷害的，适當的時候還可以利用一技能... 2022-12-24
生活各字加偏旁組成新字組詞
常用字的變化運用，考察孩子漢字掌握情況。文檔共20頁，含答案。需要的朋友留下郵箱，或關注并私信“加偏旁組新字”關注我，更多學習資料不斷更新中……加偏旁部首組新字并組詞加偏旁部首組新字并組詞加偏旁部首組新字并組詞, 2022-12-06
生活周大福和周六福珠寶的關系
自古以來，人們都非常重視黃金，尤其是每當黃金價格降低時，就會引來很多人争相購買。在古代，黃金具有貨币的功能，因此，如果誰的手中有大量的黃金，絕對是資産非常豐厚的人。即便是發展到今天，黃金的價值也隻增不減，黃金除了可以制成金條，還可以制成各種... 2022-10-26

tft每日頭條

> 生活

> spark讀寫流程

spark讀寫流程

相关生活资讯推荐

热门生活资讯推荐

网友关注