tft每日頭條

 > 科技

 > 根據關鍵字查找文件linux

根據關鍵字查找文件linux

科技 更新时间:2025-01-16 06:47:02

根據關鍵字查找文件linux?本部分算是對find強大功能的擴展使用方法說明在find的基礎上,我們可與(如xargs命令)等其它基本Linux命令相結合,即能創造出無限的命令行功能,比如:可以快速查找出Linux某個文件夾及其子文件夾中的重複文件列表要實現這個功能在流程上是比較簡單的,隻要查找遍曆出所有文件,再通過命令去比較每個文件的MD5就OK啦,我來為大家科普一下關于根據關鍵字查找文件linux?以下内容希望對你有幫助!

根據關鍵字查找文件linux(利用Linux查找重複文件)1

根據關鍵字查找文件linux

方法一:使用Find命令

本部分算是對find強大功能的擴展使用方法說明。在find的基礎上,我們可與(如xargs命令)等其它基本Linux命令相結合,即能創造出無限的命令行功能,比如:可以快速查找出Linux某個文件夾及其子文件夾中的重複文件列表。要實現這個功能在流程上是比較簡單的,隻要查找遍曆出所有文件,再通過命令去比較每個文件的MD5就OK啦。

聽起來好像比較抽象,其實命令就一條:

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

find -not -empty -type f -printf “%sn” 表示使用find命令搜索出所有非空文件,再打印出他們的大小

sort -rn 命令不用多說了把,這條命令就是按文件大小進行反向排序

uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 表示隻打印了重複的行,這裡使用代表打印出文件名相同的文件

uniq -w32 –all-repeated=separate 最後這裡表示對MD5的前32個字節進行對比,以篩選出重複文件 使用命令行的整個過程就是這麼簡單和容易。

方法二:使用dupeGuru工具

DupeGuru是一個跨平台應用,有Linux、Windows和Mac OS X版本,它可以通過文件大小、MD5和文件名等多種标準來幫助用戶找出Linux中的重複文件。Ubuntu用戶可以直接通過添加如下PPA源來方式來進行安裝:

sudo add-apt-repository ppa:hsoft/ppasudo apt-get updatesudo apt-get install dupeguru*

方法三:使用Find命令解析

在工作生活當中,我們很可能會遇到查找重複文件的問題。比如從某遊戲提取的遊戲文本有重複的,我們希望找出所有重複的文本,讓翻譯隻翻譯其中一份,而其他的直接替換。那麼這個問題該怎麼做呢?當然方法多種多樣,而且無論那種方法應該都不會太難,但筆者第一次遇到這個問題的時候第一反應是是用Linux的Shell腳本,所以文本介紹這種方式。

先上代碼:

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36-

大家先cd到自己想要查找重複文件的文件夾,然後copy上面代碼就可以了,系統會對當前文件夾及子文件夾内的所有文件進行查重。

下面分析一下上面的命令。

首先看第一句:

find -not -empty -type f -printf "%sn"

find是查找命令;-not -empty是要尋找非空文件;-type f是指尋找常規文件;-printf “%sn”比較具有迷惑性,這裡的%s并非C語言中的輸出字符串,它實際表示的是文件的大小,單位為bytes(不懂就man,man一下find,就可以看到了),n是換行符。所以這句話的意思是輸出所有非空文件的大小。

通過管道,上面的結果被傳到第二句:

sort -rn

sort是排序,-n是指按大小排序,-r是指從大到小排序(逆序reverse)。

第三句:

uniq -d

uniq是把重複的隻輸出一次,而-d指隻輸出重複的部分(如9出現了5次,那麼就輸出1個9,而2隻出現了1次,并非重複出現的數字,故不輸出)。

第四句:

xargs -I{} -n1 find -type f -size {}c -print0

這一部分分兩部分看,第一部分是xargs -I{} -n1,xargs命令将之前的結果轉化為參數,供後面的find調用,其中-I{}是指把參數寫成{},而-n1是指将之前的結果一個一個輸入給下一個命令(-n8就是8個8個輸入給下一句,不寫-n就是把之前的結果一股腦的給下一句)。後半部分是find -type f -size {}c -print0,find指令我們前面見過,-size{}是指找出大小為{}bytes的文件,而-print0則是為了防止文件名裡帶空格而寫的參數。

第五句:

xargs -0 md5sum

xargs我們之前說過,是将前面的結果轉化為輸入,那麼這個-0又是什麼意思?man一下xargs,我們看到-0表示讀取參數的時候以為分隔符讀取,這也不難理解,畢竟的二進制表示就是00。後面的md5sum是指計算輸入的md5值。

第六句:sort是排序,這個我們前面也見過。

第七句:

uniq -w32 --all-repeated=separate

uniq -w32是指尋找前32個字符相同的行,原因在于md5值一定是32位的,而後面的--all-repeated=separate是指将重複的部分放在一類,分類輸出。

第八句:

cut -b 36-

由于我們的結果帶着md5值,不是很好看,所以我們截取md5值後面的部分,cut是文本處理函數,這裡-b 36-是指隻要每行36個字符之後的部分。

我們将上述每個命令用管道鍊接起來,存入result.txt:

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36- >result.txt

雖然結果很好看,但是有一個問題,這是在Linux下很好看,實際上如果有朋友把輸出文件放到Windows上,就會發現換行全沒了,這是由于Linux下的換行是n,而windows要求nr,為了解決這個問題,我們最後執行一條指令,将n轉換為nr:

cat result.txt | cut -c 36- | tr -s 'n'

關注IT運維技術圈 獲取更多的面試題、腳本等運維資料點擊: 運維知識社區 獲取

腳本之---短信轟炸機

腳本之---QQ微信轟炸機

ansible---一鍵搭建redis5.0.5集群

elk7.9真集群docker部署文檔

全球最全loki部署及配置文檔

最強安全加固腳本2.0

一鍵設置iptbales腳本

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved