前言
為什麼要介紹正則表達式,是因為下面的介紹到grep命令會用到正則表達式,所以,放在最前面來進行說明
1.什麼是正則表達式 ?
一個正則表達式就是描述了一個字符串集合的方式。正則表達式的表示就是一些特殊符号的組合,而每個符号代表着一些具體的意思。符合的組合就定義了一套規則和方法,其主要作用就是從大量文本從匹配出符合條件行。
2.正則表達式的使用場景
在Linux中,正則表達式的主要使用場景就是文本處理三劍客。grep,sed,awk .除此之外,vi指令也支持正則表達式。
3.正則表達式字符表示
在正則表達式中,又可以分為基本正則表達式和擴展正則表達式 。其主要區别在于:
以下為各個元字符的含義
元字符及含義
擴展正則中支持的字符
擴展正則支持的字符
預定義字符類
4.它們之間的區别
在上面我們提到正則包括基礎正則和擴展正則,但是它們有什麼區别呢?在什麼地方使用呢 ? 接下來我們主要說明在Linux 三劍客中的不同(grep,sed,awk)
作用:
語法:
grep [options] PATTERN [FILE...]
grep [options] [-e PATTERN | -f FILE] [FILE...]
說明:grep指令用于搜索所給定的模式(PATTERN )的FILE 文件裡的内容 ,如果從文件内容裡找到了該模式的文件内容,grep會把匹配的該行顯示出來。若不指定任何文件,或給的文件名為- , 則grep會從标準輸入讀取内容。
另外,也可以使用兩個變種程序 egrep 和 fgrep 。 Egrep 與 grep -E 相同。 Fgrep 與 grep -F 相同。
說明: 以下的NUM代表的是一個數字,代表的是行數
-A NUM 或者 --after-context=NUM
除了顯示符合條件的那一行之外,并顯示該行之後NUM行的内容
-a 或者--text
将一個二進制文件視為一個文本文件來處理;它與--binary-files=text 選項等價。
-B NUM 或者--before-context=NUM
除了顯示符合條件的那一行之外,并顯示該行之前NUM行的内容。
-C NUM 或者--context=NUM
除了顯示符合條件的那一行之外,并顯示該行之前和之後的NUM行的内容
-b 或者--byte-offset
在輸出的每行前面同時打印出當前行在輸入文件中的字節偏移量。
--colour[=WHEN] 或者 --color[=WHEN]
在匹配的行中,已匹配到字符串進行着色顯示。WHEN可以是never,always,或是auto。
-c 或者--count
計算符合條件的行數
-d ACTION 或者 --directories=ACTION
如果輸入文件是一個目錄,使用動作ACTION來處理它。
默認情況下,動作ACTION是read,意味着目錄将視為普通文件那樣來讀。
如果動作 ACTION是skip ,将不處理而直接跳過目錄。
如果動作ACTION是recurse,grep 将遞歸地讀每一目錄下的所有文件。這樣做和-r選項等價。
-E 或者 --extended-regexp
将E後面的模式作為一個正則表達式來使用。
-e PATTERN 或者 --regexp=PATTERN
使用PATTERN作為查找文件内容的模式(支持正則),但是在單條命令中可使用多個-e選項
-F 或者 --fixed-strings
将模式 PATTERN 視為一個固定的字符串的列表,用新行 (newlines) 分隔,隻要匹配其中之一即可。
-f FILE 或者--file=FILE
從文件 FILE 中獲取模式,每行一個。空文件含有0個模式,因此不匹配任何東西。
-G 或者--basic-regexp
将模式 PATTERN 作為一個基本的正則表達式這是默認值。
-H 或者 --with-filename
為每個匹配打印文件名。
-h 或者 --no-filename
當搜索多個文件時,禁止在輸出的前面加上文件名前綴。
-i 或者 --ignore-case
忽略大小寫的區别
-L 或者 --files-without-match
打印在文件内容中無法找到匹配後的文件名稱
-l 或者 --files-with-matches
打印出在文件内容中找到匹配後的文件名
-m NUM 或者 --max-count=NUM
在找到NUM個匹配的行之後,不再讀這個文件。
-n 或者 --line-number
在輸出的每行前面加上它所在的文件中它的行号。
-o 或者 --only-matching
隻顯示匹配的行中與 PATTERN 相匹配的部分。
--label=LABEL
将來自标準輸入的匹配輸出視為來自輸入文件LABEL的值
--line-buffering
使用行緩沖,it can be a performance penality.
-q, --quiet, --silent
不顯示任何信息。
-R, -r, --recursive
遞歸地讀每一目錄下的所有文件。這樣做和 -d recurse選項等價。
--include=PATTERN
僅僅在搜索匹配 PATTERN 的文件時在目錄中遞歸搜索。
--exclude=PATTERN
在目錄中遞歸搜索,但是跳過匹配 PATTERN 的文件。
-s 或者 --no-messages
禁止輸出關于文件不存在或不可讀的錯誤信息。
-u 或者 --Unix-byte-offsets
報告Unix風格的字節偏移量。這個開關使得grep報告字節偏移量時,将文件作為Unix
風格的文本文件看待,也就是說将CR字符去掉。這将産生與在一台Unix主機上運行grep完全相同的結果。除非同時使用-b選項,否則這個選項無效。這個選項在MS-DOS和MS-Windows之外的系統中無效。
-V 或者 --version
向标準錯誤輸出打印 grep 的版本号。
-v 或者 invert-match
顯示不包含匹配模式的所有行。
-w 或者 --word-regexp
隻選擇含有能組成完整的詞的匹配的行。判斷方法是匹配的子字符串必須是一行的開始,或者是在一個不可能
-x 或者 --line-regexp
完全匹配。
-Z, --null
文件内容全部顯示,不同字體通過顔色加以标注
重點
雖然在上面我們可以看到,grep中有很多選項,但是在工作中,大多數的選項是用不到的,這裡我們劃一下重點。
常用參數
常用參數
實例
使用到文件info,通過grep來進行過濾,info的文件内容如下:
grep -n "ccc" info
grep -i "ggg" info
grep -v "ccc" info
grep -E "ddd|eee|fff" info
grep ^c info
grep ^ccx$ info
grep .d info
grep -E d{1} info
包含:grep -i ^[abc] info
不包含: grep -i [^abc] info (是全部字符不包含a或b或c)
grep -E a info
grep -E "cc(c|x|ld)" info
grep [[:upper:]] info
grep [[:alnum:]] info
文本未完待續,後續持續更新sed,awk命令,希望大家關注轉發。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!