tft每日頭條

 > 科技

 > 獲取html代碼方法

獲取html代碼方法

科技 更新时间:2024-10-01 20:44:28

通過上一章的内容,現在網頁文件中,我們還須要去除的就是HTML代碼了。

下面我們要研究一下HTML代碼的主要特點,不管什麼樣的html代碼,他們均被左右尖括号所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括号中的内容和聯通括号一起去除掉,就可以了。

下面開始,根據我們的想法,可以寫出,下面這樣的主程序

獲取html代碼方法(網頁代碼中提取文字)1

看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中

第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML标記,剩下的就應該是純文字内容了。在這裡,我們定義了一個函數,名字叫做去除html代碼。

下面我們研究一下,這個函數的内容,如下圖

獲取html代碼方法(網頁代碼中提取文字)2

因為使用了正則表達式,因此,在程序運行前,必須導入模塊re

第3行,導入我們所需要的re模塊,我們想用到正則表達式

第5行,定義函數

第6行,用右尖括号分格隔成列表

第8行,對列表元素進行遍曆

第9行,使用正則挑出有效的内容,其實就是去除以前孤立的右尖括号的内容。

第10行,對有效的内容進行左尖括号分隔

第11行,左尖括号前面的内容就是有效的文字内容

完整的程序如下

獲取html代碼方法(網頁代碼中提取文字)3

下面我們對程序進行下測試,在上一章中,程序運行後得到如下的内容(内容太長,隻截取一小部分)

獲取html代碼方法(網頁代碼中提取文字)4

本次程序改造後,運行得到下面的内容

獲取html代碼方法(網頁代碼中提取文字)5

獲取html代碼方法(網頁代碼中提取文字)6

從上面兩個圖片可以看出,我們确實把文字内容提取出來了。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved