tft每日頭條

 > 科技

 > 如何獲取網頁代碼

如何獲取網頁代碼

科技 更新时间:2024-09-17 10:50:51

文本處理其實是一個很大的題目,無法用文本處理這個名字來概括,從這裡這一章開始,我們直接用子項目名做名稱。

關鍵詞:HTML代碼

下面我們開始一個新的内容,就是從網頁代碼的文本文件中提取文字。網頁代碼,我們一般也叫他html代碼。

下面我們有一個文本文件,内容如下

如何獲取網頁代碼(網頁代碼中提取文字)1

内容很長很長,我們僅僅取出一個屏幕,能做範例就好。

下面的題目是,從這個代碼文件中,我們提取出要看的内容。為此,我們編寫一個程序做個練習。這個程序的名字叫《網頁代碼中提取文字.py》。

先開始做第一件事,在不做任何修改的情況下,直接讀取文本文件的内容。

于是我們編寫了下面一個程序

如何獲取網頁代碼(網頁代碼中提取文字)2

閱讀過前面文章的人,這個程序一看就懂,不用再解釋了。運行後,顯示效果如下

如何獲取網頁代碼(網頁代碼中提取文字)3

如果讓我們從這段代碼中讀出裡面的中文内容,我相信是非常困難的。

下面研究的課題就是,把中間有用的中文部分内容挑選出來,其他的代碼部分去掉,還要盡量保持應該保持的段落,最後有條件的話,再把内容進行一下加工,最後保持文章的主體部分。總之,内容多多如何處理呢?

首先,我們将研究第一個問題,了解網頁代碼的基本知識。看下圖

如何獲取網頁代碼(網頁代碼中提取文字)4

如何獲取網頁代碼(網頁代碼中提取文字)5

第一張圖片,是一個網頁的基本框架。第二張圖片,我們對他進行了标注,綠色部分是網頁的頭部信息,紅色部分是網頁中的實質内容。黃色的圈圈,就是網頁的全部代碼。

網頁的代碼通常用尖括号把它标注出來,他有很多的特殊符号,本格式如下

<html></html>這兩個是匹配的,中間就是網頁代碼具體的内容。

<body></body>這兩個也是匹配的,中間是代碼中文章體内容的具體部分。

<p></p>這兩個也是匹配的,中間是文章段落的具體部分。

HTML語言,大部分内容都是這樣配對的,個别的不配對。

由于内容實在太多,我們僅做最簡單的介紹。隻要掌握一個規律就可以啦,這個規律就是,代碼一般都是用尖括号括起來的。

需要說明的是,網頁代碼我們可以随便打開一個網頁,查看源代碼就可以看到。我們研究的是通過取出文字的内容來研究文本處理的方法。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved