人口數據是我們在各項研究中最常用的數據之一。人口數據的主要來源是我國每十年進行一次的人口普查,最近一次的人口普查是2020年進行的第七次人口普查,簡稱七普!很多小夥伴對七普數據翹首以盼,最近《2020中國人口普查分縣資料》終于出版了,有些公衆号也發布了該資料的PDF版本,為了方便大家使用我們在PDF的基礎上處理成了excel和shp格式的數據分享給大家!
我們之前分享了《2020中國人口普查分縣資料》的表1——人口基本情況(可以查看之前的文章)和表2——分年齡、性别的人口(可以查看之前的文章),本次分享的是表3——各年齡組人口占總人口的比重、有65歲及以上老年人的戶數、戶口登記在外鄉鎮街道人口!
該表統計了我國省市縣三個行政等級的指标!具體指标包括:各年齡組人口占總人口比重(0-14歲、45-64歲、65歲及以上、15-49歲育齡婦女)、有65歲及以上老年人口的戶數(合計、有一個老人、有兩個老人、有三個及以上老人)、戶口登記地在外鄉鎮街道人口(本縣、本省其他縣、省外)。為了方便大家使用,我們花了大量的時間對數據進行了整理,形成了excel和shp兩種格式的文件!整理出的數據缺失港澳台地區。對于數據整理的細節我們會在下文詳細介紹!大家可以在公衆号回複關鍵詞 1108 按照轉發要求獲取數據!以下為數據的詳細介紹:
01 數據預覽
下面我們來預覽下數據,首先是excel格式的數據,如下圖!省市縣三級的所有指标在一個excel中,省市縣的數據通過不同顔色分割,方便大家可以在excel中按照顔色選取不同等級的數據!每個指标的單位也标注在列名中!
下面我們再來看看shp格式的數據!分為三個shp文件,分别為省份、地級市、區縣三個行政登記的數據!
1.省份的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況
我們以全國各省份的0-14歲人口占總人口比重(%)和有65歲及以上老年人口的合計戶數(戶)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有省份均有數據,如下圖:
全國各省份的0-14歲人口占總人口比重(%)
全國各省份的有65歲及以上老年人口的合計戶數(戶)
2.地級市的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況
我們以全國各地級市的15-64歲人口占總人口比重(%)和戶口登記地在省外人口(人)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有地級市均有數據,如下圖:
全國各城市的15-64歲人口占總人口比重(%)
全國各城市的戶口登記地在省外人口(人)
3.區縣的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況
我們以全國各區縣的有一個65歲及以上老年人口的戶數(戶)和戶口登記在本省其他縣人口(人)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有區縣均有數據,如下圖:
全國各區縣的有一個65歲及以上老年人口的戶數(戶)
全國各區縣的戶口登記在本省其他縣(市、區)人口(人)
02 數據整理說明
本數據來源于《2020中國人口普查分縣資料》,想得到最終的excel和shp數據,需要做兩個工作,第一個是将數據電子化,形成excel格式的數據,第二個是将excel數據矢量化,得到shp格式的數據!
對于将PDF電子化,主要是要選擇合适的視圖軟件,在這兒推薦wps(識别數字比較準确)和全能掃描王(識别漢字比較準确),在識别後要對識别錯誤的數據進行修改,比如錯誤的符号,錯誤的字母等,最後還要對數據進行檢查,比如可以通過總人口是否等于男性人口 女性人口來檢查這三列數據有沒有錯誤!
我們重點來看一下第二步——将excel數據矢量化,得到shp格式的數據!對于将excel矢量化成shp數據,我們需要首先找到一個高精度的全國省市縣的行政區劃shp數據,在經過對比後,我們使用了‘銳多寶的地理空間’公衆号分享的行政區劃shp數據!有了行政區劃數據,下一步的重點工作是将excel數據根據公共列(省名稱、城市名稱、區縣名稱)鍊接到行政區劃shp數據裡面,這一步會有很多錯誤,需要一一檢查,我們依次來看一下!
1.将省份層級的excle數據矢量化形成shp數據
由于我國隻有34個省級行政單元,excel數據和shp數據裡面的省份名稱是完全對應的,我們不用經過任何處理,使用arcgis中的連接功能,以省份名稱為連接列,直接鍊接就能得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!
2.将地級市層級的excle數據矢量化形成shp數據
我國有300多個地級市行政單元,這300多個行政單元的名稱都是唯一的,沒有重複,所以也可以直接連接得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!
3.将區縣層級的excle數據矢量化形成shp數據
相比于省份層級和地級市層級,區縣等級的處理要複雜的多,需要大量的工作!主要包括如下幾個方面:
①我國的區縣名稱并不是唯一的,比如全國有四個城市有鼓樓區,有兩個城市有朝陽區,有兩個城市有寶山區,全國重複的區縣名稱大約有60個,對于這些區縣,如果直接根據區縣名稱進行連接會出錯,需要一一進行處理,這兒的處理方式是将區縣前面的城市和省份加上,這樣區縣名稱就是唯一的啦,就可以進行連接了!
②我們使用的‘銳多寶的地理空間’公衆号分享的行政區劃shp數據雖然精度很高,但是依然有一些和基于《2020中國人口普查分縣資料》整理的excel數據不對應的區縣!這兒分為兩種情況,第一種是有些已經調整的區劃,行政區劃shp數據裡面沒有跟着調整,對于這樣的問題,我們以以excel數據為準,對行政區劃shp數據進行調整,包括:
另外,在《2020中國人口普查分縣資料》中還統計有大約100個地區在行政區劃shp數據裡面沒有包括,比如比如石家莊高新技術産業開發區、河北唐山蘆台經濟開發區、唐山市漢沽管理區、荊州經濟技術開發區濟南高新技術産業開發區等!我們觀察下來這些數據基本都是開發區、産業園區,而行政區劃shp數據裡面沒有統計這些開發區、産業園區!對于這些開發區也很難找到精确的行政邊界,所以在最終的shp數據中我們直接忽略了這些數據。excel版本的數據中是包括了這些開發區、産業園區的,大家如果想要使用這些數據請使用excel數據,特此說明!
03 數據獲取
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!