tft每日頭條

 > 科技

 > 人口普查戶籍注銷

人口普查戶籍注銷

科技 更新时间:2024-12-22 23:51:56

人口數據是我們在各項研究中最常用的數據之一。人口數據的主要來源是我國每十年進行一次的人口普查,最近一次的人口普查是2020年進行的第七次人口普查,簡稱七普!很多小夥伴對七普數據翹首以盼,最近《2020中國人口普查分縣資料》終于出版了,有些公衆号也發布了該資料的PDF版本,為了方便大家使用我們在PDF的基礎上處理成了excel和shp格式的數據分享給大家!

我們之前分享了《2020中國人口普查分縣資料》的表1——人口基本情況(可以查看之前的文章)和表2——分年齡、性别的人口(可以查看之前的文章),本次分享的是表3——各年齡組人口占總人口的比重、有65歲及以上老年人的戶數、戶口登記在外鄉鎮街道人口!

該表統計了我國省市縣三個行政等級的指标!具體指标包括:各年齡組人口占總人口比重(0-14歲、45-64歲、65歲及以上、15-49歲育齡婦女)、有65歲及以上老年人口的戶數(合計、有一個老人、有兩個老人、有三個及以上老人)、戶口登記地在外鄉鎮街道人口(本縣、本省其他縣、省外)。為了方便大家使用,我們花了大量的時間對數據進行了整理,形成了excel和shp兩種格式的文件!整理出的數據缺失港澳台地區。對于數據整理的細節我們會在下文詳細介紹!大家可以在公衆号回複關鍵詞 1108 按照轉發要求獲取數據!以下為數據的詳細介紹:

01 數據預覽

下面我們來預覽下數據,首先是excel格式的數據,如下圖!省市縣三級的所有指标在一個excel中,省市縣的數據通過不同顔色分割,方便大家可以在excel中按照顔色選取不同等級的數據!每個指标的單位也标注在列名中!

人口普查戶籍注銷(有老年人的戶數)1

人口普查戶籍注銷(有老年人的戶數)2

下面我們再來看看shp格式的數據!分為三個shp文件,分别為省份地級市區縣三個行政登記的數據!

1.省份的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況

我們以全國各省份的0-14歲人口占總人口比重(%)有65歲及以上老年人口的合計戶數(戶)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有省份均有數據,如下圖:

人口普查戶籍注銷(有老年人的戶數)3

全國各省份的0-14歲人口占總人口比重(%)

人口普查戶籍注銷(有老年人的戶數)4

全國各省份的有65歲及以上老年人口的合計戶數(戶)

2.地級市的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況

我們以全國各地級市的15-64歲人口占總人口比重(%)戶口登記地在省外人口(人)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有地級市均有數據,如下圖:

人口普查戶籍注銷(有老年人的戶數)5

全國各城市的15-64歲人口占總人口比重(%)

人口普查戶籍注銷(有老年人的戶數)6

全國各城市的戶口登記地在省外人口(人)

3.區縣的各年齡組人口占比、有老年人戶數、戶口登記在外人口情況

我們以全國各區縣的有一個65歲及以上老年人口的戶數(戶)戶口登記在本省其他縣人口(人)兩個指标為例來預覽下,數據不包括港澳台,剩下的所有區縣均有數據,如下圖:

人口普查戶籍注銷(有老年人的戶數)7

全國各區縣的有一個65歲及以上老年人口的戶數(戶)

人口普查戶籍注銷(有老年人的戶數)8

全國各區縣的戶口登記在本省其他縣(市、區)人口(人)

02 數據整理說明

本數據來源于《2020中國人口普查分縣資料》,想得到最終的excel和shp數據,需要做兩個工作,第一個是将數據電子化,形成excel格式的數據第二個是将excel數據矢量化,得到shp格式的數據!

對于将PDF電子化,主要是要選擇合适的視圖軟件,在這兒推薦wps(識别數字比較準确)和全能掃描王(識别漢字比較準确),在識别後要對識别錯誤的數據進行修改,比如錯誤的符号,錯誤的字母等,最後還要對數據進行檢查,比如可以通過總人口是否等于男性人口 女性人口來檢查這三列數據有沒有錯誤!

我們重點來看一下第二步——将excel數據矢量化,得到shp格式的數據!對于将excel矢量化成shp數據,我們需要首先找到一個高精度的全國省市縣的行政區劃shp數據,在經過對比後,我們使用了‘銳多寶的地理空間’公衆号分享的行政區劃shp數據!有了行政區劃數據,下一步的重點工作是将excel數據根據公共列(省名稱、城市名稱、區縣名稱)鍊接到行政區劃shp數據裡面,這一步會有很多錯誤,需要一一檢查,我們依次來看一下!

1.将省份層級的excle數據矢量化形成shp數據

由于我國隻有34個省級行政單元,excel數據和shp數據裡面的省份名稱是完全對應的,我們不用經過任何處理,使用arcgis中的連接功能,以省份名稱為連接列,直接鍊接就能得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!

2.将地級市層級的excle數據矢量化形成shp數據

我國有300多個地級市行政單元,這300多個行政單元的名稱都是唯一的,沒有重複,所以也可以直接連接得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!

3.将區縣層級的excle數據矢量化形成shp數據

相比于省份層級和地級市層級,區縣等級的處理要複雜的多,需要大量的工作!主要包括如下幾個方面:

①我國的區縣名稱并不是唯一的,比如全國有四個城市有鼓樓區,有兩個城市有朝陽區,有兩個城市有寶山區,全國重複的區縣名稱大約有60個,對于這些區縣,如果直接根據區縣名稱進行連接會出錯,需要一一進行處理,這兒的處理方式是将區縣前面的城市和省份加上,這樣區縣名稱就是唯一的啦,就可以進行連接了!

②我們使用的‘銳多寶的地理空間’公衆号分享的行政區劃shp數據雖然精度很高,但是依然有一些和基于《2020中國人口普查分縣資料》整理的excel數據不對應的區縣!這兒分為兩種情況,第一種是有些已經調整的區劃,行政區劃shp數據裡面沒有跟着調整,對于這樣的問題,我們以以excel數據為準,對行政區劃shp數據進行調整,包括:

  • 河北省邢台市進行了行政區劃大調整,橋西區改為了信都區,橋東區改為了襄都區等,在這兒就不一一列舉了,對行政區劃shp數據進行相應調整;
  • 海西蒙古族藏族自治州直轄改為海西蒙古族藏族自治州大柴旦行政委員會
  • 南沙市改為南沙群島
  • 煙台蓬萊市和長島縣合并為蓬萊區
  • 成都新津縣改為新津區
  • 江西省龍南縣改為龍南市

另外,在《2020中國人口普查分縣資料》中還統計有大約100個地區在行政區劃shp數據裡面沒有包括,比如比如石家莊高新技術産業開發區、河北唐山蘆台經濟開發區、唐山市漢沽管理區、荊州經濟技術開發區濟南高新技術産業開發區等!我們觀察下來這些數據基本都是開發區、産業園區,而行政區劃shp數據裡面沒有統計這些開發區、産業園區!對于這些開發區也很難找到精确的行政邊界,所以在最終的shp數據中我們直接忽略了這些數據。excel版本的數據中是包括了這些開發區、産業園區的,大家如果想要使用這些數據請使用excel數據,特此說明!

03 數據獲取

人口普查戶籍注銷(有老年人的戶數)9

人口普查戶籍注銷(有老年人的戶數)10

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved