當前位置: 華文星空 > 新聞

【2020年七普數據整理】省市縣三級人口基本情況

2022-11-11新聞

人口數據是我們在各項研究中最常用的數據之一。人口數據的主要來源是中國每十年進行一次的人口普查,最近一次的人口普查是2020年進行的第七次人口普查,簡稱七普!很多小夥伴對七普數據翹首以盼,最近 【2020中國人口普查分縣資料】 終於出版了,有些公眾號也釋出了該資料的PDF版本,為了方便大家使用我們在PDF的基礎上整理了excel和shp格式的數據分享給大家!

本次分享的是 【2020中國人口普查分縣資料】的表1——人口基本狀況 !統計了中國省市縣三級的人口基本狀況,具體指標包括: 人口數(總人口、男性人口、女性人口、性別比(女=100))、少數民族人口比重、城鄉人口(城鎮人口、鄉村人口)、城市城區人口、家庭戶(戶數、人口數、戶規模、其中:一人戶)、家庭戶類別(一代戶、二代戶、三代戶、四代以上戶)。

為了方便大家使用,我們花了大量的時間對數據進行了整理,形成了excel和shp兩種格式的檔! 整理出的數據除了港澳台地區外,沒有缺失值!對於數據整理的細節我們會在下文詳細介紹!大家可以在公眾號回復關鍵詞 1103 免費獲取該數據,無需轉發,沒有套路!以下為數據的詳細介紹:

01 數據預覽

下面我們來預覽下數據, 首先是excel格式的數據 ,如下圖!省市縣三級的所有指標在一個excel中,省市縣的數據透過不同顏色分割,方便大家可以在excel中按照顏色選取不同等級的數據!每個指標的單位也標註在列名中!

下面我們再來看看shp格式的數據! 分為三個shp檔,分別為 省份的人口基本情況 地級市的人口基本情況 區縣的人口基本情況

1.省份的人口基本情況

我們以全國各省份的總人數和少數民族人口比重(%)兩個指標為例來預覽下,數據不包括港澳台,剩下的所有省份均有數據,如下圖:

全國各省份的人口數
全國各省份的少數民族人口比重(%)

2.地級市的人口基本情況

我們以全國各地級市的總人數和鄉村人口兩個指標為例來預覽下,數據不包括港澳台,剩下的所有地級市均有數據,如下圖:

全國各城市的人口數
全國各城市的鄉村人口數

3.區縣的人口基本情況

我們以全國各區縣的總人數和性別比(女=100)兩個指標為例來預覽下,數據不包括港澳台,剩下的所有區縣均有數據,如下圖:

全國各區縣的人口數
全國各區縣的性別比(女=100)

02 數據整理說明

本數據來源於【2020中國人口普查分縣資料】,想得到最終的excel和shp數據,需要做兩個工作,第一個是將數據電子化,形成excel格式的數據,第二個是將excel數據向量化,得到shp格式的數據!對於將PDF電子化,主要是要選擇合適的檢視軟體,在這兒推薦wps(辨識數位比較準確)和全能掃描王(辨識漢子比較準確),在辨識後要對辨識錯誤的數據進行修改,比如錯誤的符號,錯誤的字母等,最後還要對數據進行檢查,比如可以透過總人口是否等於男性人口+女性人口來檢查這三列數據有沒有錯誤!我們重點來看一下第二步——將excel數據向量化,得到shp格式的數據!

對於將excel向量化成shp數據,我們需要首先找到一個高精度的全國省市縣的行政區劃shp數據,在經過對比後,我們使用了‘銳多寶的地理空間’公眾號分享的行政區劃shp數據!有了行政區劃數據,下一步的重點工作是將excel數據根據公共列(省名稱、城市名稱、區縣名稱)連結到行政區劃shp數據裏面,這一步會有很多錯誤,需要一一檢查,我們依次來看一下!

1.將省份層級的excle數據向量化形成shp數據

由於中國只有34個省級行政單元,excel數據和shp數據裏面的省份名稱是完全對應的,我們不用經過任何處理,使用arcgis中的連線功能,以省份名稱為連線列,直接連結就能得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!

2.將地級市層級的excle數據向量化形成shp數據

中國有300多個地級市行政單元,這300多個行政單元的名稱都是唯一的,沒有重復,所以也可以直接連線得到最終的數據!該數據除了港澳台地區以外,沒有任何缺失值!

3.將區縣層級的excle數據向量化形成shp數據

相比於省份層級和地級市層級,區縣等級的處理要復雜的多,需要大量的工作!主要包括如下幾個方面:

①中國的區縣名稱並不是唯一的,比如全國有四個城市有鼓樓區,有兩個城市有朝陽區,有兩個城市有寶山區,全國重復的區縣名稱大約有60個,對於這些區縣,如果直接根據區縣名稱進行連線會出錯,需要一一進行處理,這兒的處理方式是將區縣前面的城市和省份加上,這樣區縣名稱就是唯一的啦,就可以進行連線了!

②我們使用的‘銳多寶的地理空間’公眾號分享的行政區劃shp數據雖然精度很高,但是依然有一些和基於【2020中國人口普查分縣資料】整理的excel數據不對應的區縣,在這兒以excel數據為準,對行政區劃shp數據進行調整,包括:

  • 河北省邢台市進行了行政區劃大調整,橋西區改為了信都區,橋東區改為了襄都區等,在這兒就不一一列舉了,對行政區劃shp數據進行相應調整;
  • 海西蒙古族藏族自治州直轄改為海西蒙古族藏族自治州大柴旦行政委員會
  • 南沙市改為南沙群島
  • 煙台蓬萊市和長島縣合並為蓬萊區
  • 成都新津縣改為新津區
  • 江西省龍南縣改為龍南市
  • 在經過上面兩步處理後,行政區劃shp中的所有區縣都和excel中的數據對應了,得到了我們最終的區縣層級的數據!該數據除了港澳台地區以外,沒有任何缺失值!

    需要額外說明的是:【2020中國人口普查分縣資料】整理的excel數據中還有一些地區在shp中沒有,比如石家莊高新技術產業開發區、河北唐山蘆台經濟開發區、唐山市漢沽管理區、荊州經濟技術開發區濟南高新技術產業開發區等,大約有100個!我們研究下來發現這些絕大多數都是開發區、產業園區,這些開發區和現有區縣在空間上是重疊的,在【2020中國人口普查分縣資料】裏面統計了,但是在行政區劃shp數據中沒有,對於這些數據大家如果想要研究請看excel版本的數據!

    03 數據獲取