cityline 雪城市民專線

市政府對於來自不同地區的抱怨,處理速度及態度會不同嗎?

團隊專案 / Python, 數據清理, 數據合併, 地理資訊系統, 探索式資料分析

Cityline Syracuse Illustration

專案介紹

資料導向決策(Data-Driven Decision-Making)課程的期末專案,要求學生實際運用課堂中所學習的Python來合併、整理、分析資料集,且根據結果擬定政策推薦。我與團隊決定以垃圾相關的抱怨作為研究主題。

本次研究問題:

  • 社區的人口統計資料(demographic profile)以及抱怨頻率是否有某種模式的相關?
  • 對於不同社區的抱怨,處理的時間是否有不同?

過程

本次研究使用以下三個資料集: Cityline Calls for Service (Cityline), Parcel Data April 2018 (Parcel), 以及 American Community Survey (ACS) 5-Year Estimates from 2013-2017.

前兩個是由雪城市政府收集與管理,最後一個則是從Social Explorer下載。

  • Cityline: Cityline是雪城市民專線的暱稱(類似於台灣的1999市民專線),資料集包涵 57,110 個非緊急的市政問題、抱怨。 
  • Parcel: 有 41,623 土地登記資料。
  • ACS: 含有紐約州Onondaga郡 140 個人口普查區的普查結果與統計資料。

整個研究是建立在 Cityline 的抱怨,Parcel 土地資料則是用來核對地址與普查區域,而 ACS 則是用來分析每個社區不同的統計資料。

數據清理 &合併

可以到 github 看 Python 編碼! 數據清理的過程包含:

  • 移除錯誤的地址
  • 移除縮寫用完整名稱代替方向、街道
  • 連結門牌以及街道名稱以得到地址
  • 移除重複輸入的條目
  • 格式化資料以便後續合併
清理合併並且過濾出研究主題相關抱怨後,我們有 7,064 個條目可以研究。

挑戰

人口普查區(Census Tract)以及街坊地區(TNT)的界線劃分不一致。從下圖可以看到,橘色是街坊,而藍色是人口普查區,藍橘的邊界有許多不相符的地區,一個橘色涵蓋數個藍色區塊,而一個藍色可能跨到兩個以上的橘色區塊。為了避免分析不準確,我們需要解決這個問題。

多次諮詢教授以及失敗的 ArcGIS 嘗試,團隊決定手動比較兩個地圖,並且將有跨到不同橘色邊界的藍色區塊分配至比率較高藍色區塊的橘色區塊,聽起來頗複雜,不過我們成功地分配所有的人口普查區到不同的街坊,不需要再擔心某些統計資料會在研究過程被重新計算。

人口分析

起初我們分析每個街坊抱怨頻率,發現到北邊(Northside)有最高比率 33.49% 的抱怨。但是不知道人口數目的情況下,無法判定這個數字的含義,因此在下方的圖表中,我們結合人口及抱怨比率。

可以清楚地看到,北邊(Northside)、南邊(Southside)、以及西邊(Westside)的抱怨比例都高於當地人口比例;而其他地區則相反,抱怨的比例比人口低。至於市中心(Downtown)因為垃圾相關的抱怨數目過低,因此無法在圖表上顯示。

初步結論,我們發現人口越多,抱怨的頻率越高,但是在沒有更確切的分析前,這並不是個決定性的結論。

教育程度分析

人口普查問卷當中將教育程度分成三類:

  • 25歲以上,高中未畢業 (紅)
  • 25歲以上,高中畢業,大學未畢業 (橘)
  • 25歲以上,大學畢業 (黃)

下方圖表中,我們可以觀察到不管是哪一種類的垃圾抱怨,橘色的比例都遠高於其中兩個顏色。換句話說,本次研究的抱怨種類當中,多數來自25歲以上高中畢業且大學未畢業的市民。

Cityline-Syracuse-Education-Complaint-Type

接著,我們分析每個街坊教育程度的不同,我們可以發現市中心(Downtown)、東邊(Eastside)、及湖畔(Lakefront)較多的居民有大學畢業。其他所有區域,則是以高中畢業且大學未畢業的居民為多。

Cityline-Syracuse-Education-TNT

收入中位數分析

在收入以及抱怨頻率,我們觀察到細微但是正面的相關,意即收入越高的街坊通常有較多的抱怨。

下方的散布圖(scatterplot)則是分析收入(Y軸)以及處理時間(X軸)的關聯,可以看到這兩個變數是正面相關。

Cityline-Syracuse-Median-House-Income-Time-Resolve

研究限制

  • 缺乏個人統計資料
    本研究是採用普查的統計資料,但是抱怨的市民有可能並不符合當區資料。此外,最高的抱怨比率只有7%,由7%以下的資料意圖來做推論並不準確。再且,我們並無法知道是否有人不斷重複做出同樣的抱怨,因此同一抱怨被重複計算數次,影響研究結果。 
  • 地理界線不一致
    如前段所述,地理界線不一致導致我們只能手動分配統計資料。
  • 資料不準確
    起初 Cityline 資料集中有許多的錯誤,像是抱怨解決時間都是在凌晨,推論是市政府員工固定在當日工作結束後更新資料後再更新到系統上,但是這樣導致我們分析不完全。再者,有幾個抱怨耗費了超過三個月的時間解決,我們推論是當初處理時未更新,而是年底系統維護時才被更新。

研究結論

我們並無找到特別顯著的關聯。

聽起來像是個失敗的實驗,但這其實是件好事。這代表雪城市政府並不會因為不同收入、教育程度、人口,而有不同的處理態度與速度。

未來方向與推薦

  • 抱怨解決時間須及時更新
  • 每個變數需有更明確的解釋,例如:位置與地址的差異
  • 若要更精準的分析,市政府需發布街坊及普查區域重疊分布比率資料,或重新劃分讓不同的地理界線一致
額外資訊

研究時間:2019/09 – 2019/12

指導教授:Professor Matt Young

關鍵字:

  • Python – Pandas, Numpy, Matplotlib, Seaborn, Geopandas, Geopy, Folium
  • Data Visualisation 數據視覺化
  • Exploratory Data Anlysis 探索式資料分析
  • Public Service, Data Analytics for Social Good