市政府對於來自不同地區的抱怨,處理速度及態度會不同嗎?
團隊專案 / Python, 數據清理, 數據合併, 地理資訊系統, 探索式資料分析
資料導向決策(Data-Driven Decision-Making)課程的期末專案,要求學生實際運用課堂中所學習的Python來合併、整理、分析資料集,且根據結果擬定政策推薦。我與團隊決定以垃圾相關的抱怨作為研究主題。
本次研究問題:
本次研究使用以下三個資料集: Cityline Calls for Service (Cityline), Parcel Data April 2018 (Parcel), 以及 American Community Survey (ACS) 5-Year Estimates from 2013-2017.
前兩個是由雪城市政府收集與管理,最後一個則是從Social Explorer下載。
整個研究是建立在 Cityline 的抱怨,Parcel 土地資料則是用來核對地址與普查區域,而 ACS 則是用來分析每個社區不同的統計資料。
可以到 github 看 Python 編碼! 數據清理的過程包含:
人口普查區(Census Tract)以及街坊地區(TNT)的界線劃分不一致。從下圖可以看到,橘色是街坊,而藍色是人口普查區,藍橘的邊界有許多不相符的地區,一個橘色涵蓋數個藍色區塊,而一個藍色可能跨到兩個以上的橘色區塊。為了避免分析不準確,我們需要解決這個問題。
多次諮詢教授以及失敗的 ArcGIS 嘗試,團隊決定手動比較兩個地圖,並且將有跨到不同橘色邊界的藍色區塊分配至比率較高藍色區塊的橘色區塊,聽起來頗複雜,不過我們成功地分配所有的人口普查區到不同的街坊,不需要再擔心某些統計資料會在研究過程被重新計算。
起初我們分析每個街坊抱怨頻率,發現到北邊(Northside)有最高比率 33.49% 的抱怨。但是不知道人口數目的情況下,無法判定這個數字的含義,因此在下方的圖表中,我們結合人口及抱怨比率。
可以清楚地看到,北邊(Northside)、南邊(Southside)、以及西邊(Westside)的抱怨比例都高於當地人口比例;而其他地區則相反,抱怨的比例比人口低。至於市中心(Downtown)因為垃圾相關的抱怨數目過低,因此無法在圖表上顯示。
初步結論,我們發現人口越多,抱怨的頻率越高,但是在沒有更確切的分析前,這並不是個決定性的結論。
人口普查問卷當中將教育程度分成三類:
下方圖表中,我們可以觀察到不管是哪一種類的垃圾抱怨,橘色的比例都遠高於其中兩個顏色。換句話說,本次研究的抱怨種類當中,多數來自25歲以上高中畢業且大學未畢業的市民。
接著,我們分析每個街坊教育程度的不同,我們可以發現市中心(Downtown)、東邊(Eastside)、及湖畔(Lakefront)較多的居民有大學畢業。其他所有區域,則是以高中畢業且大學未畢業的居民為多。
在收入以及抱怨頻率,我們觀察到細微但是正面的相關,意即收入越高的街坊通常有較多的抱怨。
下方的散布圖(scatterplot)則是分析收入(Y軸)以及處理時間(X軸)的關聯,可以看到這兩個變數是正面相關。
我們並無找到特別顯著的關聯。
聽起來像是個失敗的實驗,但這其實是件好事。這代表雪城市政府並不會因為不同收入、教育程度、人口,而有不同的處理態度與速度。
研究時間:2019/09 – 2019/12
指導教授:Professor Matt Young
關鍵字: