2020/01/06 | 電子報No.0174期 | Nelson 黃祐祥

 

本篇部分內容來自於 Stop Using Zip Codes for Geospatial Analysis,原作者為 CARTO業務架構總監Matt Forrest ,利用 CARTO 空間數據視覺化分析郵遞區號範圍,嘗試去解釋為何郵遞區號不適合被拿來做空間分析?本文嘗試透過空間分析角度去解釋文章內提到相關例子,主軸環繞於郵遞區號是否適合拿來作為空間統計單元,解析此篇文章所闡述的方法,並探究郵遞區號在台灣獨特的特性,讓我們一窺郵遞區號的故事。

 

從郵遞區號(ZIP CODE)到郵遞區號列表區(ZCTA, ZIP Code Tabulation Areas)

郵遞區號(zip code)本身並不代表地理區域,而是一組郵差寄信傳遞的路線,不過它可以單指一個建築物、一群建物群、某間特別公司、在國外甚至連海軍艦艇都有自己的郵遞區號!

 

174epaper-01

▲ 美國郵遞區號分佈

 

美國的五碼郵遞區號有三個組成,第一碼代表地區(5_ _ _ _)、第二三碼代碼分區中心設施(_ 5 4 _ _)、後兩碼才是相關郵局或是派遞區域(_ _ _ 1 6)。美國人口普查局將郵遞區號分類並定義它的空間範圍,作為空間統計單元進行統計。利用已經存在的人口普查區塊,檢查區塊內所有地址對應的郵遞區號,依每個區塊中頻率最高的郵遞區號作為該區域的代表編碼,合併相同代碼以建立更大的區域,作為郵遞區號列表區域(ZCTA)。郵遞區號列表區域(ZCTA)就是美國郵政服務(USPS)郵遞區號服務區域的廣義區域表示。

 

郵遞區號作為空間統計單元合理性?

奇形怪狀的郵遞區號範圍
儘管郵遞區號有了空間分析範圍 (ZCTA),探究其根本,就是幫助郵差有效傳遞郵件的路線集合,它們不代表真正的邊界,而是一組路線。如下圖,郵遞區號門牌分布圖,實際上就是一組又一組的郵差傳送郵件路線,紅綠代表不同郵遞區號分區,並形成一系列郵差送信路線。

174epaper-02A

▲ 郵差送信路線局部示意圖

 

所以所繪製 ZCTA中就可能會包含不合理的空間單元,例如公園、水域、農田。世界各地都有類似情況空間範圍奇特的郵遞區號單元。

174epaper-03

▲ 圖左至右依序為英國倫敦、加拿大多倫多、澳洲雪梨的部分ZCTA範圍

 

ZCTA 不代表人類真實的行為方式
人類表現行為或生活方式不全都與郵遞區號有關聯,而是與鄰居、社區、高活動區域或是商業區較有關聯。通常可透過空間統計單元,利用空間自相關 (spatial autocorrelation)檢驗,檢驗區域內兩兩現象的關聯性(correlation analysis),觀察在空間分佈的特性是否有所關係,以及呈現出何種關聯性。然而 ZCTA 難以去針對人類行為進行空間分析,例如:檢驗此 ZCTA 其內的最小單元收入狀況,就無法反映出該區塊 (此指人口普查區塊) 收入狀況是否相似,換言之,ZCTA內的收入狀況可能是一個隨機分布的狀態,當統計區內的現象呈現隨機分佈 (Random Distribution),代表著缺乏了空間統計上的意義。
如下圖,作者將 ZCTA 當作空間統計單元(白色線段),查看單元下的美國人口普查區塊組(白色線段內區塊 ),檢驗其內的收入中位數。最後發現都市中的 ZCTA 相對來說,中位數差異大,也代表當中貧富差異大,區域內彼此之間的相似度小;而鄉村區域中位數小,代表貧富差距小,區域間的相似度大,以此例子認為 ZCTA 缺乏空間統計上的合理性。

174epaper-04

▲ ZCTA 邊界(白色),其下為人口普查區塊的收入量

 

探究台灣郵遞區號

台灣郵遞區號簡介
焦點看回到台灣,台灣的郵遞區號同樣是五碼,第一碼代表縣市、前三碼郵遞區號為鄉鎮,五碼為道路尺度層級,換句話說,假如住家地址是在比較大的道路上,是可以透過五碼郵政編號推到在哪一條路上,並且透過住家號碼來進行定位的。此外,你知道明年要改為六碼了嗎? 一方面更加速郵政單位對於郵件的分類,即便是地址沒寫清楚也能藉由六碼找到住家位置,推測空間尺度精細到街、巷層級,若推動成功,那對於郵差而言可能可以更細畫分派送範圍了。

台灣郵遞區號空間統計單元適合作空間分析嗎?
如果要以1碼或是3碼作為空間統計單元,其實可以直接拿縣市或鄉鎮圖層進行空間統計,因為有清楚界線並且共邊,不會產生重疊、破碎等問題,今天假若想拿郵遞區號當作空間統計單元,會直接使用到5碼郵遞區號層級。在現今的台灣,其實顯少看到以郵遞區號空間統計單元進行空間分析,原因在於資料前處理的困難,使郵遞區號空間統計單元在台灣難以成為恰當的空間分析單元。
台灣幅員面積狹小,在郵遞區號上與美國相同畫分到五碼,在於地狹人稠特性,高度的人口密集度產生了錯綜復雜的道路與門牌狀況,郵遞區號是一系列郵差送信的路徑,也定義了郵遞區號的劃分,從瑞竣的門牌資料庫中進行空間點位分佈圖,如下圖,可以看出台灣郵遞區號空間分佈錯綜複雜的特性。

174epaper-05

▲ 新北市板橋區局部郵遞區號分佈圖

 

圖中為新北市板橋的某一區域郵遞區號空間分佈圖,每一種顏色代表一種郵遞區號,可以看出郵遞區號並沒有清楚邊界,經常會有某一區郵遞區號被另外一區所包圍,原因和道路路徑分佈有關聯,也驗證郵遞區號為郵差送信的一組路徑。

而台灣郵遞區號另外一項特性在於,郵遞區號也可以單獨反映成一個建築物、一項獨特行政機構。統計全台五碼郵遞區號共 5774 個郵遞區號內,其中有 256 個郵遞區號只有單一門牌,換句話說,一個點位就形成了一個門牌、一個建築物可能就是一個門牌單位。
這邊我們舉板橋區為例子,板橋區一共有 37 個郵遞區號,其中有 6個郵遞區號是單一建築物。如下表格新北市政府就由單一郵遞區號(22001)構成,而更特別的是,還有同一棟建築物卻包含不止一個郵遞區號,像是新北市板橋區英士路192號(22051)及192-1號(22006),相關郵遞區號對應地址查詢可由台灣 3+2郵遞區號 查詢。

 

郵遞區號 22001 22006、22051
代表建築物 新北市政府 新北市政府衛生局
空間圖層 174epaper-11 174epaper-12

如果真的要以郵遞區號作為空間分析單元,有兩種比較可行的方法:(一)利用凸包 (convex hull)建立範圍或是(二)自製空間統計單元

(一)凸包幾何空間計算:將最外層的點連接起來形成凸多邊形,並且能將群內所有點囊括起來。可以較明確定義郵遞區號真實的空間範圍。不過問題在於,郵遞區號為郵差送信的路線,故當它透過凸包繪製時,它的空間形狀由門牌資料去繪製,容易受離群門牌影響使面積放大,更有重疊的空間範圍讓邊界難以定義,間接也使空間自相關難以進行。此外,其內更是包含水體、公園等不恰當的空間物件,也間接影響分析的結果。
下圖為板橋區原先的點位門牌(各種顏色代表一種郵遞區號),經過凸包後所形成的郵遞區號空間統計單元如右圖,郵遞區號會跨其他郵遞區號單元去呈現,重疊現象難以避免。

174epaper-06

▲ 圖左至右為新北市板橋區的郵遞區號分佈、空間統計單元(凸包)

 

凸包的優點也在於,此種繪製方式反映了真實世界的郵遞區號形狀,並且立即計算出一組空間統計單元以利後續分析,而這些不規則、詭譎的形狀,都是值得再去深入討論的。
如果能有效解決詭異的空間形狀以及重疊問題,凸包無疑是一種很恰當的空間統計單元定義方法,然而在那之前要使用凸包直接拿來做空間統計單元是相對不適當。

 

(二)自製空間統計單元:在原文中使用的方法就是一種自製空間統計單元,透過定義網格 (文中是用人口普查區塊) 後去統計網格內郵遞區號頻率最高的郵遞區號代碼,並且不斷合併鄰近一樣的郵遞區號最終形成郵遞區號空間統計單元。這邊我們也自製六角網格空間單元,將網格內頻率最高的郵遞區號進行繪製如下圖所示,此種空間統計單元,解決了重疊問題,彼此間的邊界清楚,鄰近定義良好,並且相較過去的四角網格,擁有更多的鄰居,增加統計上更多的參考依據。

174epaper-07

▲ 圖左至右為新北市板橋區的郵遞區號分佈、空間統計單元(自製六角網格)

 

然而,如同上述所說,郵遞區號具有錯綜複雜特行,當我們細看網格中的郵遞區號時,會發現一個網格中包含了多種類別郵遞區號交錯其中如下圖,更複雜的是,其他類別的郵遞區號比例並不低,如此所繪製的網格也間接掩蓋了郵遞區號的實際分佈,更錯失了統計上原本應該得到卻無法得到的結果。

174epaper-08

▲ 單一網格中,門牌分佈(自製六角網格)

 

此外,網格大小的定義是另外一個空間尺度的重要課題,網格小,空間尺度小可以反應較精細並更貼近真實郵遞區號分佈,不過也會產生許多空間破碎帶如下左圖;網格大,會產生網格包覆過多的不合理的空間單元,如下右圖網格面積大量包含了河流,此外也能發現某些郵遞區號單元單一形成了一整個網格,過大的網格也併吞了單元內少數存在的郵遞區號,這些都是會遇到的問題。

174epaper-09

▲ 圖左至右為縮小後的六角網格、局部不合理網格(自製六角網格)

 

相較台灣,為何國外資料科學家還是愛用郵遞區號?

上面舉了無論是國外或是台灣在郵遞區號分析上諸多問題之處,然而在實際例子中,國外空間資料科學家依舊喜歡使用郵遞區號作為空間統計單位,其原因在於:

人人都熟悉郵遞區號
郵遞區號的代表區域比城市小,但比里鄰的區域大。從概念上講,資料科學家認為足夠小,小到可以獲得一個非常集中的世界觀,並且足夠大,大到可以得到足夠的樣本。

郵遞區號反映價值性
例如某一些地區的郵遞區號,擁有良好的交通地點(例如近捷運地鐵站、機場、中心商業區等),就有可能反映足夠的價值性。而作者在此也舉 Airbnb 與郵遞區號關聯性進行說明,Airbnb位置象徵著旅行者所到之處。可以想像,當一位旅行者查詢 Airbnb 找到租賃位置,此地點的郵遞區號象徵著有很多餐館和酒吧,近一步地,此地的郵遞區號隨著網路搜尋曝光率而提高,然而這是由於 Airbnb 帶來的附加產值提高,而非當地經濟狀況的提升。

郵遞區號所形成的空間統計單元可以說謊
使用郵遞區號進行分析可以掩蓋在不同空間尺度上發生的嚴重情況。作者在此以 Michigan 州的 Flint 城市水污染作為案例,該城市使用郵遞區號來加總血鉛 (blood leads) 統計數據,也是因為郵遞區號與水系統不一致,最後成功掩蓋了真實問題。

結論

郵遞區號作為一組郵差寄信傳遞的路線,基本上就不容易定義空間範圍,所定義出的空間單元也可能是缺乏空間意義的,無論是國外或台灣的狀況都能看出此種現象。此外,依照空間分佈所繪製的凸包或是網格自製空間統計單元,目前來說都會有一定的難度需要克服,反映出郵遞區號在台灣上獨特的空間分佈特性,也說明為何少有資料科學家透過台灣的郵遞區號空間統計單位進行分析。

然而,文中作者進行的統計合理性也值得思考,單看分析結果或許不適合,但也可能是分析的資料不恰當、空間統計單元定義不適合,與空間分析單元沒有關聯性的資料自然也不會呈現出合理的結果。

郵遞區號絕非不能使用的空間統計單元,某些層面來說,由郵遞區號所形成的空間單元是相當具有意義性並且能夠解決特定的問題,只要能夠克服上述郵遞區號空間統計單元的繪製問題,透過進步的 GIS 技術,無論是網格的精細度、特別的網格形狀(ex 六角網格),都能夠客製出最適合拿來進行空間分析的空間統計單元(如下圖各種網格示意圖)。

174epaper-10

商業分析中的多元網格尺寸

 

最後回歸到問題的根本,要解決什麼樣的問題?這個問題為何適合拿郵遞區號空間統計單元進行分析?而不是拿縣市、鄉鎮、最小統計區進行,只要能回答此問題,並且產生合適的空間統計分析單元進行分析,才能真正解決問題。

 

參考資料

Stop Using Zip Codes for Geospatial Analysis
Zip codes and spatial analysis: Problems and prospects
ZIP Code Tabulation Areas (ZCTAs)

 

更多有趣的地圖資訊都在「瑞竣科技 給您地圖新鮮事」,馬上Follow


Author
Nelson 黃祐祥

任職於瑞竣科技應用事業部研發處,專長是將空間資訊與程式開發結合,喜歡將天馬行空的想法落實並實現,近期沉溺於逗笑自己的孩子得到短暫的快樂。