2016年3月5日星期六

數據新聞﹕梁天琦票從何來?



文﹕陳電鋸__香港大學新聞及傳媒研究中心

梁天琦在新界東補選得票達六萬六千多,對政壇的影響可謂立竿見影。傳統泛民陣營甚至本土陣營自己都即時宣布轉換九月立法會選舉的策略;建制派及其宣傳機器卻試圖淡化,不停將焦點拉回勝出者身上,並將梁天琦得票較傳統泛民及建制為低,詮釋為「市民選擇理性的批判」云云。

與其沉迷於無謂的自我安慰,不如正視現實,就是梁天琦的激進本土路線是獲一定數量市民支持。今年九月立法會選 舉會按比例代表制分配議席,就算激進本土派得票如何比傳統泛民及建制為低、市民如何選擇「理性的批判」,他們都有機會晉身議會。在兩周前仍被部分傳媒稱為 「暴徒」的候選人梁天琦,到底他的票從何而來?補選數據對未來的選舉又有何啟示?本研究試圖從梁天琦得票數據中找出端倪,給出最客觀的結論。

地理分析

先可以從梁天琦各選區得票率地圖找出特點。地圖上藍色深淺度代表梁天琦的得票率,愈深色代表該選區得票率愈高(見圖A)。從圖中所見,梁在北區市中心和大 埔市中心得票率較高。至於沙田區,大圍及馬鞍山區對梁的支持,相對較城門河流域的沙田市中心為高。但總的來說梁在沙田的成績不算很好,亦是唯一一區並無選 區能突破五分一選票。在西貢區,梁只在將軍澳區尚德邨附近選區成績較佳,其他選區的支持度偏低。

至於為何梁天琦在西貢和沙田的得票不高,從政治上是可以推論,例如沙田第一城及西貢環保區是建制派老巢,打不入也是正常。除了以上政治推論之外,我認為是可以用以下角度去分析。

人口特徵分析

使 用上次已經介紹過的機器學習方式(見本刊 214日同系列文章),可以根據選區2011 年人口普查人口特徵(包括收入、長者人口、專上教育人口和操普通話及中國方言人口)自動為梁天琦在不同選區的支持度分組,畫成決策樹(圖B)。從決策樹可 見,梁天琦的支持度只取決於專上教育人口、收入及長者人口。電腦分析指出專上教育人口高、收入高及長者人口高選區可影響梁天琦的得票。在專上教育人口低於 三成及月入三萬人口低於3%的選區,梁天琦的支持度最高。

梁天琦得票率最高五名選區,分別是尚德、華明、富亨、太和和寶雅,除寶雅為居屋屋苑,其他都是公共屋邨。而梁天琦得票率倒數五名選區,分別是駿馬、環保、火炭、白沙灣和西貢北,都是較為富庶的區域。

票源重疊分析

一點坊間已有不少討論,就連梁國雄議員自己都說了,梁天琦搶佔了「激進泛民」的票源。我想用純數據的方式證明這一點,於是利用2012年立法會選舉各名單 在各選區的得票率與梁天琦的得票數據計算Kendall順位相關系數(Kendall tau rank correlation coefficient),找出誰人的票源與梁天琦最相近及最不相近。圖C中的分散圖我將X軸和Y軸轉成對數尺度(Log Scale),可更易見到關係。

圖中上列為最相近頭五位,下列是最不相近頭五位。坊間的分析大抵正確,就是梁天琦可以在所謂「激進泛民」梁 國雄、陳志全和范國威支持度較高的區域同樣獲得好成績。而有趣的是,工聯會葉偉明和民建聯陳克勤的得票率都跟梁天琦也呈正向相關。這並不代表工聯會或民建 聯「過票」給梁天琦,原因是「相關不蘊涵因果」原則。更有可能的解釋是工聯會及民建聯部分議員主打某一人口社群,而此社群又剛好與梁天琦重疊而已。

至於呈負相關的,也是可以預期的傳統泛民及主打中產的建制派。

結論

以上三套分析,可以大概理解梁天琦的六萬六選票何來。三套分析中我覺得最能左右選情的是人口特徵,從分析所見似乎富裕階級難以接納梁天琦的激進本土路線。 與傳統泛民不同,本土派不喜歡講「入屋論」,他們認為只需掌握關鍵少數的支持自己就足夠,無需要面面俱圓,也不需要感召最多的群眾支持自己。最少今次的選 舉反映,梁天琦可以獲低下被壓迫階層的關鍵社群支持。而這批受壓一群,亦是現存的「激進泛民」及部分建制派的支持者,九月票源重疊之下可能引發的後果實在 難以預料。

圖﹕Map tiles by Stamen Design, under CC BY 3.0. Data by OpenStreetMap, under ODbL.