2012年8月5日星期日

馮榮錦﹕統計處問題 ——堅尼系數/ 統計處問題──異常點和專業水平



早前政府統計處公布了2011年的堅尼系數,該系數再見新高達0.537,比2006年的數字高出0.004,顯示貧富懸殊進一步惡化。公布當日,統計處長歐陽方麗麗女士於記者會上,向傳媒解釋該數字(0.537)背後定義的多個「缺點」,例如該數字沒有考慮(1)人口老化,(2)稅收,(3)福利轉移,(4)小型住戶增加,和(5)政府一次過紓緩措施等多個因素,指出該沿用40年之系數的「不足之處」。

翌日,有報章大字標題說「統計處死撐」,《明報》亦撰文題為〈統計處遮掩〉,受訪的市民也對統計處的手法相當不滿,此外,前統計處長何永鬉先生更說:統計處公布堅尼系數手法差——真有趣!

現在,讓我們看看當日處長演示文稿(power point)的內容,文稿內列出2001200620113年的堅尼系數,在這裏,我想請讀者猜猜:該文稿內有多少個系數數值?我相信,統計處內包括處長沒有一個人能夠有信心的即時給出一個正確答案,是34個——20頁(不包括文稿最後Thank You一頁)內有34個,其中11個是2011年的。

誰最可悲?市民最悲!

記者會當日,統計處長不單指出0.537這個數字的「缺失」,還找到一個減去稅收和福利轉移後的堅尼系數:2011年是0.4752006年也是0.475,意即貧富懸殊沒有變差!處長更說:「扣除……等一次過紓緩措施,堅尼系數只有0.414,反映政府投放不少社福資源,有效收窄貧富差距。」難怪,連陳婉嫻女士也不禁說:「政府,你玩晒!」

其實,處長的演示文稿還內有乾坤,「可惜」,傳媒和建制派也沒發現處長的「苦心」(經營)。上文說過,文稿內有112011年的堅尼系數,而在文稿最後一頁出現的最後一個系數:0.399——剛好剛好低於0.4的「警戒線」——香港處於「警戒線」之下,一個「完美的結局」。但是這個數字處長「不敢」當日說出來,她只「敢」在新聞稿內說:「若一併考慮……相關的堅尼系數分別下降至0.4140.399」。還是嫻姐夠guts說:「真令人佩服得五體投地,搖頭嘆息!……我們的現屆政府和政府部門,就是如此可笑和可悲!」不過,我也不禁要問:「嫻姐,難道你相信我們的新一屆政府和政府部門,就會不如此可笑和可悲嗎?」誰最可悲?市民最悲!沒有最悲,只有更悲!

統計數字 被人搓圓按扁

演示文稿內200120062011年的堅尼系數共34個,而上述提及的2011年系數0.399是該34個數字中最小的一個,處長,當中意思是否可理解為:堅尼系數從2001年開始,10年間下降至0.399,低於「警戒線」,香港被(處長)逃出「警戒」行列!這個0.399的數字又是怎樣計算出來的?根據演示文稿(統計處網頁可以找到),是「從事經濟活動的家庭住戶中人口平均除稅及福利轉移後(包括政府一次性紓緩措施)住戶每月收入」的堅尼系數!這又長又累贅的語句是什麼意思呢?其意思就是將本文第一段處長自己所提出的5個因素考慮進去之後所得出的堅尼系數!歐陽處長,看來你們找這些因素也找得很辛苦了,不過,要加5個因素進去是否過分了一些?情何以堪,統計數字就像泥公仔一樣,被人搓圓按扁,舞高弄低,變成一種工具,十分可憐!

作為一個統計學者,我也跟嫻姐一樣,對統計處的「刻意經營」不單是「佩服得五體投地」,而更加是「搖頭嘆息」!不過,除此之外,當中是否還涉及更深層次的「專業」問題?19世紀英國首相Benjamin Disraeli曾說過:「There are three kinds of lies: lies, damned lies, and statistics.」將統計學大大提升至政治的層次:lie!?——本港某些人盡得箇中三昧!?

(編按:作者是香港大學統計及精算學系講座教授,本文純屬作者個人意見,不代表其工作之機構和單位的意見。)

(系列之一)

 
馮榮錦﹕統計處問題──異常點和專業水平

6月底,芝加哥大學榮休教授、台灣中央研究院院士刁錦寰教授於本系(香港大學統計及精算學系)研討會中說「Outlier is....the most important area in statistics」。其實,尋找異常點(outlier)的工作非常重要,有關問題有難也有易,以下是一個「易」的例子。

異常點

一群癩蛤蟆想吃天鵝肉,牠們從2006年開始向供應商豬先生每3個月購買100隻冰鮮的白天鵝,一次送貨,同時,豬先生會向癩蛤蟆提供該批天鵝的平均重量,以下是過去的數字(以公斤計):8.618.838.878.57……8.64,所有這些數字都很相近,直至20093月,癩蛤蟆發現一個駭人的數字——7.42!牠們連忙打電話給豬先生,說:「有冇搞錯!?」老豬慢條斯理的說:「不會吧!讓我看看。」最後發現真是有問題,牠們搞錯了癩蛤蟆和另一購買者青蛙王子的訂單——王子每月訂購100隻黑天鵝——黑天鵝,outlier是也。

20093月,政府統計處公布最新運輸服務業工資指數,按照巴士票價「可加可減」方程式運算,計算出有關參數的數值為-3.03%3年來首次低於票價「可加可減」機制的-2%,根據機制,巴士車費要減3.03%。由於該參數非常重要,很多人會盯覑它是否低於-2%,當時業界對數字有懷疑,向統計處查詢,統計處好像如夢未醒,之後再去查找不足,最後發現原來該數值應是-1.26%,與-3.03%相差很遠!這個參數沿用了3年,2009年以前一直都沒有少於-2%,突然間20093月的數值遠低於-2%,不懂統計的人都會多加注意,看看有沒有出錯的可能!可是,統計處有關人等,卻如老僧入定一樣,不聞不問,直至出了事!

其實,上述統計處的例子和黑天鵝事件很相似,都是參數值過去相當穩定,突然之間某一天,參數變得異常,這應該是很容易被察覺的,可是統計處卻察覺不到。異常點的研究,50年前已有人做,本人也做了差不多30年了。統計處該類的出錯應該很容易被找出,肉眼也可以,當然,亦可以有不同方法可採用,例如設定一個分界線——如果數值高於±2%(或±1.5%),電腦便會即時顯示,統計處人員便要多加留意了!

當年,前統計處長馮興宏說:「連同今次,過去5年共有4次數據出錯。」或許,這是對的——不過更有可能的是:有4次數據出錯被公布或被找出,公布有4隻黑天鵝,不代表只有4隻黑天鵝存在。統計處每年處理的數據數以萬計或十萬計,他們平均每年也找不到一隻黑天鵝,實在是很少,因為有研究指出,不少數據經常有約5%10%的錯誤,梅菲定律也說「Anything that can go wrong, will go wrong」,所以統計處要有機制,例如用一些穩健方法(robust methods),去幫助找出錯處和異常點,不要存僥倖之心──黑天鵝一定會出現的,雖然不知何時,不知何地!

對於昨天堅尼系數和上述黑天鵝事件,本人嘗試於以下查找不足。

專業水平

統計處現有約120名統計師或以上職級的官員,署長級官員包括一位處長、一位副處長和5位助理處長,在這約120位人士之中,大部分都是從學士畢業後或畢業一二年後便考進統計處當統計師,現時統計師月薪約為4萬至8萬元,與政務官(AO)一樣。

現在,讓我們比較統計處和其他同類的專業職級,看看他們的專業水平。以我熟悉的專業部門政府化驗所為例,署長級人士有7位,其中5位有博士學位,包括政府化驗師和他兩位副手助理政府化驗師,上兩任政府化驗師為David Clarke和丁大倫先生,都擁有博士學位。可是,統計處7位署長級人士,沒有一位擁有博士學位。過去45年,只有兩位處長擁有博士學位,一是Dr. Greenfield,他是當上處長後才在本系念博士的,另一是Dr. Butler,兩位都是上世紀80年代的處長。45年以來,只有一位助理處長擁有博士學位,該處長數年前退休,不過他的博士學位是土木工程的。據了解,現任7位處長級人士,有主修經濟的,有主修心理的,只有一半左右主修統計。請問,我們怎樣會對你們的工作有信心呢?

統計處內的120名統計師,只有3位有博士學位,比化驗所署長級的還要少。化驗所現有超過70位博士,比沒有博士學位的為多。其他專業職級部門如天文台、漁農自然護理署……等都有不少人擁有博士學位。

統計處內,處長級人士之中,據了解,只有一位擁有統計碩士學位,約20年前於本系畢業,其他統計師,有統計碩士學位的,寥寥可數。歐美國家,例如美、英、加、澳等,其統計局內都有很多人擁有博士學位。

最令人失望的是,統計處內不鼓勵做研究——我是指那些能達至於經審核學術或專業期刊(refereed journal)發表文章的研究。上一段提及的美、英、加、澳等統計局都有做不少研究和發表經審核的文章(refereed papers)。統計處是否沒該類研究呢?有——在上世紀80年代!當時,一位姓譚的統計師發表了不少文章,處長Dr. Greenfield也是鼓勵做研究的!譚先生和他的一位同事余先生約於上世紀80年代末90年代初移民澳洲,現為澳洲統計局高層,後者現主管研究方法(methodology),前者移民後修讀了博士學位,繼續發表經審核的文章,展示其研究成果。可是,自他們離開之後,統計處做研究的風氣每愈下,過去20年再也很少很少、亦不鼓勵做研究和發表經審核的文章。

說起統計處博士不足問題之處,令我想起一兩年前有關經濟分析及方便營商處內博士數目的問題。據報道,當年該處有35個經濟主任,包括其主管經濟顧問,當中只有一個有博士學位,和統計處的情比較,真有「異曲同工之妙」。

當然,PhD不是萬能,不過,兩個處都只得3% PhD就萬萬不能!!

總結,香港統計處專業水平嚴重不足。

後記:本人認為統計處的問題主要根源是專業和專業水平問題,我和本系同事於不同場合向統計處管理層提出我們的看法,可惜,最後都不得要領。

(編按:作者是香港大學統計及精算學系講座教授,本文純屬作者個人意見,不代表其工作之機構和單位的意見。)

(系列之二)