2012年8月8日星期三

馮榮錦﹕統計處問題——人口推算



人口推算是統計處其中一項重要的工作,人口推算對未來社會規劃例如醫療、運輸、新市鎮發展、教育和房屋等影響重大。本人找到自1991年起對未來總和生育率(total fertility rate)推算的7份統計處報告,附表列出其中3份,即是截至199119992001年的總和生育率歷史數據以及根據當年最新數據而推算的未來生育率(看附表的第二、三、四列),分別命名為「1991-based」,「1999-based」和「2001-based」生育率推算,表裏最後一列列出19962011的實際生育率,以作比較。

在探討這問題之前,我們要知道什麼是總和生育率:簡而言之,這生育率可定義為一名女性一生中平均生育多少個活產嬰兒,由於男性不能生育,加上部分人士自小去世,所以聯合國認為,總和生育率要不少於2.1replacement fertility rate,更替生育率)才能令到人口健康地更替,不至於慢慢的萎縮(假設沒有進出移民)。

統計處的推算準確性如何

現在,讓我們看看統計處的推算準確性如何。

我們先看附表第2列「1991-based」數據,該列顯示:1971年的總和生育率是3.4610年後,1981年的是1.93,已經低於更替生育率2.1,之後每年下降(除了1988年數字上升,該年是龍年效應),直至1991年的1.21。統計處「1991-based」的估算是什麼?他們估算1991之後會回升,1996年至1.3010年後2001年至1.461.46是一個什麼數字,是1985年的數字!如果上世紀90年代初你看見統計處這個有關10年後(2001年)的估算,你會相信我們會回到1985年嗎——我們回不去了!

那麼,當年有關19962011年估算的準確性如何?讀者請拿附表最後一列作比較,便知道錯誤有多大了!

剛才是90年代初的估算,90年代末的又如何?附表第3列「1999-based」列出相關數字,該等數字清楚看到上世紀最後兩年(19981999年)總和生育率更跌破1以下,統計處「1999-based」的人口推算:5年後為1.0430年後1.60,一直上升,按此趨勢,說不定約50年後的2047年會升破2.0,回到上世紀70年代末的情——我們真的回不去了!

高估了未來的總和生育率

上述兩個例子是「1991-based」和「1999-based」,都高估了未來的總和生育率。我沒有1991年以前的推算(時代久遠,網上也找不到),例如「1981-based」和「1986-based」,不過,我十分相信,統計處同樣地高估了未來的生育率,而也非常可能是大幅高估的,與90年代的高估數字相比,不遑多讓!

現在,讓我們看看「1991-based」(及以前)的推算對規劃有什麼影響,先看「1991-based」推算的總和生育率比實際數字高多少,例如,1996年的推算為1.30,實數為1.19(看附表第2列和第5列),推算比實數高9.2%。由於生育率推算是以5年計,中間年度的推算我們按比例算出,根據上述的計算方法,本人也算出其他估算高出的數字,發現於19962011年間16個數字,所有推算生育率都比實際的為高,有5個更高出50%以上,平均高出40%。粗略估計,16年間總和,統計處推算的活產嬰兒之數目比實際的數字可高出數十萬!

上世紀八九十年代為未來規劃,政府投放了很多資源,建設新市鎮(天水圍、馬鞍山、將軍澳、東涌等)、鐵路網(西鐵線、東涌線等)、新校舍(千禧校舍)等等,而這些投放都極其依賴對未來人口的推算,當中涉及的總和生育率更需要一個準確的估計,非常不幸,統計處交出一張又一張很差的成績單,估算的跟實際數字相差十分大。

交出一張又一張很差的成績單

還記得10年前香港流行兩個新名詞——殺校和千禧校舍,前者更是令不少小學老師聞風喪膽和很多家長午夜夢魘的兩個字。你看當年教育局長亞瑟王李國章的快、狠、準就知道當時有些學校已被變成「殺戮戰場」。據了解,當年「被殺」的小學有數十間,原因簡單不過——學生不足!差不多同時間,有很多「千禧校舍」先後建成,原因也簡單不過——根據統計處總和生育率的推算,應該加建小學。更有甚者,當下這邊有小學被殺,當下那邊有小學被建!更有甚者,有「千禧小學」被建完幾年後被殺!

當年,為了「救校」,有不少小學教師要到街上派傳單,還要派至深圳那邊!昨天,小學被殺,更多的是,小學老師「被殺」;今天,中學和中學老師「被殺」;明天,大學(統計系?)和大學老師「被殺」?希望不會吧?

「千禧校舍」建造費動輒1億元!還有,老師受了多年專業訓練,春風化雨,盡心盡力,最終仍難逃「被殺」的命運,這樣他們怎會不抱怨氣?社會怎會有和諧!?

誰之過?不要小看幾個出錯的估算數字所帶來之嚴重後果!由於政府很多規劃都和總和生育率的估算息息相關,粗略估計,這幾個錯誤數字所引致的損失為數十億元或以百億元計,而對不少中、小學老師、學生和家長的影響,更非以金錢所能計算!

上世紀90年代統計處有和本系(香港大學統計及精算學系)同事商討總和生育率的問題,我和我的同事覺得統計處的估算太高,我們當時的理據是:(1)從過去的數據顯示(看附表第2列),由70年代的3.46,到80年的約2.0,一直下降至90年代初的1.21.3左右,看不出總和生育率會有較大回升的可能(我們當中有時間序列〔Time Series〕的專家,他也認為不大可能),(2)從已發展城市(developed cities)的總和生育率來看,他們都是處於低位而不怎樣回升的。之後,統計處有否採納我們的意見,答案已經寫在牆上!

統計處有否「承認」香港的總和生育率處於(很)低位和不怎樣會回升的呢?有——可惜是20年後,上世紀80年代之後20年。

附表第4列列出「2001-based」的總和生育率之推算,2006年是1.042011年至2031年統計處都選取1.12,一個很低的數字,讀者請看看統計處兩年前「1999-based」的估算(附表第3列),兩年前他們還認為該生育率是會由2004年的1.04回升至2029年的1.60,兩年前用1.60,兩年後用1.12,從上世紀80年代起,統計處20年守舊不變,兩年後要面對現實而大變,狠狠的自打嘴巴!

最後,我不忍要問──難道你們對自己一點要求也沒有?

提議?

有何改善方法?如果統計處管理層願意承認本人之幾篇文章所提出的一連串問題,這樣他們已經改善了一半!至於另一半可怎麼辦,既然他們承認了上一半,如果他們願意的話,應該有辦法找出下一步的改善方法!在這裏,我不會作任何建議,除了——加開助理統計師(assistant statistician)新的一個職位!

鳴謝:本人非常感謝關志威博士和鍾玉嘉博士的幫忙和寶貴意見,令致這幾篇文章能夠順利完成。當然,文中如有任何錯誤都是本人的,與他們無關。

後記:這幾篇文章是本人所有文章中最難寫的,原因是篇中人物大部分我都認識。原先估計只寫兩篇,初稿完成後,打進電腦,才發現要用4篇篇幅才足夠。其實我去年已打算寫這些文章,寫了一半,最後擱筆——內心矛盾,忠義兩難呀!適逢統計處早前公布2011年堅尼系數,引致不少批評,我再作選擇,選擇前者——忠於自己,忠於自己內心,或者隨便瞎說的:忠於社會。我再次提筆,希望這第二次提筆能夠帶來正面的影響。最後,誠如去年有關港大818事件我在本報寫過——我沒有仇人。另外,我前文不是說過統計處內博士人數太少和不鼓勵做研究,這些都是我這系列所說的問題之主要根源。如果本人沒有念博士學位和沒有做研究的訓練,我是絕不能寫出這一系列的文章,尤其是上一篇有關統計處於167萬估算中所犯的兩大嚴重錯誤。

(編按:作者是香港大學統計及精算學系講座教授,本文純屬作者個人意見,不代表其工作之機構和單位的意見。)

(系列之四.完)