高樓低廈,人潮起伏,
名爭利逐,千萬家悲歡離合。

閑雲偶過,新月初現,
燈耀海城,天地間留我孤獨。

舊史再提,故書重讀,
冷眼閑眺,關山未變寂寞!

念人老江湖,心碎家國,
百年瞬息,得失滄海一粟!

徐訏《新年偶感》

2012年8月7日星期二

馮榮錦﹕統計處問題——167萬



19991月,香港終審法院就港人內地子女的居留權作出裁決,按《基本法》規定,所有香港永久居民在內地所生的子女,都享有居留權。之後,統計處進行抽樣調查,採用「抽菲林筒」方法,同年4月公布結果:香港人在內地所生子女的第一代和第二代合資格人數總和為167萬,引致全港嘩然!!(為方便討論,以下分析都是基於當年4月公布的相關數字。)

「抽菲林筒」辦法兩大問題

「抽菲林筒」辦法建基於一個較複雜的隨機回應模型(randomized response model),常應用於尋找敏感性問題的答案(如當年事件:你在內地有多少個非婚生子女?)。日常工作中,統計處很少很少使用這模型,原因是他們極少需要問敏感性問題,據了解,上述事件是統計處本身唯一一次採用該模型做調查,很多統計師在念本科時可能也沒有聽過這模型,更說不上於工作上運用這模型了。這樣,便會帶出以下問題:由於前文所說,統計處內博士人數太少,加上長期漠視研究,以致在該調查中產生了不少漏洞!

「抽菲林筒」方法簡述如下:統計處訪問員到住戶調查,他會帶備一個袋子,內有10個菲林筒,4個「有蓋」,6個「無蓋」。受訪者須從袋中抽選一個菲林筒,之後,訪問員會向被訪者展示一張提示卡,而卡上則印有「的士」和「子女」兩條問題,選中「有蓋」的受訪者,根據提示卡的指示,要回答「的士」問題:(a)你過去7天有沒有乘搭過的士?若有,有多少次;反之,「無蓋」者要回答「子女」問題,即是(b)你在內地有沒有非婚生子女?若有,有多少個?該兩個問題的答案形式相同,即是甲(=沒有)、乙(=1)、丙(=2)或丁(=3或以上)。由於訪問員和旁人(包括丈夫或太太)不知道受訪者選了「有蓋」還是「無蓋」,所以他們不知道受訪者答的是「的士」還是「子女」問題。

這個方法有至少有兩大問題:(1)受訪者會說謊,(2)統計處選錯道具。這兩個問題本人會逐一討論。

說謊和選錯道具

統計處於當年7月公布的第22號專題報告書(下稱報告書)第108頁說「確保所得結果仍為無偏差的估計(unbiased estimates)」,對不起,下列分析清楚顯示,你們的估算不是無偏差的,而是反過來有偏差的估計(biased estimates)。

第一個問題——受訪者會說謊:

要達到如統計處所說的「無偏差估計」,要假設所有受訪者(約2萬個住戶之16歲或以上人士)都沒有說謊,這肯定是強不少人所難!原因可見於以下例子。

受訪者梁先生,他有「包二奶」和有兩個非婚生子女,他每天都乘的士上、下班,家人都知道。訪問員到他家裏訪問,他從袋子選中的菲林筒,根據提示卡的指示,要他回答「子女」問題,你想他當時會怎樣想?相信他一定不會如實的答丙(=2)吧,因為如果答丙,坐在旁邊、冰雪聰明、秀外慧中的梁太太一定知道梁先生「包二奶」和有兩名非婚生子女(即是「丙」)。當然,更加冰雪聰明秀外的梁先生一定不會答「丙」,因為他別無選擇,就這樣,梁先生「迫於無奈」「講大話」和「呃人」(說謊和騙人)。假如,當時梁先生(和其他類似的受訪者)面不改容而說了謊,改用了「的士」題目的答案「丁」(=3或以上)來答「子女」的問題,而統計處所得結果是有偏差的,是正偏差(positive bias),高估了非婚生子女數目。要留意的是,當時統計處的設計一定會引致偏差,原因是有些受訪者會因「被迫」而一定會說謊。這裏還帶出另一個更嚴重的問題——統計處調查前和調查後,有否察覺這是一條很差的問題——統計處「逼」受訪者說謊。

統計處說「確保所得結果仍為無偏差的估計」,如果統計處不是「講大話」和「呃人」(我不〔敢〕相信他們這樣做),就是「too simple, sometimes naive」。

第二個問題亦是和設計錯誤有關:選錯「道具」——菲林筒。

統計處選取6個「無蓋」4個「有蓋」(內有玄機——六四?)菲林筒,即是「無蓋」的比率W0.6,由於非婚生子女總數的估計決定於真正P之數值——即選取「無蓋」的機會率,由於兩種菲林筒,「有蓋」和「無蓋」外形不同,有些受訪者可能偏愛選「有蓋」,亦有些人偏愛選「無蓋」,可是,最大問題是:我們不知道他們有否偏愛,和偏愛有多大?舉個例子說明偏愛的影響:假設受訪者選「無蓋」的偏愛較低,只有五成人選「無蓋」,那麼真正的P就是0.5。讀者現在可以清楚知道P是不等於W的,統計處各位處長,請問你們用什麼理據去支持你們用P=W=0.6?如果真正P0.5,改變一點,估算的偏差(bias)可能會是10%以上,不是如統計處所說的「確保……為無偏差的估計」。可是,統計處可能完全不知道有偏差的存在,更莫論是正偏差還是負偏差,及更嚴重的——偏差有多大?

是否有更好的方法?當然有!相信很多讀者於大學念統計時都會遇到類似下列的一道問題:有一布袋,袋中有10個波(球),外形完全一樣,當中6個黑色,4個白色,問抽中黑色波的機會P是多少?誰都知道,答案是P=0.6,和統計處的方法不一樣,本人給出的估算是無偏差的。統計處會說:「由於顏色是摸不覑的,所以受訪者要把波拿出來看,旁人亦會看到,因此會帶來偏差」,那麼,用波子不就行了嗎!如果這小小波子的顏色你太太也能察覺,看來你「包二奶」的事早已被太太發覺了,史刁拔!或者,統計處還會說:「盲人怎麼辦?」其實,本港盲人數目不超過1%,容許本人反問一句:「處長先生,你說怎麼辦?」

有偏差的估計

從上述兩大問題可以見到,它們都涉及有偏差的估計(biased estimate),是一個比較複雜的問題。所以,我們教學生時,都一定會教他們用無偏估計(unbiased estimate),例如用樣本平均值(sample mean,是一個無偏估計)去構造95% confidence interval。標準誤差(standard error)可以用擴大樣本量去減少它,例如樣本量增加3倍,標準誤差減少一半。可是,上述的偏差(bias)是不會隨樣本量增加而有所減少的,讀過抽樣調查(sample survey)一科的都應該知道!

前統計處長何永鬉先生當年說:「167萬的估值之誤差率為5%10%」,他說的誤差率是標準誤差率,一般情是會用2倍(正確的是1.96倍)的標準誤差率,但是,處長的估值是完全沒有考慮可能是更嚴重的偏差率,如果上述指出的兩個問題的偏差每個都是10%的正偏差,那麼,167萬之數可能是被高估30%40%(或以上)也說不定!可是,最大問題是:統計處可能完全不知道有偏差——他們不知道不知道——更不知道其估算的偏差有多大!

統計處用「抽菲林筒」方法,計算出內地非婚生子女的數目為52萬,而相關總數為167萬。科學鑑證(Forensic Science)有一句說話,大意為「死人會說話(dead body can tell)」,意即死人身上可提供很多線索(例如旺陽先生的dead body can tell他應是被自殺的),這裏,我們能否「dead figures can tell」?

dead figures can tell」?

上述52萬子女,絕大絕大部分是香港男士內地「二奶」所生的子女,原因讀者想想便已知曉——香港女士在內地「包二公」,然後自己在內地生下子女,之後拋「公」棄子女自己一人回港的機會,實在是微乎其微!假設這52萬都是香港16歲或以上男士所生的子女,當年該等男士約260萬,即是平均每位男士有0.2個非婚生子女,平均而言:當年的何處長和他的5位副或助理男性處長都有0.2個(加起來已超過1個),當然,我也當之無愧的有0.2個!上述數字顯示,平均每5個香港男士就有1個內地非婚生子女,你相信嗎?如果真的假不了,處長先生,請建議香港「生產力」促進局找我們的男士到各國做親善大使吧!另外,經常被提及的數字167萬,是當年全港約660萬人口的四分之一,你們相信嗎?我相不相信?「Dead figures52萬和167萬)can tell」!

同年6月,人大就居港權爭議釋法,開人大釋法先河。

最後,本人有以下問題——1673個數目字,有否導致香港市民和中央政府處於對立面?有否陷兩地政府於不義?不要小覷3個數目字的威力呀!

後記:

1999年年初,前統計處長和他的下屬曾經造訪本系(香港大學統計及精算學系),談論有關調查的問題,我和我的同事都有提出意見,本人相信這些意見大部分都並沒有被採納。或許有人會問,為何當年本人沒有寫這篇文章?原因如下:統計處19994月公布調查結果,沒有細節,所以寫不了,7月報告書出爐,列出細節,本人沒有細看,因為人大已於6月釋法。

(編按:作者是香港大學統計及精算學系講座教授,本文純屬作者個人意見,不代表其工作之機構和單位的意見。)

【系列之三】