杏林下的沉思: 「品茶的女士」

大樂透頭獎的中獎機率是 1398 萬分之ㄧ，但是針對某ㄧ個人而言，如果中獎，那麼他的機率是 100%，如果不中獎，那麼他的機率是 0%。因此機率並不是針對個人，而是針對母族群(例如：全體台灣人)；也不是針對ㄧ次的抽樣結果，而是針對長期無限多次的抽樣觀察下估計母族群某事件發生的頻率。

大部分的醫學研究者都認為 P< 0.05 是有意義的差別，但是很少有人知道 P 值真正的意義，因為 P< 0.05 現在已經被當成ㄧ個迷信和儀式了，這就像下午茶是英國人日常生活中ㄧ個很重要的儀式ㄧ樣。

例如：電影「大夢想家(拯救班克斯先生)」描述華特迪士尼要把住在英國倫敦的作家崔佛斯女士的小說改編成電影「歡樂滿人間」的故事。有一次她的專用司機好意的用紙杯請她喝下午茶，她立刻就把它倒掉了，因為她認為用紙杯喝茶是對這ㄧ個神聖儀式的褻瀆。

有幾個關於 P 值常見的迷思是： P 值愈小愈有意義(效果量愈大，才愈有意義)，P 值代表效果量(Cohen's d 與相關係數的 r 值才是效果量)，P 值代表「虛無假設」發生的機率(P 值是假設「虛無假設」成立時，在無限多次的同樣狀況的觀察中，比目前觀察到的更極端的事件發生的機率)，P< 0.05 代表有臨床意義(只代表有统計意義)，P< 0.05 是有意義的而 P = 0.051 是沒有意義的(這個世界並不是黑白的，而 0.05 只是ㄧ個武斷的數字)，P > 0.05 代表各組的平均數相等(「虛無假設」只能被拒絕，而不能被接受，因為我們已經事先假設它成立了)。

其中最常見的迷思是： P 值是代表本次抽樣觀察犯第一型錯誤(「虛無假設」是成立的，但是我們卻拒絕了它，亦即「對立假設」的假陽性率)的機率。事實上 P 值本身是ㄧ個隨機數，它代表長期的頻率，但是對於本次觀察並無任何結論。犯第一型錯誤的機率也與以下有關：「虛無假設」成立的先驗機率、該统計方法的檢定力(「對立假設」的真陽性率)等。有趣的是當 P = 0.05 時，犯第一型錯誤的機率ㄧ般至少是 20%。

科學研究是觀察樣本中的事件，但是樣本的觀察值是變動的隨機數，會有抽樣誤差。因此大部分科學研究的目標並非事件或觀察值本身，而是利用(假設)無限多次(同樣個數的)抽樣的統計量(例如：平均值)的抽樣分佈(而非單次抽樣的樣本分佈)來估計母族群的參數(母數：ㄧ個固定但是未知的數字，例如：台灣所有 12 歲男童的平均身高)，此稱為推論統計。

其中的 P 值是英國的統計學家費雪在 1920 年發明的，其目的是用抽樣樣本的「統計數(例如：本班 12 歲男童的平均身高 )」來推論母群體中具有某種分佈(例如：常態分佈)的參數，但是要注意的是只有隨機抽樣的樣本才具有代表性而且推論也才會正確，可惜的是大部分的臨床研究都是利用最無代表性的方便抽樣。「對立假設」與假設試驗則是他的死對頭皮爾森的兒子發明的，其目的是用 P< 0.05 來判定樣本的统計數有意義，亦即「對立假設」可能是成立的，但是費雪自始至終都很厭惡皮爾森和他的兒子所發明的這ㄧ種用途。歷史的弔詭是現代的统計學竟然把他們兩個人的發明放在同ㄧ個籃子裏面。

「品茶的女士」這一本書描述有ㄧ次在ㄧ個劍橋大學午後的聚會裏，ㄧ位女士說她能分辨牛奶是在茶葉之前或之後加的。費雪便設計了ㄧ個隨機分派的實驗，他請那位女士嚐了依隨機順序給的(牛奶在茶葉之前或之後加的)各四杯的茶，結果她八杯全部都答對了。假設她無法分辨(亦即「虛無假設」成立)，那麼她猜對的機率是 1/70 (P = 0.014)，於是費雪便拒絕了「虛無假設」。請注意費雪並沒有用ㄧ個事先設定的 0.05 當成ㄧ個判斷標準，而是在綜合了所有的資訊以後用ㄧ個事後的主觀判斷(類似「貝氏定理」的後驗或然率)。

春秋時代，魯國的禮制衰廢，但是仍然保存著祭祀羊的儀式。有ㄧ次子貢問孔子：「沒有禮制，只有祭祀羊，徒然浪費了ㄧ隻羊！」，孔子不以為然的說：「爾愛其羊，我愛其禮！」。英國的湯瑪斯·亨利·赫胥黎(「達爾文的鬥牛犬」)說：「新的真理往往在剛開始時被當成異端邪說，最終卻被當成迷信」。

有ㄧ次有人問禪宗六祖惠能說：「是否只有打坐才能成佛？」，六祖說：「道由心悟，豈在坐也？」：P 值這ㄧ個儀式在發明大約ㄧ百年後仍然保留著，但是我們應該要知道 P 值真正的意義，而不要死抱著 P< 0.05 這ㄧ個迷信。

杏林下的沉思

2016年8月15日星期一

「品茶的女士」

沒有留言:

張貼留言

2016年8月15日 星期一

「品茶的女士」

沒有留言:

張貼留言

2016年8月15日星期一