顯示具有 statistics 標籤的文章。 顯示所有文章
顯示具有 statistics 標籤的文章。 顯示所有文章

2019年2月17日 星期日

醫學診斷不是分類,而是預測(機率)

分類預測只適合於確定或是高訊息-雜訊比的事件,例如:模式識別(文字語言識別、圖像識別等);機率預測則適合於隨機或是低訊息-雜訊比的事件,例如:氣象預報說:「明天降雨的機率是 30%」,至於是否要帶雨傘的決策則決定於你自己的功利(避免淋雨就能避免感冒、不舒服和不方便等)和損失(花錢買雨傘、雨傘佔去了行李箱的空間等)。例如:醫學診斷上預估某病人有肺癌的機率是 30%,那麼是否要做肺切除手術的決策是決定於該病人的功利(預防肺癌擴散或轉移、延長生命等)和損失(非癌症、手術併發症等)。

醫學診斷不適合用分類預測(例如:正確性、敏感性、特異性、接收者操作特徵曲線等),因為它們會隨著情境(例如:病人族群特色、疾病盛行率等)而改變。例如:假設某族群有某病的盛行率是 0.1%,那麼只要把每一個人都分類成「沒有病」,那麼該方法的正確率就會高達 99.9% 了,但是該方法無法適用於該病的盛行率是 10% 的族群;另外分類是硬把機率分為「有病,機率是 1.0」(例如:機率大於 0.5)和「沒病」(例如:機率小於 0.5,機率是 0),亦即硬把一個平滑的機率曲線變成一個二階(有、無)的階梯。可見分類是一個不適當的計分法,亦即操縱系統可以影響它的預測準確度。

「計分法」測量對類別變項機率預測的準確度,目的是最小化「損失函數」(衡量預測與實際的不一致帶來的損失)。分類正確的功利(utility)有兩種:把有病的分類成有病(敏感性)的功利、把沒病的分類成沒病(精確性)的功利。分類錯誤的損失有兩種:把有病的分類成沒病的損失、把沒病的分類成有病的損失。適當的計分法(例如:邏輯迴歸的 Brier 得分)無論在任何情境下都能最大化預期的報酬(功利減損失)。

真陽性(TP,敏感性、召回率):在有病的人中該檢驗陽性的比率
假陽性(FP):在無病的人中該檢驗陽性的比率
真陰性(TN,特異性):在無病的人中該檢驗陰性的比率
假陰性(FN):在有病的人中該檢驗陰性的比率
正確性:(TP + TN)/(TP + TN + FP + FN)
陽性預測率(精確率):在檢驗陽性的人中有病的比率(TP/[TP+FP])
陰性預測率:在檢驗陰性的人中無病的比率(TN/[TN+FN])
精確率-召回率曲線:曲線下面積愈高愈好。橫軸是精確率,縱軸是召回率(TP),精確率愈高,召回率愈低。

接收者操作特徵(ROC)曲線:曲線下面積愈高愈好。橫軸是 FP,縱軸是 TP,FP 愈高,TP 愈高。ROC 曲線不適用於不平衡(例如:疾病的盛行率很低)的資料。

或然率與個人化醫學

醫生面對的是個人,教科書上對於疾病的描述卻是針對一群人。

例如:教科書上説某一種疾病的死亡率是50%,那麼當醫生遇見100位病人的時候,就會有50位病人死亡。但是對於個人來説,當他得到這一種疾病的時候,他的結局只有一種:活著或死亡,而不是一半活著、一半死亡,這種奇怪的現像時常令年輕的醫生困惑。

對於一群人(宏觀)來説,他們的預後是統計上的或然率,或然率雖然是不確定性的一個度量,我們卻能用精確的數字來描述。反之對於一個人(微觀)來説,他的預後卻似乎是確定的,但是弔詭的是我們完全無法預測這個看似確定的結局。

這種矛盾的現象是因為我們活在一個不確定的世界裡,在這個世界裡一切都受到或然率的主宰,因此現在的醫學強調「個人化醫學」,而不是「群體(傳統)醫學」,前者根據每一位病人不同的特色(例如年齡、性別、體重、病史、理學檢查的結果、基因體等)設計適合那位病人的治療,後者則根據教科書或臨床指引的建議治療,這些建議理論上對於多數的「一般(平均的)病人」是有效的,但是大部分的病人都不是「平均的病人」,例如假設 100 位男生的平均身高是 170 公分,那麼大部分男生的身高都不會是剛好 170 公分的,這就是「傳統醫學」的基本缺點。

「個人化醫學」就像每一個人穿不一樣的衣服,因此每一件衣服都是既合身(有效)又美麗(沒有副作用)的,「群體醫學」卻像是每一個人都穿同一件「標準身材」的衣服,因此每一件衣服既不合身(效果只能用或然率描述)又醜陋(有副作用)的。

「上帝的歸上帝,凱撒的歸凱撒」,或然率的歸上帝,治療的歸個人。

「給力」與「不給力」

在統計中,第一型錯誤是在虛無假設為真時你卻拒絕它,一般我們會把犯第一型錯誤的機率(α)定為 0.05。P 值是在虛無假設為真時出現比該資料更極端值的機率,但不是犯第一型錯誤的機率,也不是虛無假設為真的機率(因為我們已經事先假設虛無假設為真了)。

第二型錯誤是在虛無假設為假時你卻接受它,一般我們會把犯第二型錯誤的機率(β)定為 0.2,1-β (0.8)稱為「統計檢定力」。統計檢定力決定於:樣本大小(愈多則愈高)、效果量(愈大則愈高)、測量的正確性(愈正確則愈高)、使用的統計方法。大部分的臨床研究樣本數都是少的,因此具有低的統計檢定力(統計檢定力平均只有0.2)。一般人以為低的統計檢定力比較容易犯第二型錯誤(亦即增加假陰性率),其實它另外有三個壞處:

第一是增加資料的變異性:亦即減少資料的精準度。

第二是高估效果量:樣本數少會減少點估計(效果量)的正確度,其中只有效果量被高估的才能達到 P < 0.05 (因為資料的變異性增加),此稱為「贏家的詛咒」(在競標中,出價最高者得標,因此贏家的得標價經常會超過這個物件的真實價值)。例如在「全基因組關聯分析」(數百萬個基因多型性)的研究中,我們只會注意有意義的結果(稱為「確認偏誤」),亦即只有挑選最大的差異。

第三是增加「假發現率」(在 P < 0.05 的結果中犯錯的機率,亦即假陽性率)。例如:有 1000 個研究,如果虛無假設為假的先驗機率為 0.5,那麼有 500 個研究的虛無假設為真,如果我們把 α 定為 0.05,那麼其中有 475 個研究結果是正確的,但是有 25 個研究結果(5%)誤認為假。另外有 500 個研究的虛無假設為假,如果統計檢定力是 0.8,那麼其中有  400 個研究結果是正確的,但是有 100 個研究結果(20%)誤認為真,因此在 425 (400  + 25)個有陽性發現(亦即拒絕虛無假設)的結果中,有 25 個(5.9%)是錯誤的,亦即假發現率是5.9%。如果統計檢定力是 0.2,那麼其中有  100 個研究結果是正確的,但是有 400 個研究結果(80%)誤認為真,因此在 125 (100  + 25)個有陽性發現(亦即拒絕虛無假設)的結果中,有 25 個(20%)是錯誤的,亦即假發現率是 20%。

因此我們做事情要「給力(夠力、帶勁、酷)」,做研究也要給力。

2018年3月21日 星期三

雜訊與訊號

假設有一個人在  10 秒以內跑完 100 公尺,你會覺得很驚訝,假設他背著一個很重的背包,你會覺得更驚訝,因為你認為如果沒有背包,他應該會跑得更快。假設有ㄧ個充滿雜訊的研究發現 P < 0.05,你是否會認為假設沒有雜訊,他的研究應該會更有意義?

所有研究的目標都是要找出隱藏在雜訊中的訊號,測量誤差是一種很重要的雜訊。所有的測量都有測量誤差,包括系統誤差(又稱「偏誤」,亦即測量方法本身的錯誤,每一次的測量都會有可以預測的同樣錯誤)和隨機誤差(無法預測的變異性)。

大部分的臨床研究都是用小樣本,小樣本及測量誤差都會增加變異性(或標準誤差),而差異值至少要大於二個標準誤差才會有 P < 0.05,因此小樣本的研究如果在許多個假設試驗中偶然發現了幾個 P < 0.05 (多重試驗),那麼這一些發現的差異值大部分是被高估的,這一種現象稱為「贏者詛咒」。

因此有高度雜訊或是有測量誤差的 P 值是不可靠的。

2018年2月11日 星期日

醫學診斷不是分類,而是機率

分類預測只適合於確定或是高訊息-雜訊比的事件,例如:模式識別(文字語言識別、圖像識別等);機率預測則適合於隨機或是低訊息-雜訊比的事件,例如:氣象預報說:「明天降雨的機率是 30%」,至於是否要帶雨傘的決策則決定於你自己的功利(避免淋雨就能避免感冒、不舒服和不方便等)和損失(花錢買雨傘、雨傘佔去了行李箱的空間等)。例如:醫學診斷上預估某病人有肺癌的機率是 30%,那麼是否要做肺切除手術的決策是決定於該病人的功利(預防肺癌擴散或轉移、延長生命等)和損失(非癌症、手術併發症等)。

醫學診斷不適合用分類預測(例如:正確性、敏感性、特異性、接收者操作特徵曲線等),因為它們會隨著情境(例如:病人族群特色、疾病盛行率等)而改變。例如:假設某族群有某病的盛行率是 0.1%,那麼只要把每一個人都分類成「沒有病」,那麼該方法的正確率就會高達 99.9% 了,但是該方法無法適用於該病的盛行率是 10% 的族群;另外分類是硬把機率分為「有病,機率是 1.0」(例如:機率大於 0.5)和「沒病」(例如:機率小於 0.5,機率是 0),亦即硬把一個平滑的機率曲線變成一個二階(有、無)的階梯。可見分類是一個不適當的計分法,亦即操縱系統可以影響它的預測準確度。

「計分法」測量對類別變項機率預測的準確度,目的是最小化「損失函數」(衡量預測與實際的不一致帶來的損失)。分類正確的功利(utility)有兩種:把有病的分類成有病(敏感性)的功利、把沒病的分類成沒病(精確性)的功利。分類錯誤的損失有兩種:把有病的分類成沒病的損失、把沒病的分類成有病的損失。適當的計分法(例如:邏輯迴歸的 Brier 得分)無論在任何情境下都能最大化預期的報酬(功利減損失)。
http://www.fharrell.com/post/classification/

真陽性(TP,敏感性、召回率):在有病的人中該檢驗陽性的比率
假陽性(FP):在無病的人中該檢驗陽性的比率
真陰性(TN,特異性):在無病的人中該檢驗陰性的比率
假陰性(FN):在有病的人中該檢驗陰性的比率
正確性:(TP + TN)/(TP + TN + FP + FN)
陽性預測率(精確率):在檢驗陽性的人中有病的比率(TP/[TP+FP])
陰性預測率:在檢驗陰性的人中無病的比率(TN/[TN+FN])
精確率-召回率曲線:曲線下面積愈高愈好。橫軸是精確率,縱軸是召回率(TP),精確率愈高,召回率愈低。
接收者操作特徵(ROC)曲線:曲線下面積愈高愈好。橫軸是 FP,縱軸是 TP,FP 愈高,TP 愈高。ROC 曲線不適用於不平衡(例如:疾病的盛行率很低)的資料。

2017年11月30日 星期四

占星術與德州神槍手

許多人都相信西洋的占星術,認為她能預測自己的運勢。

依據出生日期決定的占星術黃道十二宮是白羊座(守護星是火星)、金牛座(守護星是金星)、雙子座(守護星是水星)、巨蟹座(守護星是月亮)、獅子座(守護星是太陽) 、處女座(守護星是水星)、天秤座 (守護星是金星)、天蠍座(守護星是火星及冥王星)、人馬座(守護星是木星)、摩羯座(守護星是 土星)、水瓶座(守護星是土星與天王星)、雙魚座(守護星是木星及海王星)。

1988 年發表的 ISIS-2 (Second International Study of Infarct Survival) 臨床試驗顯示在病人發生疑似急性心肌梗塞之後,併用阿斯匹靈及 streptokinase 可以明顯降低再梗塞、中風及死亡的危險,但是許多人都對阿斯匹靈是否只有在某些病人(例如:年紀、性別、種族等)有效很感興趣,於是他們做了一個很有趣的分析,亦即他們把 17187 人依據占星術的星座分成 12 個次群,結果發現阿斯匹靈對天秤座、雙子座的人是無效的,但是阿斯匹靈卻能神奇地降低摩羯座的人的再梗塞、中風及死亡的危險至ㄧ半以下。

由此可見事後分析中的次群分析是不可靠的,因為事後分析就像是「德州神槍手謬誤」一樣:有個德州人朝著自己的穀倉射了許多子彈,在彈孔最密集的地方畫一個圈,然後自稱是神槍手。

你願意把命運交給占星術與德州神槍手嗎?

2017年11月18日 星期六

邏輯回歸的假設

模型設定正確(無缺失變項、無多餘變項)
獨立性
線性

無多元共變性
無異常值
每一個獨立變項需要有 10 個資料

(不需要:常態分佈、均齊變異性)

模型:解釋 vs. 預測

研究的性質:假設驅動性 vs. 探索驅動性
有理論  vs. 無理論
研究的目的:「我們能做什麼事? 」 vs. 「會發生什麼事?」
統計 vs. 資料科學、機器學習、人工智慧

回溯性(過去與現在 )vs. 前瞻性(未來)
因果關係  vs. 關係
無偏差 vs. 低誤差(有時候我們必須要犧牲偏差來換取低變異性與低誤差。誤差 = 偏差 + 變異性)
實驗性資料(例如:臨床試驗)  vs. 觀察性資料(例如:病例-對照研究、世代研究、二次分析、資料庫研究)
小樣本  vs. 大樣本

模型的選擇: 理論 vs. 預測力
模型的評估: 信度(與模型假設的適合度《殘差常態分佈、線性、殘差均齊變異性、獨立性》、模型設定正確《無缺失變項、無多餘變項》、無多元共變性、無異常值、自變數無測量誤差、固定的自變數)與效度(與理論的適合度)  vs. 模型對未見過資料的預測力
變數少  vs. 變數多
變數的選擇:理論 vs. 演算法
變數的評估:信賴區間及 p 值 vs. 預測力

「為什麼一隻公兔和一隻母兔放在一起會生下小兔子?」 vs.「如果我們把一隻公兔和一隻母兔放在一起,那麼不久之後就會有一群小兔子」

能解釋的因子不一定能預測,能預測的因子不一定能解釋。

2016年8月15日 星期一

「品茶的女士」

大樂透頭獎的中獎機率是 1398 萬分之ㄧ,但是針對某ㄧ個人而言,如果中獎,那麼他的機率是 100%,如果不中獎,那麼他的機率是 0%。因此機率並不是針對個人,而是針對母族群(例如:全體台灣人);也不是針對ㄧ次的抽樣結果,而是針對長期無限多次的抽樣觀察下估計母族群某事件發生的頻率。

大部分的醫學研究者都認為 P< 0.05 是有意義的差別,但是很少有人知道 P 值真正的意義,因為 P< 0.05 現在已經被當成ㄧ個迷信和儀式了,這就像下午茶是英國人日常生活中ㄧ個很重要的儀式ㄧ樣。

例如: 電影「大夢想家(拯救班克斯先生)」描述華特迪士尼要把住在英國倫敦的作家崔佛斯女士的小說改編成電影「歡樂滿人間」的故事。有一次她的專用司機好意的用紙杯請她喝下午茶,她立刻就把它倒掉了,因為她認為用紙杯喝茶是對這ㄧ個神聖儀式的褻瀆。

有幾個關於 P 值常見的迷思是: P 值愈小愈有意義(效果量愈大,才愈有意義),P 值代表效果量(Cohen's d 與相關係數的 r 值才是效果量),P 值代表「虛無假設」發生的機率(P 值是假設「虛無假設」成立時,在無限多次的同樣狀況的觀察中,比目前觀察到的更極端的事件發生的機率),P< 0.05 代表有臨床意義(只代表有统計意義),P< 0.05 是有意義的而 P = 0.051 是沒有意義的(這個世界並不是黑白的,而 0.05 只是ㄧ個武斷的數字),P > 0.05 代表各組的平均數相等(「虛無假設」只能被拒絕,而不能被接受,因為我們已經事先假設它成立了)。

其中最常見的迷思是: P 值是代表本次抽樣觀察犯第一型錯誤(「虛無假設」是成立的,但是我們卻拒絕了它,亦即「對立假設」的假陽性率)的機率。事實上 P 值本身是ㄧ個隨機數,它代表長期的頻率,但是對於本次觀察並無任何結論。犯第一型錯誤的機率也與以下有關:「虛無假設」成立的先驗機率、該统計方法的檢定力(「對立假設」的真陽性率)等。有趣的是當 P = 0.05 時,犯第一型錯誤的機率ㄧ般至少是 20%。

科學研究是觀察樣本中的事件,但是樣本的觀察值是變動的隨機數,會有抽樣誤差。因此大部分科學研究的目標並非事件或觀察值本身,而是利用(假設)無限多次(同樣個數的)抽樣的統計量(例如:平均值)的抽樣分佈(而非單次抽樣的樣本分佈)來估計母族群的參數(母數:ㄧ個固定但是未知的數字,例如:台灣所有 12 歲男童的平均身高),此稱為推論統計。

其中的 P 值是英國的統計學家費雪在 1920 年發明的,其目的是用抽樣樣本的「統計數(例如:本班 12 歲男童的平均身高 )」來推論母群體中具有某種分佈(例如:常態分佈)的參數,但是要注意的是只有隨機抽樣的樣本才具有代表性而且推論也才會正確,可惜的是大部分的臨床研究都是利用最無代表性的方便抽樣。「對立假設」與假設試驗則是他的死對頭皮爾森的兒子發明的,其目的是用 P< 0.05 來判定樣本的统計數有意義,亦即「對立假設」可能是成立的,但是費雪自始至終都很厭惡皮爾森和他的兒子所發明的這ㄧ種用途。歷史的弔詭是現代的统計學竟然把他們兩個人的發明放在同ㄧ個籃子裏面。

「品茶的女士」這一本書描述有ㄧ次在ㄧ個劍橋大學午後的聚會裏,ㄧ位女士說她能分辨牛奶是在茶葉之前或之後加的。費雪便設計了ㄧ個隨機分派的實驗,他請那位女士嚐了依隨機順序給的(牛奶在茶葉之前或之後加的)各四杯的茶,結果她八杯全部都答對了。假設她無法分辨(亦即「虛無假設」成立),那麼她猜對的機率是 1/70 (P = 0.014),於是費雪便拒絕了「虛無假設」。請注意費雪並沒有用ㄧ個事先設定的 0.05 當成ㄧ個判斷標準,而是在綜合了所有的資訊以後用ㄧ個事後的主觀判斷(類似「貝氏定理」的後驗或然率)。

春秋時代,魯國的禮制衰廢,但是仍然保存著祭祀羊的儀式。有ㄧ次子貢問孔子:「沒有禮制,只有祭祀羊,徒然浪費了ㄧ隻羊!」,孔子不以為然的說:「爾愛其羊,我愛其禮!」。英國的湯瑪斯·亨利·赫胥黎(「達爾文的鬥牛犬」)說:「新的真理往往在剛開始時被當成異端邪說,最終卻被當成迷信」。

有ㄧ次有人問禪宗六祖惠能說:「是否只有打坐才能成佛?」,六祖說:「道由心悟,豈在坐也?」:P 值這ㄧ個儀式在發明大約ㄧ百年後仍然保留著,但是我們應該要知道 P 值真正的意義,而不要死抱著 P< 0.05 這ㄧ個迷信。

2014年9月11日 星期四

相反流行病學

中國人是世界上最早使用負數的民族,西方人卻ㄧ直到16至17世紀時才勉強接受了負數的觀念,因為歐洲務實的牧羊人在數羊的時侯是不會數到「負ㄧ頭羊」的。

宇宙中有物質也有反物質,例如正子發射斷層攝影(PET)中的正子是電子的反物質(發現者是1936年諾貝爾物理學獎得主卡爾·安德森,Carl Anderson),當正子與電子碰撞時就會互相煙滅。
許多人在聽到哥倫布向西班牙國王提出向西航行到東方的大膽構想時,都嘲笑他以為他瘋了; 人類剛發現地球是圓的時侯,許多人也吃驚的發現地球另ㄧ面的人是倒立著生活的,卻不會掉落到外太空去。

臨床研究中也有ㄧ些奇怪的相反現象(「相反流行病學」),例如高血壓、高血脂、肥胖是ㄧ般人心血管疾病以及死亡的危險因素,但是在洗腎病人中高血壓、高血脂、肥胖的人卻比較不會有心血管疾病以及死亡的併發症, 這種現象可能與「選擇性偏差」有關,因為慢性腎臟病病人有許多原發性疾病(高血壓、糖尿病等)與合併症(心血管疾病、動脈硬化等),有不少的慢性腎臟病病人在洗腎前就已經無法洗腎了,因此洗腎病人是經過篩選後的存活者,高血壓、高血脂、肥胖可能代表這些病人營養充足,而營養不良則是洗腎病人重要的死因之ㄧ。

臨床研究分為實驗性研究(例如: 隨機分派對照臨床試驗)與觀察性研究(例如: 病例-對照研究、世代研究等),前者能証明因果相關也少有偏差或混淆因素,後者卻只能証明相關而且常有偏差或混淆因素,相關有可能是純相關也有可能是因果相關,因果相關有可能是A造成B,也有可能是 B 造成A(倒果為因)。大部分的流行病學是觀察性研究,「選擇性偏差」則是觀察性研究中常見的偏差或混淆因素。

下次當你遇見「愛麗絲夢遊記」裏的瘋帽客正在慶祝「非生日」時請不要太驚訝。

2014年7月11日 星期五

攻擊稻草人

名字代表ㄧ個人,但是電影「神隱少女」中的湯婆婆沒收了少女荻野千尋的名字以後少女還是存在; 國旗代表國家,但是國旗被燒掉了以後國家還是存在。

高血糖是糖尿病的代表,因此使用降血糖藥物是糖尿病最主要的治療方式,而血糖也是治療糖尿病最主要的指標,但是最近醫學界發現只有控制血糖並不能預防心血管疾病,而且ㄧ旦病人已經有慢性併發症(大、小血管病變),那麼嚴格控制血糖反而可能會有副作用(例如低血糖 、心血管疾病等)。

血壓高是高血壓的代表,因此使用降血壓藥物是高血壓最主要的治療方式,而血壓也是治療高血壓最主要的指標,但是最近發現只有控制血壓並不能預防心血管疾病(必須要同時控制血糖、血脂、肥胖等)。

可見治療糖尿病的目標不是血糖,而是病人的健康; 治療高血壓的目標不是血壓,而是病人的健康,因此現在美國藥物食品管理局審核糖尿病藥物時不再只看它的降血糖效果,而審核高血壓藥物時也不再只看它的降血壓效果了。

邏輯謬誤裏有ㄧ種「攻擊稻草人謬誤」,血壓高和高血糖就是稻草人,稻草人不會痛、不會哭也不會投降,我們千萬不能再攻擊稻草人了。

2013年6月6日 星期四

正確性與變異性

中國人認為中庸(中道)是美德,西方人也認為做人要公正,例如西方的法院前面都有一個蒙著眼睛的正義女神手中拿著一個天平,可見不偏不倚(正確性)是評斷所有事物的普世標準。

研究時我們會對一個資料建立模型,其目的是正確説明現有的資料或預測新的資料,其中預測的正確性是該模型是否能被廣泛運用的一個重要條件。

或許有人認為正確性(效度)是唯一的條件,但是一個正確但不精確的預測是不可靠(沒有信度)的,亦即具有低的再現性:例如有一家公司製造了一千個鐘,其平均時間與標準一樣,但是其 95% 信賴區間卻是快或慢一小時,當你買了一個鐘之後,你的時間可能是在鐘面顯示的時間加減一小時裏面,可見一個群體(統計上)的正確性並不能保證單一個案的正確性。

相反的一個精確但不正確的模型則是無效的,亦即無法達到當初建模的目的:例如你的目的地是台北市,但是巴士卻把你載到了基隆市。

模型的評估有兩面(正確性與精確性),説明現有資料的正確性愈高,預測新資料的能力愈低(變異性愈高)。事實上凡事都有兩面:瓊妮米雪兒﹝Joni Mitchell)的歌「從兩面看」説:「像天使的秀髮,像用冰淇淋在空中堆成的城堡,還有羽毛般的峽谷,…我曾經是那樣看雲的,但現在我只看到烏雲遮住了陽光」。

天平是一個重要的交易工具,因此正義女神手中的天平意味著凡事都要平衡也都有代價:正確性的代價是變異性。

2013年6月4日 星期二

後見之明

很多人喜歡算命,但是現代科學告訴我們每一個人都是由原子與基本粒子構成的,而且基本粒子的行為是隨機的,因此未來也是隨機的。

連最智慧的人都無法預見未來,例如達賴喇嘛説:「我不知道明天早上是否還有太陽」,波爾(Niels Bohr)也説:「預測是困難的,尤其是預測未來」。

波克斯(George Box)説:「所有的模型都是錯的,但是有一些是有用的」。弔詭的是模型説明現有資料的能力愈強,預測新資料的能力就愈弱,這種現象稱為「過度訓練或過度適配」:説明現有資料並不是預測。

先見之明(預測)是困難的,但是後見之明卻是簡單的,我們時常在某件事發生以後,聽到一些人大聲的説:「我早就知道了!」,這種情形又稱為「馬後炮」或「事後諸葛」。

我們如果不小心就會落入這一種思考的邏輯謬誤,這是一種事後分析的謬誤,例如有名的「德州神槍手謬誤(先射箭,再畫靶)」説有人在穀倉牆上射了幾槍後,在彈孔最密集的地方畫了一個靶心。又如有人要出海捕黑鮪魚(事先設定的目的),結果捕到一堆海豚,如果他宣稱説他本來就是要捕海豚的,這就是一種事後分析。
事先分析又稱為「證實性研究」,目的是證實一個事先設定的假設;事後分析又稱為「(沒有假設的)探索性研究」,目的是從一堆現有的資料中找到叢集或模式,然後設定新的假設以備在新的資料中證明,這一種研究方式在現代的巨量資料中有很大的用途。

馬拉車,不是車拉馬;先見之明是諸葛亮,後見之明是臭皮匠。

誤差有兩種

胡適的「差不多先生」提醒中國人要在乎正確性和精確性,因為正確性和精確性似乎是當時西方哲學和科學的基礎。

十九世紀時的數學和科學有了突飛猛進的發展,例如牛頓的萬有引力數學公式可以精確的預估所有物體(包括天體)的運動和位置,甚至當時的人們樂觀的認為有一天測量的誤差將會消失。

但是當測量的儀器愈來愈精準時,人們卻發現誤差仍然頑固的不肯消失,這是因為所有的統計估計都會有誤差(一般用平均平方誤差來表示):誤差等於隨機誤差加系統性誤差。

隨機誤差是抽樣分配的變異性所造成的,亦即測量與真值間因為隨機(無法預測也無法避免)的因素而造成的差別,但是無限多次測量的期望值(平均值)卻會等於真值;系統性誤差又稱為偏差(樣本分佈的期望值與母數分佈的真值間的差別)。

「絲絲有兩種」,「差不多先生」也有兩種:我們應該要避免系統性誤差,但是隨機誤差是所有事物的本質,不管我們喜歡或不喜歡,它會永遠跟著我們。

2013年6月3日 星期一

科學與偏見

費雪(Ronald Fisher)是一個偉大的統計學家與遺傳學家,他發明了變異數分析與定量遺傳統計學。

費雪雖然很聰明但是脾氣卻很暴躁,他與發明數學統計和相關係數的皮爾生(Karl Pearson)是倫敦大學學院的同事與不共戴天的仇人,但是命運讓他繼皮爾生之後變成統計學系主任。

費雪主張用 P value (虛無假設成立時觀察到比現有數據更極端的或然率)來評估一個現有(已經觀察到的、事後的)數據的證據力 (例如  P < 0.05),但是皮爾生卻主張用統計假設來評估,亦即當 P value 小於事先設定的統計意義值時,對立假設就是成立的:想不到命運竟讓這兩個仇人的方法被放在同一個籃子裏面。

費雪是一個老煙槍,他發明了隨機分派的臨床試驗,他也拒絕承認吸煙會致癌的觀察性研究結果,他認為遺傳是吸煙與肺癌的干擾因子。

隨機分派吸煙的臨床試驗是不可能進行的,因此費雪「吸煙不會致癌」的觀念是科學或是偏見將變成一個歷史懸案。

2013年5月29日 星期三

臨床終點與替代終點

當我們照顧一個糖尿病病人的時候,我們的對象不是「糖尿病」,也不是「路人甲、路人乙」,而是「那個糖尿病病人」;我們的目標不是「控制血糖」,而是「避免併發症、延長生命」,事實上「控制血糖」只是要達成目標的許多方法之一。

糖尿病併發症(例如:中風、神經病變、視網膜病變、心血管疾病、洗腎與住院等)與死亡是「臨床終點」,血糖則是「替代終點」,其他的「替代終點」有血壓、血脂、心血管功能、腎功能與蛋白尿等。

由於「臨床終點」需要長期的觀察,因此大部分藥物的臨床試驗都是經由「替代終點」的結果來核准上市,但是歷史上充滿了許多上市後的藥因為副作用而被下市的例子,例如 rosiglitazone 雖然能降血糖及改善胰島素阻抗性,卻會增加心血管疾病,因此「替代終點」並不能有效的預測「臨床終點」。

「替代終點」只是要達成目標的方法之一,但是方法本身並不是目的(「臨床終點」)。愛因斯坦説:「人類的主要問題是擁有完美的方法,卻沒有正確的目的」、「如果有一小時的時間解決問題,我會用 55 分鐘思考問題的定義,然後用 5 分鐘思考答案」;美國統計學家約翰.杜奇 (John Tukey)説:「對正確的問題提出接近的解答,其價值遠大於對錯誤的問題提出準確的解答」。

思考的邏輯謬誤中有一種「稻草人謬誤」是指攻擊一個假想的論點(血糖),但是真正想攻擊的對象(臨床疾病)並未受到攻擊。攻擊稻草人只有短暫的成就感,但是這就像是「阿 Q」式的精神勝利法,想不到(無辜的)血糖竟然變成被阿 Q 們攻擊的稻草人。