分類預測只適合於確定或是高訊息-雜訊比的事件,例如:模式識別(文字語言識別、圖像識別等);機率預測則適合於隨機或是低訊息-雜訊比的事件,例如:氣象預報說:「明天降雨的機率是 30%」,至於是否要帶雨傘的決策則決定於你自己的功利(避免淋雨就能避免感冒、不舒服和不方便等)和損失(花錢買雨傘、雨傘佔去了行李箱的空間等)。例如:醫學診斷上預估某病人有肺癌的機率是 30%,那麼是否要做肺切除手術的決策是決定於該病人的功利(預防肺癌擴散或轉移、延長生命等)和損失(非癌症、手術併發症等)。
醫學診斷不適合用分類預測(例如:正確性、敏感性、特異性、接收者操作特徵曲線等),因為它們會隨著情境(例如:病人族群特色、疾病盛行率等)而改變。例如:假設某族群有某病的盛行率是 0.1%,那麼只要把每一個人都分類成「沒有病」,那麼該方法的正確率就會高達 99.9% 了,但是該方法無法適用於該病的盛行率是 10% 的族群;另外分類是硬把機率分為「有病,機率是 1.0」(例如:機率大於 0.5)和「沒病」(例如:機率小於 0.5,機率是 0),亦即硬把一個平滑的機率曲線變成一個二階(有、無)的階梯。可見分類是一個不適當的計分法,亦即操縱系統可以影響它的預測準確度。
「計分法」測量對類別變項機率預測的準確度,目的是最小化「損失函數」(衡量預測與實際的不一致帶來的損失)。分類正確的功利(utility)有兩種:把有病的分類成有病(敏感性)的功利、把沒病的分類成沒病(精確性)的功利。分類錯誤的損失有兩種:把有病的分類成沒病的損失、把沒病的分類成有病的損失。適當的計分法(例如:邏輯迴歸的 Brier 得分)無論在任何情境下都能最大化預期的報酬(功利減損失)。
http://www.fharrell.com/post/classification/
真陽性(TP,敏感性、召回率):在有病的人中該檢驗陽性的比率
假陽性(FP):在無病的人中該檢驗陽性的比率
真陰性(TN,特異性):在無病的人中該檢驗陰性的比率
假陰性(FN):在有病的人中該檢驗陰性的比率
正確性:(TP + TN)/(TP + TN + FP + FN)
陽性預測率(精確率):在檢驗陽性的人中有病的比率(TP/[TP+FP])
陰性預測率:在檢驗陰性的人中無病的比率(TN/[TN+FN])
精確率-召回率曲線:曲線下面積愈高愈好。橫軸是精確率,縱軸是召回率(TP),精確率愈高,召回率愈低。
接收者操作特徵(ROC)曲線:曲線下面積愈高愈好。橫軸是 FP,縱軸是 TP,FP 愈高,TP 愈高。ROC 曲線不適用於不平衡(例如:疾病的盛行率很低)的資料。
2018年2月11日 星期日
2018年2月3日 星期六
兔子洞裏的幾何學
1862 年的某個夏日,英國數學家查爾斯·道奇森(筆名路易斯·卡羅)及友人的女兒們(包括愛麗絲)泛舟於泰晤士河上,她們要求他說荒誕的故事,他就為她們說了「愛麗絲夢遊仙境」和「愛麗絲鏡中奇遇」。
終身未婚的道奇森喜歡兒童,他會請孩子們喝下午茶,送他們小玩具,跟他們一塊兒做遊戲。他有著「身體不勻稱」和行走不便、說話口吃的毛病。他「嚴厲、羞澀、謙遜、禮貌、謹慎、精確,沉溺於對數學的幻想中,在政治、邏輯以及社會上極端地保守,生活就像愛麗絲夢境中的廣場一般」,他可以為了插畫中愛麗絲的裙子上少了一道線條和插畫師理論到底。他的一名學生說他「永遠也猜不到那個上課超級無味、馬馬虎虎、毫無魅力的老師,竟然從他的腦子裡孵化出這樣充滿幻想、樂趣的神奇故事」。
「夢遊仙境」說當無聊的愛麗絲瞄到姐姐的書只有文字而沒有圖和對話的時候說:「一本沒有圖的書能有什麼用處呢?」,這時候她看見一隻掏出懷錶看時間的兔子慌張地說:「來不及了!來不及了!」,接著她就掉進了一個兔子洞裏,一路上她遇見了紙牌的紅國王和紅皇后以及許多怪事,在法庭上小白兔問國王:「我要從那裏開始?」「從開始處開始,到盡頭處停止」,最後皇后要砍她的頭,她卻說:「你們不過就是一堆紙牌!」
「鏡中奇遇」說:「故事開始在很久以前,夏日的艷陽在天空中放著熾熱的光,從遠處傳來一陣平凡的鐘響,伴著我們在水中泛舟,...愛麗絲穿越了鏡子,從田野的這頭到那頭有很多筆直的小溪流過,而且兩道小溪之間又被綠色的樹籬分成了好多塊,樹籬都很長,從這條小溪一直延伸到那條小溪,...就好像棋盤一樣,...矮胖子兄弟是不是只是愛麗絲想像的人物?愛麗絲是不是只是紅國王夢裡的想像?那麼究竟是她還是紅國王在作夢呢?... 一個七月的晚上,晚霞中有一條小船,夢一樣地向前飄蕩。三個孩子靠在一起,他們目光急切,耳朵樹立,簡單的故事聽得他們那樣歡喜,...生命不就是一場夢嗎?」
傳統數學和現實世界有緊密的連結,例如:一般人認為的「空間」是「歐幾里得空間」,它是事物發生的舞台,它是固定不變且是永恆、無限的,而三維空間中的每個點由三個坐標確定。但是這個連結被 19 世紀時數學翻天覆地的變化給打破了:抽象代數、射影幾何、非歐幾何(沒有歐幾里得第五公設《平行公設》的幾何學)、虛數等。道奇森(一個「固執、保守的數學家」)對此覺得難以接受,因此他利用這兩本童書加以諷刺,例如:愛麗絲喝了水身體變小時緊張地以為她會一直縮小到像蠟燭燒完般地消失不見,就像虛數一樣,而消失不見的咧嘴笑的柴郡貓是真實的嗎?
幾何學是研究圖形的學問(「人生幾何學幾何,學了幾何又幾何?」),它度量空間中圖形(點、線、面、體)的形狀、大小(長度、面積、體積)、角度、距離和移動(平移、旋轉、波動、對稱等)。傳統幾何學研究圖形和現實世界之間的關連(柏拉圖學院的大門上寫著:「不懂幾何學者勿入此門」),「愛麗絲夢遊記」和「愛麗絲鏡中奇遇」則描述圖形和抽象(虛擬)世界之間的關連。
幾何學的關鍵之一是不變的比率,在「夢遊仙境」中愛麗絲身體的大小和比率發生了許多次變化,毛毛蟲問愛麗絲:「妳是誰?」「我不知道!我已經不是我自己了!我在一天內體型變化了許多次,讓我覺得很困惑!」「並不會!只要妳能維持身體的比率不變!」接著她吞了一口蘑菇,脖子就變長了,最後她又吞了幾口另一邊的蘑菇,她的身體總算恢復正常的比率了
「射影幾何」研究在投影變換下不變的幾何性質,例如:透視圖的平行線可以在無窮遠點上交會、圖形在投影時可以逐漸變成另外的樣子,例如:圓、橢圓、拋物線、雙曲線等圓錐截面,「夢遊仙境」的咧嘴笑的柴郡貓變成一條曲線,「鏡中奇遇」中當愛麗絲把公爵夫人的嬰兒抱到外面時,嬰兒變成一隻圓滾滾的小豬。
兔子洞裏的幾何學是真實的嗎?「如果我不是真的,那我怎麼會哭呢?」(「愛麗絲鏡中奇遇」)
訂閱:
文章 (Atom)