機會率悲劇 1.2

Monty Hall problem 1.2

這段改編自 2010 年 4 月 3 日的對話。

.

「機會均等假設」如果胡亂使用,會得到很多荒唐的結論。例如,小明跟媽媽說:「在這次考試,我的成績有兩個可能。要麼我考到全班第一,要麼我考不到全班第一。所以,今次我有一半的機會,考到全班第一。」

媽媽回答:「荒謬!」

小明再解釋:「『考到全班第一』和『考不到全班第一』已經窮盡了,這次考試結果的所有可能。你不會想像到,有第三個情況出現。」

那樣,小明的媽媽,應該如何反駁他呢?

只有兩個可能的結果,並不代表各自的機會率是二分之一。除非題目假設,又或者有以往的實驗數據支持,例如小明在以往的考試中,平次每兩次中,就會有一次考第一;否則,你不能自己假設,機會率會平均分配於各個可能性。

而這個「故亂假設機會均等」的思考錯誤,往往形成塵世間很多悲劇,例如選錯配偶和選錯事業。「我加入這一行,要麼成功,要麼失敗。所以,我成功的機會有一半。」那即使不是顯意識的思考,大概也會是潛意識的想法。

這個錯誤來自,不必要地選擇無知。正當的做法是,先做功課,先做好資料搜集。以自己當時可以得到,最多和最準確的資訊,去評價自己,加入某一行時,成功和失敗的機會率,各佔多少。即使那個機會率不會十分詳細,例如「成功的機會是 57%」,你也至少要有個大概,知道成功的機會較大,還是失敗。如果成功的機會較大,是約略大多少呢?是不是大到,值得你投資未來五年的人生,去作嘗試呢?

雖然,那也不保證一定成功,但是至起碼,即使錯了,也可以問心無愧。而且,如果你是在做足功課的情況下失敗,你吸收到的知識經驗,將會是最豐富的。那將大大提高你,未來成功的機會率。

— Me@2012.11.19

.

.

2012.11.19 Monday (c) All rights reserved by ACHK

機會率悲劇 1.1

Monty Hall problem 1.1

這段改編自 2010 年 4 月 3 日的對話。

(安:「蒙提霍爾問題」(Monty Hall problem)十分有趣。有趣的地方在於,一方面,大部分人都會答錯;另一方面,即使知道了答案及其運算方法,大部分人都仍然接受不到,因為答案嚴重違反一般人的直覺。甚至,很多受過「機會率」正式訓練的人士,都誤墮這個「機會率陷阱」。

「蒙提霍爾問題」的劇情是,有關一個「開門抽獎遊戲」。遊戲的大局是,在一位遊戲參加者的面前,會有三扇門。其中一扇門的後面,有一輛名貴房車。另外兩扇間後面,各有一隻山羊。

首先,主持人會叫那位參賽者,選擇其中一扇門。然後,主持人會打開那一扇門。遊戲的規則是,如果門後的是名貴房車,參賽者就可以得到它。

「蒙提霍爾問題」的第一個假設是,三扇門「門後有房車」的機會均等。換句話說,無論參賽者選擇哪一扇門,中獎的機會,同是三分之一。

「蒙提霍爾問題」的第二個假設是,參賽者選了一扇門後,主持人在第一步,不會打開那扇門,反而,會先打開另外兩扇門的其中一扇。然後,大家會發現,開了的門後面,有一隻山羊。亦即是話,房車位於未開的兩扇門的其中一扇後面。這時,主持人會給予參賽者,一次重新選擇的機會。那位參賽者可以維持選擇,或者改為要另一扇門。

「蒙提霍爾問題」是,這個情況下,參賽者應否改變選擇?又或者說,參賽者如果改變選擇,可不可以提高他中獎的機會率呢?

This is a public domain image.

In search of a new car, the player picks a door, say 1. 
The game host then opens one of the other doors, say 3, 
to reveal a goat and offers to let the player pick door 2 instead of door 1.

— Wikipedia on Monty Hall problem

一般人的想法是,既然選兩扇門中的任何一個,機會都是二分之一,即使轉換選擇,也不會增加勝算。

但是,答案竟然不是那樣。原來,維持選擇的中獎機會,只有三分之一。改變選擇的中獎機會,卻有三分之二。)

這個結果震撼的地方在於,它違反人們一個根深柢固,但通常也錯的直覺。大部人也以為,各個可能結果的機會均等。如果一件事只有兩個可能的結果,每個結果的機會率,就一定是二分之一。這個「機會均等假設」大錯特錯。

— Me@2012.11.18

2012.11.18 Sunday (c) All rights reserved by ACHK

歸納筆記 2.2

這段改編自 2010 年 6 月 8 日的對話。

試想想,如果你有在臨考前背誦「魔記筆記」,又怎可能在考試時「臨場遺忘」,內裡記載的常用技巧呢?

你們可能會問:「又怎可能在半小時內,把『魔法筆記』的所有內容,都閱讀一次呢?」

你留意,你現在手上的「魔法筆記」,並不是「真身」,而只是第一個版本。如果你跟足「魔法筆記方法」的劇情,臨考試前「魔法筆記」,一定會很薄。「魔法筆記」的原意,是把課程內容的(例如)四百頁,歸納成二百頁,成為第一個版本。然後,再把那二百頁,歸納成一百頁,成為第二版,如此類推。臨考試前的「魔法筆記」,應該只有少於五十頁。

另外,保證準時的唯一方法,就是大大提早到達。考試當日,正常人也會十分緊張,會提早出門,以防有突發交通事故。如果行程順利,你會在早於開考前的一個小時,就到達試場。所以,可用於背誦筆記的時間,通常也不只半小時那麼少。 

— Me@2012.11.16

2012.11.16 Friday (c) All rights reserved by ACHK

歸納筆記 2.1

這段改編自 2010 年 6 月 8 日的對話。

這個方法,只作「娛樂」之用。考試時,就應該用剛才的速成方法,以節省時間。又或者,兩個方法也用,以作驗算。

(HYC:但是,這一題我只會想到正常的,慢一點的方法。)

那你又毋須要求,自己會發明到那個速成方法。你現在試試用一次,然後把它記載於「魔法筆記」之中,考試時就自然會記得,因為根據「魔法筆記」的設計,你除了在平日要背誦外,在臨考試前的半小時,還要高速瀏覽一次,提一提醒自己。

(CYW:但是,我一到考試臨場緊張時,很多時也會忘記,必須的技巧。有沒有方法可以記得呢?)

我不斷推介的「魔法筆記」方法,正正是要徹底解決這個問題。而這個方法的重點是,必須有系統地,長期反覆背誦,考試必須的知識和技巧。試想想,如果你有在臨考前背誦「魔記筆記」,又怎可能在考試時「臨場遺忘」,內裡記載的常用技巧呢?

你們可能會問:「又怎可能在半小時內,把『魔法筆記』的所有內容,都閱讀一次呢?」

— Me@2012.11.13

2012.11.14 Wednesday (c) All rights reserved by ACHK

至少兩個不同 1.2

這段改編自 2010 年 6 月 8 日的對話。

有三個方格,你要填上三個英文字母。

_ _ _

每一格都是由 {A, B, C, D, E, F, G, H, I, J} 十個字母中,抽其中一個出來。字母可以重複被抽中,例如,第一格是 A 的話,第二格都可能是 A。假設整個過程是隨機的,即是各個可能性的機會均等。那樣,「至少有兩個字母不同」的機會率是多少?

(HYC:如果不用你的速成方法,可以怎樣做?)

P(「三個之中,至少有兩個字母不同」)

= P(「三個也不同」或者「其中兩個相同,而餘下的一個不同」)

由於這兩種情況「互斥」,不可能同時發生,所以可以化作加數。

P(「三個之中,至少有兩個字母不同」)

= P(「三個也不同」)+ P(「其中兩個相同,而餘下的一個不同」)

= (1)(9/10)(8/10) + (1)(1/10)(9/10)(3_C_2)

(CYW:為什麼第二項會多了一個「3_C_2」?)

第二項的意思是,

P(「其中兩個相同,而餘下的一個不同」)

= P(「第一、二個相同,而第三個不同」) 乘以 「三選二」

因為「其中兩個相同」,可以有幾個可能,包括「頭兩個相同」、「尾兩個相同」或者「頭尾相同」。換句話說,三個之中選兩個相同,共有 3_C_2 種方法。「3_C_2」即是「三選二」,等如 3。

結論是

P(「三個之中,至少有兩個字母不同」)

= (1)(9/10)(8/10) + (1)(1/10)(9/10)(3_C_2)

= 0.99

這個方法,只作「娛樂」之用。考試時,就應該用剛才的速成方法,以節省時間。又或者,兩個方法也用,以作驗算。

— Me@2012.11.11

2012.11.11 Sunday (c) All rights reserved by ACHK

至少兩個不同

這段改編自 2010 年 6 月 8 日的對話。

有三個方格,你要填上三個英文字母。

_ _ _

每一格都是由 {A, B, C, D, E, F, G, H, I, J} 十個字母中,抽其中一個出來。字母可以重複被抽中,例如,第一格是 A 的話,第二格都可能是 A。假設整個過程是隨機的,即是各個可能性的機會均等。那樣,「至少有兩個字母不同」的機會率是多少?

(HYC:好像有很多個可能,例如:AAB、ABB、BBA 和 EFG 等等。)

你可以試試這樣想:「至少兩個不同」即是「不是全部相同」。

P(at least two are different)

= P(not all the same)

= 1 – P(all the same)

你先計「全部相同」的機會率,然後用「一」去減它就可以。 

— Me@2012.11.08

2012.11.08 Thursday (c) All rights reserved by ACHK

機會率應試 1.5

這段改編自 2010 年 6 月 8 日的對話。

(CYW:我思考機會率題目時,時常都會數漏了一些 cases(情況/事件的可能性)。那樣 … … 我不知如何問。)

不要緊,我大概估計到,你想問什麼。解決的方法是,你記錄下自己的錯誤,用以提醒將來的自己,不要再犯同一個錯誤。

(CYW:那我豈不是要記錄很多東西?)

無錯。你這個講法非常有見地。考試致勝之道是

always make new mistakes

(不斷犯新錯)

這兒有兩句。你看不看到有兩句?

第一句是「_always_ make new mistakes」。第二句是「always make _new_ mistakes」。要成功,一來要不斷不停地犯錯,二來要保證每個錯誤都是全新的。同一個錯誤,不可犯多過一次。留意,「全新」的意思是,不單是相對於自己來說,而且是相對於「全人類」來說。亦即是話,即使不是自己犯錯的運算錯誤,如果你已經見證過其他同學犯過,那對你來說,都是「舊錯誤」,不容再犯。

「為何那個同學,在考試時不會犯錯呢?」因為他在家裡大量做題目,把考試時人類所有可能犯的錯誤,都事先犯過一次,導致在考試時,對那些錯誤,都有免疫力。當然,他為了塑造一個「神人」的形象,通常也不會給你知道,家中溫習時的慘痛經歷。

情形就好像,「為什麼電視劇中的演員,說話十分暢順,從來沒有口吃的情況呢?」同一個場景,同一個「鏡頭」,同一句對白,電視台會不斷重複拍攝,直到「完成」為止。演員的說話暢順,只不過是電視台把所有「NG 鏡頭」都刪除罷了。

— Me@2012.11.02

2012.11.02 Friday (c) All rights reserved by ACHK

機會率應試 1.4

這段改編自 2010 年 6 月 8 日的對話。

「基礎類型」就好像是「積木方塊」;而「組合化身」就即是那堆「積木方塊」,所砌成的東西。「砌法」有很多,「積木」有很少。那如何令到自己,清晰看到那些「積木方塊」呢?

最理想是有理想的老師教你,直接給予你那些「積木方塊」。另外,你亦可以透過對比不同題目。例如,這題和那題的外表,雖然大大不同,但是,都同樣要用到「技巧甲」。那樣,「技巧甲」就是其中一塊「重要積木」。

我們之所以要有一雙眼,而不是一隻,是為了在任何時間,都可以在同一時刻,從同一個客觀環境中,接收到兩個稍為不同的主觀影像。從左右影像的差別,腦部可以判斷環境中,各個物件的深度,即是距離自己有多遠。兩隻眼看東西,才會有明顯的立體感。同理,透過對比同一個章節中的不同題目,你可以明確判斷,各個技巧的相對重要程度。亦即是話,哪些是核心?哪些是次要?哪些是技節?哪些是不相干?

你不用太擔心,因為那不算是額外的工作。我提議的「魔法筆記」系統,已經「內置」了「對比題目」的功能。如果你平日會做大量題目,而又習慣了每題收集重點的話,那些機會率題目的「基礎類型」,自然會盡收於你的「魔法筆記」之中。

— Me@2012.10.31

2012.10.31 Wednesday (c) All rights reserved by ACHK

機會率應試 1.3

這段改編自 2010 年 6 月 8 日的對話。

或者這樣,你試試不斷收集各種類型的機會率題目,於「魔法筆記」中。當你已經收集了四十類時,如果竟然再發現有第四十一類,你就應該退修這一科。

(CYW:退修這一科,豈不是會浪費了一年?)

浪費一年,總好過浪費兩年。

(HYC:Drop o左佢?!那樣,我會不夠科目升讀大學。)

那是最極端悲觀的情況,當然不易會發生。公開試中的機會率題目,大概不會有四十類那麼多吧。實情可能是有二十多類。如果只有二十多類,對年青人的頭腦來說,不會是困難,一定會記得到。

而且,我所講的「機會率題目類型」中的所謂「類型」,是指「基礎類型」。「基礎類型」即使不多,它們的組合可以千變萬化,可以有各式各樣的化身。換句話說,我要你收集的,是「基礎類型」,而不是它們的「組合化身」,除非是特別常見的「組合化身」。如果你發現往年的公開試中,機會率題目的類型,竟然有超過四十種的話,你大概是誤入歧途,不是真的在收集「基礎類型」。

— Me@2012.10.29

2012.10.29 Monday (c) All rights reserved by ACHK

機會率應試 1.2

這段改編自 2010 年 6 月 8 日的對話。

所以,你在平日溫習時,要盡量儲備多些案例,尤其是 past paper(歷屆試題)的案例。如果你在考試前,已經儲了二十種類型的機會率題目,而在考試時,竟然出現第二十一類的話,你不用太擔心,因為其他考生也會同樣驚慌失措。

然後,你要小心一點,真正的公開試歷屆試題,或者考試範圍,會不會有超多類型的機會率題目?

(CYW:我也不太清楚。)

或者這樣,你試試不斷收集各種類型的機會率題目,於「魔法筆記」中。當你已經收集了四十類時,如果竟然再發現有第四十一類,你就應該退修這一科。

— Me@2012.10.27

2012.10.27 Saturday (c) All rights reserved by ACHK

機會率應試 1.1

這段改編自 2010 年 6 月 8 日的對話。

(CYW:這類題目好像真的很難。如果考試遇到這些題目,應該怎麼辦?)

那要視乎你在考試前,即是平日溫習時,有否做過這類題目。做過的話,可以試一試。未做過的話,未必需要做,因為對於機會率題目來說,如果做一類從來未遇過的,通常都會錯。

不信的話,你試想一想一些已經明白的題目類型,回憶第一次見到它們時的感受。其實是一頭霧水的。莫講話要運算到正確答案,有時連題目問什麼,也不是十分清楚。例如,剛才我們討論這一題時,是亂打亂撞,互相提點下完成的。考試時時間倉促,大概不能那麼奢侈。

那你如何知道一題,是否以前遇過類型的題目呢?

你可以嘗試做一做,做到多少得多少,做不到就算。

— Me@2012.10.25

2012.10.25 Thursday (c) All rights reserved by ACHK

淘汰賽 2.2

這段改編自 2010 年 6 月 8 日的對話。

假設有一個乒乓球淘汰賽,共有八人參加。換句話說,有四場初賽,淘汰四個參賽者。餘下的四個進入準決賽。初賽時的比賽對象,由抽籤隨機決定,即是各個可能性的機會均等。

另外,每人在每場勝利的機會相同,都是二分之一。

問題是,其中兩個參賽者 A 和 B,在第二輪比賽,即是準決賽,相遇的機會率有多少?

             (_)  (_)                決賽  

     (_)  (_)        (_)  (_)       準決賽

(_)(_)  (_)(_)  (_)(_)  (_)(_)   初賽

第一對  第二對  第三對  第四對

P 方法:

S 方法:

我們先考慮所有可能排列的總數,放於分母;然後,再考慮可以接受的排列有多少,放於分子。

(_)
(   )

準決賽總共有 8 個可能的參加者, 4 個位置,所以共有 8P4 個可能的排列。(8P4)即是 「8 排 4」,等於 1680。

(__)
(8P4)

而眾多可能的排列中,我們接受的是 A B 對賽的情況,總共有 4 類。

(A)(B)  (_)(_)

(B)(A)  (_)(_)

(_)(_)  (A)(B)

(_)(_)  (B)(A)

所以,分子先有一個(4)的因素。

  (4)
___
(8P4)

另外,餘下有 6 個可能的參加者,兩個位置,所以共有 6P2 個可能的排列。所以,分子再有一個(6P2)。

(4)(6P2)
____
  (8P4)

結論是, A 和 B 在準決賽相遇的機會是 1/14。

(4)(30)
____
 (1680)

= 1/14

答案和 P 方法的結果相同,即是正確的機會很大。

— Me@2012.10.22

致讀者:如發現本文有思考漏洞,或者運算錯誤,請以電郵告知本人。謝謝!

— Me@2012.10.17

2012.10.22 Monday (c) All rights reserved by ACHK

淘汰賽 2.1

這段改編自 2010 年 6 月 8 日的對話。

假設有一個乒乓球淘汰賽,共有八人參加。換句話說,有四場初賽,淘汰四個參賽者。餘下的四個進入準決賽。初賽時的比賽對象,由抽籤隨機決定,即是各個可能性的機會均等。

另外,每人在每場勝利的機會相同,都是二分之一。

問題是,其中兩個參賽者 A 和 B,在第二輪比賽,即是準決賽,相遇的機會率有多少?

             (_)  (_)                決賽   

     (_)  (_)        (_)  (_)       準決賽

(_)(_)  (_)(_)  (_)(_)  (_)(_)   初賽

第一對  第二對  第三對  第四對

P 方法:

在準決賽相遇的先決劇情是

1. A B 的初賽比賽位置,可以令他們晉級後相遇;

2. A B 在初賽各自勝利。

先考慮第一點,有關 A B 的初賽位置。我們假想先放 A、B 的其中一個,例如 A,在適當的位置。然後,再放 B 於適當的位置。

(_)(_)

只要把兩個機會率相乘,就代表 A 和 B 都在適當位置的機會。

首先,第一個人放在哪個位置都可以,所以第一個人的位置一定會適當,機會率是一(1)。亦即是話,對於第一個人來說,有 8 個可能的位置,而 8 個都可以接受,所以機會率是八分之八(8/8)。

(1)(_)

然後,對於第二個人來說,有 7 個可能的位置,而只有 2 個可以接受。亦即是話,如果 A 已經選定比賽位置,而 B 又要和 A 於準決賽相遇的話, B 就只有兩個選擇。例如,如果 A 在第一對位置出現, B 就一定要在第二對位置參賽。所以, B 在適當位置的機會率是七分之二(2/7)。

(1)(2/7)

另外, A B 在初賽各自要勝利。所以,要乘多兩個二分之一。

(1)(2/7)(1/2)(1/2)

結論是, A 和 B 在準決賽相遇的機會是 1/14。

(1)(2/7)(1/2)(1/2)= (1/14)

S 方法:

— Me@2012.10.21

致讀者:如發現本文有思考漏洞,或者運算錯誤,請以電郵告知本人。謝謝!

— Me@2012.10.17

2012.10.21 Sunday (c) All rights reserved by ACHK

淘汰賽 1.2

這段改編自 2010 年 6 月 8 日的對話。

假設有一個乒乓球淘汰賽,共有八人參加。換句話說,有四場初賽,淘汰四個參賽者。餘下的四個進入準決賽。初賽時的比賽對象,由抽籤隨機決定,即是各個可能性的機會均等。問題是,其中兩個參賽者 A 和 B,在初賽相遇的機會率有多少?

P 方法:

S 方法:

初賽共有 8 格參賽位置,即是 4 對。

(_)(_)  (_)(_)  (_)(_)  (_)(_)

我們先考慮所有可能排列的總數,放於分母;然後,再考慮可以接受的排列有多少,放於分子。

(_)
(   )

總共有 8 個人 8 個位置,所以共有 8! 個可能的排列。

(_)
(8!)

而我們想要的結果是, A、B 在初賽相遇。我們接受的可能性包括,

A、B 在第一對參賽位置、

(A)(B)  (_)(_)  (_)(_)  (_)(_)

A、B 在第二對參賽位置、

(_)(_)  (A)(B)  (_)(_)  (_)(_)

A、B 在第三對參賽位置、

(_)(_)  (_)(_)  (A)(B)  (_)(_)

或者 A、B 在第四對參賽位置。

(_)(_)  (_)(_)  (_)(_)  (A)(B)

所以,分子有一個(4)的因素。

(4)
__
(8!)

然後,考慮到即使 A、B 的內部對調位置,結果都可以接受:

(B)(A)  (_)(_)  (_)(_)  (_)(_)

(_)(_)  (B)(A)  (_)(_)  (_)(_)

(_)(_)  (_)(_)  (B)(A)  (_)(_)

(_)(_)  (_)(_)  (_)(_)  (B)(A)

分子再有一個(2)。

(4)(2)
___
  (8!)

餘下有 6 個位置給 6 個人選擇。所以,分子還有一個(6!)。

(4)(2)(6!)
_____
    (8!)

結論是, A 和 B 在初賽相遇的機會是 1/7。

(4)(2)(6!)
_____
    (8!)

= (1/7)

答案和 P 方法的結果相同,即是正確的機會很大。

— Me@2012.10.18

致讀者:如發現本文有思考漏洞,或者運算錯誤,請以電郵告知本人。謝謝!

— Me@2012.10.18

2012.10.19 Friday (c) All rights reserved by ACHK

淘汰賽 1.1

這段改編自 2010 年 6 月 8 日的對話。

假設有一個乒乓球淘汰賽,共有八人參加。換句話說,有四場初賽,淘汰四個參賽者。餘下的四個進入準決賽。初賽時的比賽對象,由抽籤隨機決定,即是各個可能性的機會均等。問題是,其中兩個參賽者 A 和 B,在初賽相遇的機會率有多少?

P 方法:

初賽共有 8 格參賽位置,即是 4 對。

(_)(_)  (_)(_)  (_)(_)  (_)(_)

我們假想先放 A、B 的其中一個,例如 A,在適當的位置。然後,再放 B 於適當的位置。

(_)(_)

只要把兩個機會率相乘,就代表 A 和 B 都在適當位置的機會。

首先,第一個人放在哪個位置都可以,所以第一個人的位置一定會適當,機會率是一(1)。亦即是話,對於第一個人來說,有 8 個可能的位置,而 8 個都可以接受,所以機會率是八分之八(8/8)。

(1)(_)

然後,對於第二個人來說,有 7 個可能的位置,而只有 1 個可以接受。亦即是話,如果 A 已經選定比賽位置,而 B 又要和 A 於初賽相遇的話, B 就只有一個選擇,所以 B 在適當位置的機會率是七分之一(1/7)。

(1)(1/7)

結論是, A 和 B 在初賽相遇的機會是 1/7。

(1)(1/7)= (1/7)

S 方法:

— Me@2012.10.17

致讀者:如發現本文有思考漏洞,或者運算錯誤,請以電郵告知本人。謝謝!

— Me@2012.10.17

2012.10.17 Wednesday (c) All rights reserved by ACHK

Independent vs Mutually Exclusive

這段改編自 2010 年 6 月 8 日的對話。

大部分 probability(機會率)的初學者,都會混淆「independent events」(獨立事件)和「mutually exclusive events」(互斥事件)。只要記住以下兩個重點,就不會再混淆兩者。

第一個重點是,「兩件事」和「一件事」之別。「Independent」通常是指,兩件事件互不相干。「Mutually exclusive」通常是指,同一件事件的兩個可能結果,不會同時發生。例如,骰子甲和骰子乙是 independent 的話,即是甲乙的結果不會影響對方。而骰子甲不會在同一次,同時「擲到 2」和「擲到 3」。所以,「甲 2」和「甲 3」是 mutually exclusive 事件。

第二個重點是,「沒有關係」和「有關係」之別。「Independent」是指,兩個結果互不相干。「Mutually exclusive」是指,兩個結果十分相干;它們是敵人關係。

— Me@2012.10.13

2012.10.13 Saturday (c) All rights reserved by ACHK

Sample variance

In statistics, Bessel’s correction, named after Friedrich Bessel, is the use of n – 1 instead of n in the formula for the sample variance and sample standard deviation, where n is the number of observations in a sample: it corrects the bias in the estimation of the population variance, and some (but not all) of the bias in the estimation of the population standard deviation.

That is, when estimating the population variance and standard deviation from a sample when the population mean is unknown, the sample variance is a biased estimator of the population variance, and systematically underestimates it. Multiplying the standard sample variance by n/(n – 1) (equivalently, using 1/(n – 1) instead of 1/n in the estimator’s formula) corrects for this, and gives an unbiased estimator of the population variance.

— Wikipedia on Bessel’s correction

The two estimators only differ slightly as can be seen, and for larger values of the sample size n the difference is negligible. While the first one may be seen as the variance of the sample considered as a population, the second one is the unbiased estimator of the population variance, meaning that its expected value E[s^2] is equal to the true variance of the sampled random variable; the use of the term n – 1 is called Bessel’s correction.

— Wikipedia on Sample variance

2012.05.16 Wednesday ACHK

Forensic Accounting

Benford’s law, also called the first-digit law, states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way. According to this law, the first digit is 1 about 30% of the time, and larger digits occur as the leading digit with lower and lower frequency, to the point where 9 as a first digit occurs less than 5% of the time.

Mathematical statement

… this is the distribution expected if the logarithms of the numbers (but not the numbers themselves) are uniformly and randomly distributed. For example, a one-digit number x starts with the digit 1 if 1 <= x < 2, and starts with the digit 9 if 9 <= x < 10. Therefore, x starts with the digit 1 if log 1 <= log x < log 2, or starts with 9 if log 9 <= log x < log 10. The interval [log 1, log 2] is much wider than the interval [log 9, log 10] (0.30 and 0.05 respectively); therefore if log x is uniformly and randomly distributed, it is much more likely to fall into the wider interval than the narrower interval, i.e. more likely to start with 1 than with 9.

Explanations

Outcomes of exponential growth processes

The precise form of Benford’s law can be explained if one assumes that the logarithms of the numbers are uniformly distributed; for instance that a number is just as likely to be between 100 and 1000 (logarithm between 2 and 3) as it is between 10,000 and 100,000 (logarithm between 4 and 5). For many sets of numbers, especially sets that grow exponentially such as incomes and stock prices, this is a reasonable assumption.

Applications

In 1972, Hal Varian suggested that the law could be used to detect possible fraud in lists of socio-economic data submitted in support of public planning decisions. Based on the plausible assumption that people who make up figures tend to distribute their digits fairly uniformly, a simple comparison of first-digit frequency distribution from the data with the expected distribution according to Benford’s law ought to show up any anomalous results.

Following this idea, Mark Nigrini showed that Benford’s law could be used in forensic accounting and auditing as an indicator of accounting and expenses fraud. In the United States, evidence based on Benford’s law is legally admissible in criminal cases at the federal, state, and local levels.

Limitations

Benford’s law can only be applied to data that are distributed across multiple orders of magnitude.

— Wikipedia on Benford’s law

2012.05.15 Tuesday ACHK

機會率反反思

這段改編自 2010 年 6 月 2 日的對話。

你這道機會率題目做錯了。我建議你不要自己追究,自己的想法錯在哪裡,因為,有時一些錯誤的想法,很難可以自己指出錯在何處,除非你的造詣,已經達到大師的級數。

例如,你試一試指出,以下的論證,有何不妥之處:

擁有一支筆 好過 沒有任何東西;

沒有任何東西 好過 擁有一位好太太。

結論:

擁有一支筆 好過 擁有一位好太太。

如果想追究想法錯在哪裡,你可以直接問我。我的機會率精神狀態,間中會達到大師的境界。

— Me@2012.04.19

2012.04.19 Thursday (c) All rights reserved by ACHK

機會率分母

這段改編自 2010 年 6 月 2 日的對話。

機會率是一個分數。分子代表期望的結果;分母代表已知的東西,又名「樣本空間」。

即使期望的事件相同,如果已知的東西不同,都會導致機會率的數值有分別。例如,假設有一粒骰子是公平的,即是各個結果出現的機會率均等。如果要擲到「3」,機會率是多少呢?

期望的結果只有一個,就是擲到「3」,所以機會率分子是 1。樣本空間,就是所有可能結果的集合,即是{1, 2, 3, 4, 5, 6}。樣本空間,顯示總共有 6 個可能的結果,所以機會率分母是 6。答案是,擲到「3」的機會率是 1/6。

但是,如果你已知結果一定是單數,樣本空間就會收窄成{1, 3, 5}。因為現在只有 3 個可能的結果,機會率分母應該改為 3。結論是,擲到「3」的機會率是 1/3。

你現在用「集合論」中的「文氏圖」(Venn diagram),來分析一題機會率題目,理論上是合理的。但是,實際上,你要十分小心,因為「文氏圖」所直接表達的,只有期望的結果,即是「機會率分子」。稍一不留神,你會忘記了,還要考慮「樣本空間」,即是「機會率分母」。

— Me@2012.04.17

2012.04.17 Tuesday (c) All rights reserved by ACHK