본문 바로가기
뻥카와 함께하는 통계학

뻥카와 함께하는 통계학 - 이론분포

by Gothesis 2020. 10. 31.
반응형

학문은 이론을 기준으로 형성되어 있다.

이론이란게 무엇이냐.

이 이런 말고...

현상을 설명하는 방법이다. 

얘도 아니고...

 

특히 과학에서의 이론은

과학에서, 이론은

1. 수학 또는 논리의 서술

2. 자연현상 모임의 방식의 증명할 수 있는 표본

3.같은 관찰이나 미래의 발생을 예측할 수 있고, 실험을 통해 테스트가 가능한 설명

 

이렇게 세 가지로 설명이 가능한데.

생명공학을 전공한 나로써는 가장 와닿는 설명이

 

3. 같은 관찰이나 미래의 발생을 예측할 수 있고, 실험을 통해 테스트가 가능한 설명

 

이것이다. 

사실상 속마음은

통제된 환경에서 실험을 통해 결과를 낸 후, 이게 전체 자연을 설명한다. 이렇게 말하고 싶은 것이지.

과학자들 마음이 다들 똑같다.

왜냐고?

자연 전체를 실험해 볼 수는 없기 때문이다.

 

그래서 사람들은 실제를 본딸 이론을 만들어 냈다.

일단 기초를 뗀 것은 이항분포 라는 것이다.

 

수학시간에 많이 들어 보았을 것이다. 관심이 없어서 그렇지. 이항분포.

천원짜리는 이황이다.

이항분포는 두개 중 하나를 골라야만 하는 분포이다.

이항분포를 이루는 요소는 딱 두개라는 소리다. 우리 실생활에서 두개로 이루어진 요소를 찾아 보자.

예-아니오, 남자-여자, 성공-실패 등등이 있다.

정하기에 따라서 그냥 반대되는 것 자체도 가능하다. 예를들면

희다-검다, 크다-작다 같은 것들 말이다.

 

이 요소들이 여러번 나타나면 이것을 이항분포 라고 하는 것이다.

여기서 착각하기 쉬운 것은

이항분포라고 하면서 둘중에 하나를 골라라고 설명을 하는 바람에.

각각 한가지의 경우가 나올 확률이 1/2 이라고 생각하는 것이다.

아니아니 아니되오

아니다.

그렇게 생각하면 안된다.

 

검은색 흰색만 나오는데, 검은 색이 나올 확률은 25% 흰색이 나올 확률은 75% 이렇게 될 수도 있는 것이니까.

 

중요한 건 

두 확률을 합쳐서 1이 된다는 것이 중요하다. 

안 나오는건 없으니까.

 

그럼 이항분포에 대해 정말로 잘 알아보자.

이항분포란 불연속변량(두개가 떨어져 있으니까. 불연속이다. 예 1.24만 예 1.49만 예하다가 1.5되면 아니오 하는게 아니니까.)인 이항집단이 나타내는 분포라고 한다.

 

집단이 나타내는 분포

이걸 간과해서 이해가 안 되는거고 희안한 소리들을 해 대는 것이다.

 

검은색 흰색이 나오는 주머니가 있다. 역시 검은 색이 나올 확률은 25% 흰색이 나올 확률은 75% 이렇게 정해져 있다고 가정하자.

 

사실 우리는 저기 먼저 알려준 확률을 모르는 상태라고 또 가정하자.

그래서 우리는 뽑기를 통해서 저 주머니에서 어떤 확률로 공이 나올지를 알아낼 것이다.

이제 공을 꺼내는 일을 할 텐데, 공을 꺼내고나면 공의 색깔을 확인하고나서 다시 집어 넣는다.

다음에 뽑을때 영향이 가지 않게 하기 위해서다.

이 짓을 100번 해 보겠다.

내가 '검다' 를 차별해서 조금 나오는게 아니다.

자주 착각하는 것들이 이걸 한번만 뽑는다고 생각한다.

거기다가 이 전에 수많은 공식을 배우는데. 그 중에 

μ = np

라는 쉽지만 그럴듯한 것을 배운다.

수많은 공식이 나오고 뭐 어쩌고 했는데 우리가 알고있는 숫자와 필요한 숫자가 저기 다 나오거든?

그래서 집어 넣는다. 검은공확률? 25% 래. 맞어 그래고 몇번? 100번 응. 그러면 25나오네?

 

그러고서는 교과서에 있는 그래프를 본다.

그래프는 

 

이런게 나온다.

 

이런 게 나오거든?

보면 25에서 제일 높다.

그러면 아 아거 계산하면 제일 높은 거 알려주는구나.

 

이런 식의 기적같은 이해를 하고 넘어간다.

더 소름돋는것은.

이렇게 해도 문제는 대충 다 풀린다는 거다.

 

자자. 앞서서 잘못하고 있는 사람은 다 잊어버리고. 이항 분포를 다시 잘 설명해 보겠다.

공식 하나도 쓰지 않고 말로만 설명해 줄 테니 잘 들어보자.

 

일단 우리는 

검은색 흰색이 나오는 주머니가 있다. 역시 검은 색이 나올 확률은 25% 흰색이 나올 확률은 75% 이렇게 정해져 있다고 가정하자.

여기서 공을 꺼내는 일을 할 텐데, 공을 꺼내고나면 공의 색깔을 확인하고나서 다시 집어 넣는다.

이 짓을 100번 해 보겠다.

이 짓을 100번을 하면 어떤 결과들이 나오게 될까?

항상 검은 공이 25개 나오고 흰 공이 75개 나오는 결과가 나올까?

아닐 것이다.

어떤 경우에는 검은 공만 100번 나오는 경우도 있을 수도 있다. 

왜냐고? 

아니 뽑을 때마다 검은 색만 계속 짚을 수도 있지.

아니면 흰색만 계속 짚던지.

 

저기 위에 있는 그래프의 y 축이 말하는 것은 확률이다.

그리고 x축이 말하는 것은 검은 공이 나온 빈도를 말하고.

 

그럼 보자.

검은 색이 0번 나올 빈도는?

색칠된 막대가 없다 0 인 것처럼 보이지만, 사실은 거의 0에 수렴하는 확률이 나왔다는 것이다.

제일 확률이 높은 것은 아무래도 검은 공이 25번 나오는 경우겠지. 그러니까 확률이 가장 높다고 막대가 높은 것이다.

 

 

다시 한번 보자.

왜 이렇게 모자같은

모양이 나왔는지 조금은 이해가 가지 않는가?

100번 뽑을 때 25번 나올 확률이 제일 높다고 나오고 있다.

그렇다면 또 생각해 보자.

 

이항분포의 특징으로 자주 나오는게 다음과 같은 설명이다.

1.p=q=1/2 인 경우 분포의 모양은 항상 μ를 기준으로 대칭이 된다. (여기서 p를 검은 돌이 나올 확률, q를 흰돌이 나올 확률도 생각해보면 이해가 더 쉬울 수 있다.)

2. p가 0에 접근하면 분포의 정점은 0쪽으로 간다. (검은돌이 나올 확률이 적어지니까. 당연히 정점이 0으로 가겠지.)

3. p가 1에 접근하면 분포의 정점은 n쪽으로 간다.(검은돌이 나올 확률이 커지면 뽑는 족족 검은돌만 나올 테니 당연히 정점이 100쪽으로 기울겠지.)

4. 2,3번의 경우 대칭을 이루지 않는다. (당연히 한쪽이 많이 나오니까 대칭을 이루지 않겠지. 위 그림만 해도 검은 돌이 100개 까지 나오는 경우도 있을 것이라고 생각해야 하니까. 그렇게 생각한다면 이 그림은 0쪽으로 치우친 그림이 되지 않는가?!?!?)

 

-100개도 상당히 큰 수라 2,3번을 설명하기 좀 어려운데, 10번 정도라고 상상하면 더 쉽게 이해가 된다.

 

5. 그러나 n이 증가하여 무한대가 되면 분포의 모양은 대칭을 이루게 된다. (뽑는 양이 많아지면 많아질수록 안 나올 확률은 안나오는게 더 당연해 지니까. 1000번이나 연속으로 검은돌이 나올일은 없다고 봐야 하겠지.)

 

지금까지 이항 분포에 대해서 알아보았다.

알아보는 김에 그 특징도 알아보았고.

다음 시간에는 더 복잡한 놈인 포아송 분포를 알아 보겠다.

 

반응형