본문 바로가기
뻥카와 함께하는 통계학

뻥카와 함께하는 통계학 - 모집단! 그리고 표본

by Gothesis 2020. 10. 23.
반응형

저번 시간에 설명을 하던 중에 모르는 말이 많이 나왔다.

모집단이라는 말도 나왔고

표본이라는 말도 나왔다.

 

모집단이란게 무엇일까?

모집단(母集團) 한자로 된 말이다 맨 앞에 있것은 어미 모 글자다.

엄마가 되는 집단이라는 말이다.

 

엄마!!!

모든 생물은 엄마로부터 나온다.

그러니까...

표본이 나오는 집단이 모집단인 것이다.

 

그러면 표본은 무엇인가?

 

먼저 모집단의 예부터 알아보자.

모집단이라고 하면, 정말 자연 그 자체를 말한다. 대한민국 남자의 키를 알아보자.

대한민국 남자 키의 모집단은 대한민군 남자 전체의 키다.

 

우리나라는 군대에 가야 하고, 군대에 가려면 신검을 받아야 하기 때문에 거의 모든 대한민국 남자는 신검을 받는다.

 

아...

아마 남자 키에대한 모집단이 있는 유일한 나라가 아닐까 싶은데...

이런 독특한 이유가 아니라면, 전체 남자 키를 다 재는건 엄청나게 힘든 일이다.

그래서 표본을 추출해서 모집단을 추측 하는 것이다. 그리고 여기서 추출하는 표본들의 모임이 표본집단이 되는 것이다.

 

표본은 모집단에서 나오고, 표본을 추출해서 모집단을 추측해본다!

 

항상 우리가 알고 싶은 것은 모집단이 과연 어떻게 생겼나 하는 것이다. 우리가 추출해낸 표본들이 모집단을 얼마나 더 정확하게 잘 표현해 주는가? 이것이 얼마나 통계처리를 잘 했나 하는 기준이 될 것이다.

그러면 또 생각해 보자. 모집단도 결국엔 엄청나게 많은 숫자이기 때문에 대표값으로 나타낼 수 밖에 없다.

 

대표한다고 대표...

그래서 우리는

모집단의 평균

모집단의 분산

모집단의 표준편차를 추정 할 것이다. 왜? 모집단을 다 검사해봤다면 이걸 다 알겠지. 하지만 우리는 표본을 통해서 이걸 추정 해 보는 것이다.

 

집단의 집단의 집단의가 다 들어가니까 바보같잖아.

그래서

모평균/모분산/모표준편차라고 하는 것이다.

 

저 삼총사를 우리는 표본을 통해서 추측할 것이다. 

자 이제 표본을 추출하고 측정해 보자.

어떤 방법이 가장 전체를 잘 대표해 주는 방법일까? 결론부터 말하자면, '무작위로 뽑는 경우가 가장 잘 이야기해 준다.'

당연하잖아?

키가 큰 놈들만 뽑으면 크게 나올 것이고

작은 놈들만 뽑으면 작게 나올 테니까. 눈 감고 아무나 찍어서 무작위로 뽑는 경우가 가장 잘 이야기해 주겠지.

 

그럼 이제 진짜 실험으로 들어가보자.

현실 세계에서는 모집단을 다룰 일이 거의 없다. 뭘 해도 전체의 데이터를 다 알수 있는 경우는 없으니까.

그러니까 우리가 주로 다루게 되는 것은 표본의 데이터다.

여기서 각각의 특징을 나타내는 숫자나 특징을 우리는 '변량'이라고 한다.

어?

숫자만이 아니라 특징도?

 

그렇다.

왜 그러냐면

키는 184 cm,168 cm등인 숫자로 나타낼 수가 있다. 이렇게 숫자로 주르르르르 나타나는 변량은 양적변량이라고 한다.

그런데.

이런거 말고.

PCR을 하면 어떤 경우에는 밴드가 나오고, 어떤 경우에는 밴드가 나오지 않는다.

더 쉬운 예를 들면

어떤 사람은 남자고 어떤 사람은 여자다. 

어떤 꽃은 빨간색이고 어떤 꽃은 파란색이고 또 다른 꽃은 주황색이다.

 

이렇게 색깔이 다양하다.

이건 숫자로 나타낼 수가 없잖아.

그러니까 이건 질적 변량이라고 한다.

숫자로 나타낼 수 없다고 해도... 나중에 어떻게든 바꾸긴 한다. 

 

여튼 

이 양적 변량과 질적 변량이 다르다는 것을 모르면 우스운 실수를 하게 되니.

데이터를 얻고자 할 때, 우리가 얻는 데이터가 양적 변량인지 질적 변량인지를 확실히 해 두고 실험 계획을 해야 한다.

 

여기서 한번 과몰입을 해 보자.

생물학과 교수인 김괴수 교수는 요새 PCR에 빠져 있다.

고추에 곰팡이가 침입하면 침입을 알리는 여러 유전자들이 발현되기 시작하는데. 이 유전자는 시간이 갈수록 점점 많이 발현될 것으로 예상했다.

그러고는 우리의 불쌍한 대학원생 뻥식이를 부른다.

"뻥식아. 이거 발현이 점점 많이 될 테니까. PCR 밴드가 두꺼워 질 거야. 이거 한번 해봐라."

뻥식이는 PCR밴드는 질적 데이터이기 때문에 이렇게 하는게 아니라는 사실을 알고 있지만 까라면 까라는 심정으로 하기 시작한다. 심지어 RT-PCR이라는 방법으로 상대적으로 비교하여 양적 데이터로 만들 수 있다는 사실을 알고 있지만...

그때는 몰랐다. 김괴수 교수는 이런 거 모른다는 걸...

그리고 너한테는 자기가 틀렸단 소리 듣기 싫다는 걸...

각기 다른 고추의 3엽에서 mRNA를 시간별로 추출한다. 여기서 각기 다른 농도와 오염 수준의 mRNA가 추출된다.

이걸 광학 측정기로 농도를 재서 최소한 농도를 맞춘다. 하지만 오염 수준은 어쩔 수 없다.

그리고 이 mRNA를 이용해서 cDNA를 만든다. 여기서 각기 다른 농도의 cDNA가 만들어진다. 왜냐면 맨 처음 오염 수준이 달라 cDNA로 만들어 질 수 있는 mRNA의 농도가 다르니까.

그리고 이 cDNA를 주형으로 PCR을 한다.

결과는..

 

들쭉날쭉이었다.

물론 

시간이 지날수록 밴드가 진해졌다가 약해지는 대략의 결과는 나왔다.

하지만 이걸 논문에 낼 수는 없었다. 15분은 진하고 30분은 너무 옅고 했기 때문이다.

 

데이터를 가져올때마다 뻥식이는 박살이 났다.

그 쉬운것을 못한다고...

 

4일째 밤을 새는데...

보다못한 박사님이 말했다.,

"내가 해결해 줄게."

 

다음날 박사님은 시간별로 진하기가 달라지는 결과를 가지고 왔다. 뻥식이가 어떻게 했냐고 물었지만 박사님은

"나처럼 되지 말아라." 할 뿐이었다.

랩미팅 시간. 결과를 받아든 김괴수 교수는 박사님을 극찬했고, 뻥식이를 인간 쓰래기 밥버러지 취급하였다.

김괴수 교수는 만족했고 그 그림을 논문에 넣기로 했다.

그 모습을 보는 박사님의 눈에는 슬픔과 쓸쓸함 그리고 한심함이 담겨 있었다.

 

교수들도 헷갈리는 경우가 종종 있는게 질적/양적 데이터다.

저런 병신이 되지 않기 위해서는!

질적 양적 데이터!!

꼭 알아두자!!

 

다음 시간에는 오늘 안 

모집단과 표본집단을 이용하는 방법에 대해 알아 보겠다.

바로 이론분포가 그것이다!

반응형