본문 바로가기
뻥카와 함께하는 통계학

뻥카와 함께하는 통계학 - 표준편차와 표준오차

by Gothesis 2020. 10. 8.
반응형

저번 시간에는 대표값에 대해서 배웠다.

대표값은 세줄요약 같은 것으로 데이터 전체를 대략적으로 나타내주는 것이며, 항상 그 데이터를 완벽하게 나타내 주는 게 아니라는 것을 알았다.

슬램덩크를 요약하면 문제아 강백호가 농구하다가 다치는 이야기다.

이정도 요약으로는 그 안에 있는 강백호의 짝사랑, 서태웅에 대한 라이벌의식, 정대만의 농구가하고싶어요 등은 알 수가 없는 거다.

이렇게 다친다.

그런데

데이터가 슬램덩크라면 처음부터 끝까지 완독하고 또보고 심하면 외우기도 하겠지만.

데이터는 재미가 없다. 그러니까 사람들은 잘 나타내는 방법을 궁리하기 시작했다.

일단 대표값인 최대값 최소값 중앙값 최빈값 산술평균 기하평균 조화평균중에서 데이터를 가장 잘 나타내는 방식은 산술평균이라고 다들 생각한 것 같다.

왜?? 하필 산술평균이죠?

요약도 10줄요약, 5줄요약, 3줄요약, 1줄요약, 그림으로 요약, 표로 요약, 제목과 결론만보기 등 종류가 많지만, 대체로 3줄요약을 하지 않는가?

그런것 처럼 사람들이 

'아 이게 제일 괜찮다.'

싶었던 것이 산술평균이었던 것이다.

왜죠?

아무래도 요약이라고 하면 전체가 다 참여하는 게 좋고, 이왕이면 쉬운게 좋을 것 같다.

최소값, 최대값, 최빈값 그리고 중앙값은 전체 데이터 중 1개만 살리는 것이므로 탈락.

조화평균은 모든 데이터가 참여하긴 하지만, 역수를 만들고 거기에 또 평균을 해야 하므로 복잡해서 탈락.

기하평균 역시 모든 데이터가 참여하긴 하지만, 곱하고 루트까지? 너무 복잡해서 탈락.

 

제일 만만한건 다 더해서 갯수로 나누는 산술평균인 것이다.

하지만 계속 잊지 말아야 할 것은 대표값은 전체 데이터의 특징을 자세하게 나타내지는 못한다는 것이다.

산술평균의 실패사례를 다음과 같은 예로 알아 보자.

 

토익 시험을 봤다고 하자. 다섯번을 봤는데

5월 900점

6월 900점

7월 900점

8월 900점

급할수도 있지..

그런데 10월에 시험보는데 급똥으로 인해 인격을 지키기 위해 중도에 퇴실하여

10월 0점을 받았다고 해 보자.

 

무려 4번이나 내리 900점을 받았음에도 불구하고 평균을 내면 720점이다. 720이라는 숫자는 실 데이터에 있지도 않은데 딱 한번의 낮은 점수에 의한 영향이 엄청 큰 것이다. 이는 반복수가 적을수록 타격이 더 커지게 된다.

(만약 두번 시험 봤는데 한번은 900점 한번은 0점이라면, 평균은 450점이 된다.)

 

 

다섯번 중 내리 4번이나 900점을 받고 한번은 급똥으로 0점을 받은 경우라면 최빈값을 보여주는 것이 데이터를 가장 올바르게 나타내는 방법이라고 하겠다.

 

사람들은 이러한 갖은 상황이 있기 때문에 산술평균 하나만 던져놓는 것 보다는

이를 보완해 줄 무언가를 나타내는 것이 좋을 것이라고 생각했다.

그리고 생 데이터 전체를 다 보기는 정말 싫었나보다.

 

그래서 생각해 낸 것은.

거리이다.

데이터가 평균에서부터 얼마나 떨어졌는지를 보여주면

 

'아.. 이 범위부터 이 범위까지 데이터가 있는거구나.'

하고 진짜 데이터를 좀 더 구체적으로 떠올릴 수 있을 테니까.

그렇게 만들어진 것이

 

'분산'

이다.

 

분산은 말 그대로 중앙을 기준으로 얼마나 퍼졌나 하는 것이다.

그러니까 평균에서 각 데이터의 거리를 재서 그 거리의 평균을 보여주면 이 데이터가 평균에서부터 얼만큼씩들 떨어져있는지 알수 있겠지.

 

그런데 문제가 생겼다.

평균이 각 데이터에서 온 것이기 때문에, 각 데이터에서 평균을 뺀 수를 다 더하면

항상 0이 나오게 된다.

 

이런 젠장.

그러면 일단 0이 나오지 않게 해야 한다.

어떤 방법이 있을까?

 

우리는 항상 방법을 찾는다.

 

첫번째 방법은 절대값을 이용하는 것이다. 절대값을 이용하면 마이너스 값이 나오지 않으니까 평균에서부터 얼만큼 떨어져 있는지 구할 수 있을 것이다.

두번째 방법은 제곱을 이용하는 것이다. 제곱을 이용해도 마이너스 값이 나오지 않으니까 평균에서부터 얼만큼 떨어져있는지 구할 수 있을 것이다. 

 

우리는 현제 제곱을 이용하는 방법을 더 많이 이용하고 있다.

왜일까?

 

많은 이유가 있지만, 간단히 요약하면 제곱이 더 쓸만해서라고 요약할 수 있겠다.

(다음 시간에 왜 절대값이 아니고 제곱을 이용하는지 알아보려고 한다.)

 

그래서 우리는 분산을 구할 때.

각 데이터와 평균에서의 차를 구하고

그 차를 제곱하여 또 평균을 구하는 것이다.

 

그런데

이러면 숫자가 너무 크잖아?

그래서 원래로 돌리기 위해서 제곱근을 건다.

이게 바로 표준편차이다.

 

우와! 

드디어 표준편차까지 온 것이다.

요약하자면, 평균만으로는 전체 데이터에 대해서 잘 나타내지 못하기 때문에 보조적인 수단으로 데이터가 퍼진 정도를 나타내기 위해 표준편차를 사용한다.

는 것이다.

목표까지는 멀다.

그럼 이정도면 만족스러운데 표준오차는 왜 나타내는거지?

그건 이 표준편차를 만드는 데 얼마나 노력이 들었는가까지 나타내기 위해서이다.

 

표준오차는 표준편차를√N 으로 또 나눈다.

왜 이런 짓을 하는거지?

 

여기서 또 뻥카가 들어가 보겠다. 몰입해보자.

 

뻥식이는 실험실에서 실험을 했다. 뻥식이는 농대 실험실에서 석사과정(노예) 인데, 곡물저장창고에 농약 처리에 따른 화랑곡나방 유충의 길이를 재는 일을 맞았다. 후배 뺀질이와 함께 현미경에 붙어 앉아서 가만히 있지 못하고 꼬물대는 화랑곡나방의 유충의 길이를 재기 시작했다.

 

 

그런데!!

뺀질이는 10분만에 다 쟀다고 나가는 게 아닌가. 멋드러지게 표까지 그려놓고 나갔다.

 

Control       10.00 ± 3.00

Treatment   12.50 ± 3.00 (unit = mm)

 

아. 나는 후배한테도 밀리는 것인가. 뻥식이는 절망했다. 그리고 4시간에 걸쳐 유충의 길이를 재고 표를 그렸다.

 

Control       9.98 ± 2.98

Treatment   11.72 ± 2.50 (unit = mm)

 

아... 뺀질이의 결과와 거의 비슷하다. 저놈은 어떻게 했기에 10분만에 다 재고 나간걸까?

속터져하고 있는데 만성 수면부족에 지친 얼굴의 쾡박사님이 들어왔다. 

뻥식이는 물어본다. 나는 왜 이런걸까요...

박사님은 데이터를 슥 보더니 

"표준오차냐?"

고 묻는다.

시무룩...

"아뇨 표준편찬데요..."

박사님은 쾡한 얼굴로... 뺀질이랑 같이 표준오차로 바꿔와라 한마디 하신다.

"뺀질아! 표준편차로 바꿔오래!!"

뻥식이는 뺀질이를 부른다.

바꿔 온 표는 다음과 같았다.

 

뺀질이 표

Control       10.00 ± 1.00

Treatment   12.50 ± 1.00 (unit = mm)

 

뻥식이 표

Control       9.98 ± 0.30

Treatment   11.72 ± 0.25 (unit = mm)

 

그리고 박사님은 말했다.

"뺀질이 9마리만 만 잰거야? 뻥식이는 100마리 재고?"

뺀질이는 9마리만 쟀으니까 3으로 나누고

뻥식이는 100마리를 재서 10으로 표준편차를 나누게 되었다.

나누고 보니, 뺀질이의 측정오차는 10퍼센트 가까이 되고. 

뻥식이의 측정오차는 5퍼센트보다 적은 정도였다. 누구 데이터를 더 신뢰할 수 있을까? 

 

그렇다.

표준 오차는 표준 편차를 구하기 위해서 얼마나 많은 노가다를 했는지 나타낼 수 있는 방법이었던 것이다.

같은 정도의 표준편차도 측정수 즉 N이 많으면 더 작은 표준 오차로 나타낼 수 있는 것이다.

성실함까지 나타내는 표준오차. 과학자들이 사랑하는 지표가 아니겠는가?

 

요약하자면 표준편차나 표준오차 둘 다 평균으로부터 얼마나 떨어졌는지를 나타내는 것인데.

표준오차에는 성실함이 들어간다. 이 정도가 되겠다!

 

반응형