본문 바로가기
뻥카와 함께하는 통계학

뻥카와 함께하는 통계학 - 분산은 왜 제곱을 쓰는가

by Gothesis 2020. 10. 16.
반응형

이 전 시간데 대표값 중에서도 가장 많이 쓰이며, 유용하게 쓰이고 있는 평균값에 대해서 알아보았고,

평균값 역시 대표값중 일부이기 때문에 가질 수 밖에 없는 한계..

 

즉 세줄요약처럼 요약은 되지만 자세한 사항을 잘 나타내지 못한다.

 

라는 한계를 어느정도 극복하기 위한 장치인

분산, 표준편차, 표준오차에 대해서도 알아보았다.

 

분산은 평균이 어디서부터 어디까지 퍼져있는지를 알기 위한 값이었는데,

각 값에서 평균을 뺀 값의 제곱을 한 것의 평균이었다.

 

그런데.

여기서 왜 꼭 제곱이어야 했을까?

다 더해서 0만 안되게 하면 되는거 아닌가.

그러면 절대값을 씌우면 되는거 아닌가?

한심하게 제곱을 쓰다니.. 닝겐...

제곱을 쓰지 않는다면, 표준 편차를 만들기 위해 다시 제곱근을 씌울 일도 없을텐데...

왜 궂이 어려운 길을 돌아가야만 한 걸까?

 

사실 이 질문은 좀 잘못된 질문이기도 하다.

절대값을 씌우는 방법은 절대편차 라는 이름이 있는 방법이기 때문이다. 

교과서에서 그냥 언급도 하지 않고 넘어간다 뿐이지, 이름이 있는 값이란 것이다.

 

그러면 다시.

왜 교과서에는 이녀석은 언급도 하지 않고 넘어가는 것일까?

이유는 많이 쓰이지 않기 때문이다.

 

우리는 대표값을 사용할 때, 여러가지 조건을 고려해야만 한다. 

고려해야할 특징은 불편성, 효율성, 일치성, 충분성등이 있는데, 이 네가지에 대해서 먼저 알아보자.

 

불편성은 편향되지 않은 성질을 말한다.

효율성은 퍼진 정도가 작은 성질을 말한다.

일치성은 모분산하고 얼마나 일치하느냐를 말한다. (모분산을 원래 우리가 나타내야하는 데이터 전체라고 생각해보자.)

충분성은 대표값이 충분한 자료를 제시하느냐를 말한다.

 

모분산이라는 말이 생소할 텐데... 일단 넘어가자.

생..소?

https://coupa.ng/bLeKQ2

 

그러니까 여튼.

까다로운 조건에 맞는지 틀리는지를 여러 통계학자들이 검증해본다 이말이다.

그래서 제일 쓰기 좋은 것이 분산과 표준편차였다는 것이고.

 

또 앞으로

분산의 공식을 이용하여 온갖 여러가지 식을 만들어 낼 텐데...

절대값 이놈이 끼어 들면, 미분하기가 어려워진다는 단점이 있다.

아니 미분까지 갈 것도 없이, 수식 자체가 변형하기가 힘들어진다.

아무리 직관적이라도 자유로운 변형이 안 된다면, 써 먹는데 제한이 생기기 마련이다.

그런 연유로 하여

 

우리는 분산을 쓸 때

데이터 값에서 평균을 뺀 제곱값을 이용한다.

이 말이다.

 

최대한 수식을 쓰지 않고 이해시키기 위해 이렇게 설명을 했는데,

 

서.. 설명이 빈약하다.. 설명하고싶다...

최종적으로 우리가 이해해야 할 것은 이것이다.

 

분산을 나타내기 위해서 제곱을 쓰는데, 절대값을 쓰는 경우인 절대편차 라는 것도 존재한다.

분산이 통계를 이용해먹기에 더 편하기 때문에 쓰는 것이고.

상황에 따라서 절대값을 쓰는 절대편차를 쓰는 경우가 있을 수 있다.

 

다음 시간에는 오늘 설명하다가 나온 모집단! 그리고 표본에 대해서 알아보겠다.

표본에 대해서 다루다 보면 아마 질적변량과 양적변량에 대해서도 다루게 될 것 같다.

그럼 이만!!

 

파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음


반응형