본문 바로가기
뻥카와 함께하는 통계학

뻥카와 함께하는 통계학 - 대표값

by Gothesis 2020. 10. 6.
반응형

통계가 있어야 있어보이지.

통계학을 공부하다보면 무척 쉬우면서 어렵다는 것을 많이많이 느끼게 된다.

통계학 수업은 학부때 재수강까지 하면서 3번이나 들었고, 석사때도 2번 박사때도 2번이나 들었으나.

어려운건 어려운거고 아직도 조금 두렵기까지 하다.

 

그래서 이해를 우선으로 하는 통계학 글을 써 보려고 한다.

감정적 이해를 도우려고 하는 것이다.

 

왜 이러는 것인가

왜 그렇냐고?

공부를 할 때마다 혹은 문제를 풀 때마다, 혹은 내가 직접 통계를 내야 할 때마다 느끼는 것이 

'이새끼들은 이걸 왜 하는거야?'

혹은

'이새끼들은 이걸 왜 만든거야?'

혹은

'이 미친놈들은 이걸 어떻게 만든거야?'

 

이런 게 궁금한데, 이걸 가르쳐주는 데가 잘 없다.

그리고 가르쳐 주더라도 재미가 없는 경우가 많았다. 평균을 설명하는데 무슨 전쟁 이야기가 나오고 하더라. 그게 진짜 사실인지는 몰라도 내 경험과 맞닿아 있지 않으니, 재미가 없었다.

 

그리하여 글을 써 볼까 한다.

뻥카와 함께하는 통계학!!

 

오늘은 간단히 대표값에 대해서 배워 보겠다.

통계학 책을 처음 펴면 나오는게 대표값이다.

그리고 대표값으로는 최소값 최대값 최빈값 중앙값 산술평균 기하평균 조화평균이 있다고 나온다.

술술 외운다.

 

근데 얘들 대체 뭐야?

요약이라 이말이지

왜 나온거냐면.

인터넷에서 커뮤니티를 돌아다니다 보면, 뭐 어디든 상관 없다. 디씽 인사이드건, 개드립이건, 고파스, 스누라이프든...

길고 긴 글 끝에 

3줄 요약이 되어 있는 경우가 많다..

모두가 글을 끝까지 다 읽으면 좋겠으나. 그리고 그러면 데이터에 대해서 좀 더 잘 알수 있겠지만.

그러기 귀찮은거지. 그렇다고 안 볼수는 없고 하니까 귀찮아서 만든 게.

바로 이 대표값이다.

 

3줄 요약이 바로 대표값이라 이말이다.

그래서 데이터를 보는 사람이 이 데이터에서 제일 궁금할 거 같은게 가장 작은 값이다 싶으면 최소값만 보여 주는거고.

데이터를 보는 사람이 이 데이터에서 제일 궁금할 거 같은게 가장 큰 값이다 싶으면 최대값만 보여 주는 거다.

그런데 사실상 최대값과 최소값만 궁금한 경우는 올림픽에서 메달경쟁할 때나 궁금한거지 궁금할 일이 그렇게 많지는 않다.

 

진짜 궁금한 건.

이 데이터가 대체적으로 어떤가? 하는 것이다.

그래서 이 데이터에서 가장 많이 반복된 숫자가 무엇인가? 살펴본 것이 최빈값이다.

왜 가장 많이 반복된 숫자를 궁금해하냐고? 

큰 데이터를 만들 때, 반복된 숫자가 어마무지하게 많다면, 그 숫자만으로 전체를 대변할 수 있을것 같아서 그런 거다.

 

이보다 더더더더.

더 이 전체 데이터를 대체적으로 어떤지 알아보려고 만든 게.

바로 산술 평균이다.

다 더해서 숫자로 나눈 것.

 

기하 평균과 조화 평균, 가중 평균들이 남아있지만 얘들은 좀 복잡하니까 나중에 설명해 주고.

여튼 

평균까지 왔다.

 

그런데 여기서 간과하면 절대 안 되는 점이 있다.

소값이 그랬고, 최대값이 그랬고, 최빈값 역시 그랬듯이 산술평균도 요약했기 때문에 데이터 전체를 완벽하게 나타내지는 못한다.

드레곤볼 요약

위 드레곤볼 요약 짤이 드레곤볼 전체를 나타낼 수 없는것처럼!

 

그래서

대표값을 뭐라고 생각하면 된다고?

세줄요약이다 이말이다.

 

 

 

반응형