본문 바로가기
반응형

통계학3

뻥카와 함께하는 통계학 - 분산은 왜 제곱을 쓰는가 이 전 시간데 대표값 중에서도 가장 많이 쓰이며, 유용하게 쓰이고 있는 평균값에 대해서 알아보았고, 평균값 역시 대표값중 일부이기 때문에 가질 수 밖에 없는 한계.. 즉 세줄요약처럼 요약은 되지만 자세한 사항을 잘 나타내지 못한다. 라는 한계를 어느정도 극복하기 위한 장치인 분산, 표준편차, 표준오차에 대해서도 알아보았다. 분산은 평균이 어디서부터 어디까지 퍼져있는지를 알기 위한 값이었는데, 각 값에서 평균을 뺀 값의 제곱을 한 것의 평균이었다. 그런데. 여기서 왜 꼭 제곱이어야 했을까? 다 더해서 0만 안되게 하면 되는거 아닌가. 그러면 절대값을 씌우면 되는거 아닌가? 제곱을 쓰지 않는다면, 표준 편차를 만들기 위해 다시 제곱근을 씌울 일도 없을텐데... 왜 궂이 어려운 길을 돌아가야만 한 걸까? 사실.. 2020. 10. 16.
뻥카와 함께하는 통계학 - 표준편차와 표준오차 저번 시간에는 대표값에 대해서 배웠다. 대표값은 세줄요약 같은 것으로 데이터 전체를 대략적으로 나타내주는 것이며, 항상 그 데이터를 완벽하게 나타내 주는 게 아니라는 것을 알았다. 슬램덩크를 요약하면 문제아 강백호가 농구하다가 다치는 이야기다. 이정도 요약으로는 그 안에 있는 강백호의 짝사랑, 서태웅에 대한 라이벌의식, 정대만의 농구가하고싶어요 등은 알 수가 없는 거다. 그런데 데이터가 슬램덩크라면 처음부터 끝까지 완독하고 또보고 심하면 외우기도 하겠지만. 데이터는 재미가 없다. 그러니까 사람들은 잘 나타내는 방법을 궁리하기 시작했다. 일단 대표값인 최대값 최소값 중앙값 최빈값 산술평균 기하평균 조화평균중에서 데이터를 가장 잘 나타내는 방식은 산술평균이라고 다들 생각한 것 같다. 왜?? 하필 산술평균이죠.. 2020. 10. 8.
뻥카와 함께하는 통계학 - 대표값 통계학을 공부하다보면 무척 쉬우면서 어렵다는 것을 많이많이 느끼게 된다. 통계학 수업은 학부때 재수강까지 하면서 3번이나 들었고, 석사때도 2번 박사때도 2번이나 들었으나. 어려운건 어려운거고 아직도 조금 두렵기까지 하다. 그래서 이해를 우선으로 하는 통계학 글을 써 보려고 한다. 감정적 이해를 도우려고 하는 것이다. 왜 그렇냐고? 공부를 할 때마다 혹은 문제를 풀 때마다, 혹은 내가 직접 통계를 내야 할 때마다 느끼는 것이 '이새끼들은 이걸 왜 하는거야?' 혹은 '이새끼들은 이걸 왜 만든거야?' 혹은 '이 미친놈들은 이걸 어떻게 만든거야?' 이런 게 궁금한데, 이걸 가르쳐주는 데가 잘 없다. 그리고 가르쳐 주더라도 재미가 없는 경우가 많았다. 평균을 설명하는데 무슨 전쟁 이야기가 나오고 하더라. 그게 .. 2020. 10. 6.
반응형