본문 바로가기
논문작성법[完]

논문작성법 - 4. 데이터 분석 - 엑셀 사용법

by Gothesis 2020. 8. 24.
반응형

관련 유튜브 : 고논채널

 

BioGothesis

과학 논문은 어떻게 쓰는 것인가? 과학 논문을 쓰는 방법을 한번씩 체험해보는 채널입니다 ---------------------------------------------------------------------------------------------------------------------------------------

www.youtube.com

 

이제 데이터 분석을 해 볼 것이다. 

어떤 실험실에 가든 엑셀부터 사용할 것이다. 알아보자!! 

다음 가상의 데이터를 이용해서 이번 포스팅의 실습을 해 보면 더 좋을 것이다.

 

Aspergillus niger-gas treatment for student.xlsx
0.02MB
Aspergillus niger-gas treatment for student.xlsx
0.02MB
Warehouse test mortality & residues for student.xlsx
0.02MB

데이터 분석은 논문 1 저자 요건에도 들어가고, 우리가 석사, 박사 학위를 따는 가장 중요한 이유 라고도 할 수 있다.

누구나 할 수 있는 실험에서 의미를 찾아내고, 그것을 이용할 계기를 만들어내는 것이 과학자가 할 일이기 때문이다.

예전에는 데이터를 분석하기 위해 손으로 직접 계산을 하거나, 계산기를 사용했다고 하지만, 지금은 좋은 프로그램들이 많이 나와서 궂이 그런 수고를 하지 않아도 복잡한 분석을 수행하는 것이 가능하다. 또한, 표나 그래프를 그릴 때에도 알맞은 프로그램을 이용하면 논문 양식에 맞는 표나 그래프를 작성해 낼 수 있다. 우리는 기본적인 통계 프로그램으로 Excel을 배우고, 심화 분석으로는 SAS를 배울 것이며, 그래프 작성 프로그램으로는 Sigma plot을 배울 것이다. 실험을 하나 진행하고 나면 파일이 3개에서 4개가 남아야 한다.

1.     Raw data file (확장자 Excel)

2.     Table or Figure file (확장자 pptx or word)

3.     Figure file (확장자 sigmaplot)

4.     SAS file (확장자 txt)

테이블만 필요한 데이터의 경우에는 3개의 파일만 남지만, 그림이 필요한 데이터의 경우에는 테이블과 데이터까지 합쳐서 4개의 파일이 남게 된다. 이 파일은 모두 같은 제목을 가지고 있어야 하며, 한 폴더에 묶어 놓는 것이 중요하다. 이어서 각 파일을 작성하는 방법에 대해서 더 자세히 알아보도록 하겠다.

 

날짜, 실험이름 그리고 필요한 파일들이 잘 있어야 한다.

위와 같이 저장되어 있으면 매우 바람직하다.

1.     Excel 사용법

고등학교나 대학교에서 과제를 수행할 때 우리는 주로 한글과 파워포인트를 많이 사용했었다. 그런데 논문을 작성할 때에는 한글보다는 워드를 쓰는 편이 좋다. 저널에서 요구하는 파일명과 포맷이 워드에 맞춰져 있기 때문에 워드를 쓰는 것이 더 간편하게 논문을 작성하도록 해 준다. 그림 파일은 파워포인트를 쓰는 것이 좋다. 그리고 이 모든 숫자를 만들기 위한 방법으로, 또 이 모든 데이터를 저장하는 방법으로는 Excel을 사용하는 것이 가장 쉽다 (2018.01.01 기준).

Raw data를 저장하는 데에는 기준이 있다. Raw data를 보고, 이것이 무슨 실험을 어떻게 한 것인지 파악이 가능해야 하며, 빠진 데이터가 없이 기록해야 하고, 만약에 빠진 것이 있으면 사유를 매우 자세히 달아 놓아야 한다는 것이다. Raw data 작성의 예는 다음과 같다.

 

 

가장 위에 제목을 보자, 파일 제목을 180103으로 이 데이터가 작성된 시작된 날짜는 180103 임을 알 수 있다. 그리고 실험 내용은 Aspergillus niger-gas treatment 로 곰팡이를 가스처리 했다는 내용이다. 가장 아래를 보자, 이 파일에는 EXP1, EXP2, EXP3 그리고 SAS로 정리한 모양과 테이블을 그리기 위해 정리한 데이터가 들어 있는 파일이다. 파일 내용을 이제 읽어 보자. 가장 위에는 이 실험을 시작한 날짜가 들어간다. 이 실험을 시작한 날짜는 20180103이다. 그 아래에 Materials and methods 가 있다. 실험을 어떤 방법으로 했는지 나와 있다. 여기서는 곰팡이를 어떤 농도로 어느 배지에 어떤 온도에서 어디에 배양했는지 얼마나 배양했는지 설명해 주고 있다. 또한, 어떤 데이터를 얻었는지 알려주고 있다. 그리고 반복수도 알려주고 있다. 이렇게 최대한 자세히 자신이 한 실험의 내용을 적어야만 한다.  쓰기 편하게 한글로 적어도 되고, 최종적으로 논문을 작성할 생각을 하고 영어로 작성을 해도 된다. 그 아래에는 이 실험이 몇 번째 데이터이며 어느 측정치의 결과인지와 단위가 쓰여 있고, 어떤 처리를 하였는지도 적혀 있다. 이와 같이 Raw 데이터 파일을 정리해야만 한다. 그런데..

?

왜 이렇게 자세하게 써야 하는 걸까? 이유는 쉽다. 이 데이터를 다른 사람이 보고도 쉽게 이해하게 하기 위해서다. 그리고 자신이 실험을 진행했다고 하더라도 시간이 지나면 잊어버리기 때문에 데이터를 보고 어떤 실험을 한 것인지 기억해 낼 수 있을 정도로 자세하게 적어야 한다. 또한 실험만 하고 분석을 하지 못하거나 논문을 쓰지 못하는 경우도 많으므로, 다음 사람을 위해서도 자세히 써 두어야 이 데이터가 빛을 볼 수 있게 된다.

          Raw 데이터는 놔두면 아무것도 아닌 숫자일 뿐이다. 과학자는 이 숫자들이 어떤 뜻을 가지고 있는지 알아내야 한다. 그리고 최종적으로 표를 그리기 위해서도 숫자들의 의미를 알아내야만 한다. 숫자들의 의미를 종합적으로 가장 잘 나타내는 방법은 평균과 표준편차다. 평균은 숫자들의 집합의 대표값이며, 표준편차는 그 대표값을 중심으로 숫자가 얼마나 벌어졌는지를 나타내는 지표이다.

 

 

Excel에서 평균값을 내기 위해서는 Average라는 명령어를 써야 한다. 이 명령어를 사용해서 평균값을 구해 보자. 위 명령어는 B12부터 C14까지의 숫자의 평균을 구하라는 명령어다.

이 실험에서 1번에 있는 8988은 하나의 플레이트를 측정한 값이므로 1번 플레이트는 8988의 중간 값을 결과값으로 가진다. 표준편차를 구할 때에는 이를 이용해야만 한다.

다음과 같은 방법으로 8988의 평균을 구할 수 있다. 한번 구한 값은 아래로 드래그하면 같은 작업을 계속 하지 않고도 값들을 구할 수 있다. , 구한 값이 맞는 셀들을 선택하고 있는지 확인하고 맞는 셀들을 선택하도록 만들어야만 한다. (이는 직접 프로그램을 사용하면서 익히는 것이 유리하다.

           평균값을 구하고 나면 이 평균값들이 우리가 한 실험의 가설과 일치하는지 확인해야 한다. 튀는 값은 없는지 살피면서 작업을 진행하도록 한다. 평균값을 구하고 난 다음에는 표준편차 값을 구해보도록 하겠다,.

표준편차를 구하기 위한 명령어는 STDEV이다. 이 명령어를 사용해서 표준편차를 구해 보자.

 

 

이 역시 아래로 드래그하면 같은 작업을 여러 번 할 필요 없이 표준편차를 구할 수 있다. 여기서 STD는 무엇이고 STDE 는 무엇일까? STD는 표준편차를 말하고, STDE는 표준오차를 말한다. 이 두개는 뭐가 다른 것일까? 결론적으로 이 두 값이 나타나는 것은 평균으로부터 관찰값들이 얼마나 떨어졌는지를 말하는 값으로 뜻은 같다. 하지만 STDESTDroot N으로 나누어 주게 된다. 이 실험에서는 다음과 같은 명령어를 이용해서 나타낸다.

=stdev(B21:B23)/sqrt(3)

Sqrt는 루트값을 구하라는 명령어를 나타내며 sqrt안에 들어간 값은 반복수를 나타낸다. 이 실험에서 반복수인 n의 값은 3이다.

 

 

다음과 같이 구하면 된다. 표준편차와 표준오차를 비교해 보면 표준오차가 더 작은 값을 나타내는 것을 볼 수 있다. 이는 반복수가 많을수록 더 작아지는 값이다. 그러므로 이 값은 논문을 읽는 사람에게 이 실험이 얼마나 정밀하게, 많은 반복수를 가지고 했는지를 알려줄 수 있는 값이다.

 

표준편차와 표준오차를 사용하는 것은 논문을 작성하는 사람의 판단에 따르는데, 주로 표준오차를 사용한다. 숫자가 더 작기 때문이다.  하지만 의미하는 바는 같다.

표준오차를 사용하면서 작은 숫자를 보여주는 것은

"나는 반복을 많이 해서 뒤지게 고생했으니 이 데이터는 믿을만 합니다." 라고 절규하는 것이라서.

다른 과학자들 보기에 더 좋을 수 밖에 없다.

 

논문작성법에 대해서/ 책추천

논문작성법 - 들어가며

논문작성법 - 1. 논문이란?

논문작성법 - 1-1. 논문의 구성?

논문작성법 - 1-2. 논문을 쓰는 이유/ 1-3. 1저자의 요건/1-4. 과제

논문작성법 - 2. 논문을 찾는 방법 - 구글 스칼라 이용

논문작성법 - 2. 논문을 찾는 방법 - 논문을 읽는 방법에 대해서

논문작성법 - 3. 실험계획 세우기

논문작성법 - 3. 실험계획 세우기2

논문작성법 - 3. 실험계획 세우기3

논문작성법 - 4. 데이터 분석 - 엑셀 사용법

논문작성법 - 4. 데이터 분석 - Sigma plot 사용과 SAS 사용법

논문작성법 - 5. Results의 작성

논문작성법 - 6. Introduction/ Discussion 작성논문작성법 - 3. 실험계획 세우기3

 

 

 

 

 

 

 

반응형