기술통계학은 모양(shape), 중심경향치(central tendency), 일련의 자료 내에서 변이(variability within a set of data)를 기술하는데 이용된다.
◆ 모수(parameter) : 모집단(population) 특성을 기술하는 측정값
◆ 표본통계량(statistic) : 표본의 특징을 나타내는 값, 표본자료로부터 계산된 수치
ex) 표본평균, 표본분산 등
1. 빈도분포 | 2. 분포의 모양 1) 왜도 2) 첨도 |
3. 대푯값 1) 평균값 2) 중위수 3) 최빈치 4) 평균, 중위수, 최빈치의 비교 |
4. 산포도 1) 범위 2) 백분위와 사분위 3) 분산 4) 표준편차 5) 변이계수(변동계수) |
1. 빈도분포
1) 도수분포(frequency distribution), 퍼센트(%), 누적 퍼센트(cumulative %)를 부가적으로 표시하기도 한다.
2) 시각적 제시
- 막대그래프(bar chart)
- 히스토그램 : 막대그래프와 비슷하지만 x축이 연속변수로 막대그래프 사이의 빈공간이 없다.
- 원그래프(pie chart)
- 꺽은선그래프(frequency polygon)
- 줄기-잎 그림(stem0and leaf plot) : 원 자료 모습을 그대로 유지하면서 연속적인 변수 분포의 모양을 나타낼 수 있다.
2. 분포의 모양
1) 정규분포(normal distribution) 혹은 가우스분포(Gauss distribution)
: 대부분의 점수가 척도의 중앙에 몰리고 양극단으로 갈 수록 점차 감소
2) 왜곡분포(skewed distribution) : 비대칭적
3) 왜도(skewness) : 분포가 대칭에서 얼마나 기울었는지 나타냄
= 값들의 분포가 중심으로부터 좌우대칭에서 얼마나 벗어나 있는지를 보여주는 지수
S = 0 : 대칭
S > 0 : 오른쪽으로 기울어짐
S < 0 : 왼쪽으로 기울어짐
4) 첨도(krutosis) : 분포의 뾰족한 정도
K = 0 : 정규분포
K > 0 : 정규분포보다 뾰족
3. 대푯값
1) 평균값(mean, average)
① 극단값에 영향 받음
② 종류 : 산술평균, 조화평균, 기하평균, 절삭평균(상,하위 5% 제거하고 봄) 등
③ μ : 모집단의 평균
④ 표본의 평균 나타내는 기호
⑤ 평균 ≠ 정상수준 : 정상수준이지만 평균에 못 미칠 수 있다.
⑥ 평균은 전체적인 모양을 나타내는 좋은 방법이다. 그러나 평균만으로는 전체를 나타낼 수 없다.
2) 중위수(median)
① 자료를 순위별로 나열하였을 때 두 부분으로 똑같이 나누어 주는 수
ex) 4,5,6,7,8,9 에서 중위수는 6과 7사이에 놓이므로 6.5
② 중심경향치로 중위수를 사용하면 극단값에 의한 영향을 받지 않는다.
③ 중위수는 치우친 분포를 나타내는 왜곡된 분포를 기술할 때 유용한 중심경향치이다.
3) 최빈치(mode)
① 분포에 있어서 가장 빈도가 높은 수치
② 쌍봉분포(bimodal distribution, 최빈치가 두개), 다봉분포(multimodal distribution, 최빈치가 3개 이상)
③ 범주형 변수(categorical variable)로 자료가 측정된 경우 유용하다.
④ 연속적인 자료에서 최빈치로 중심경향치를 알아보는 경우는 드물다.
4) 평균, 중위수, 최빈치의 비교
: 어떤 것이 통계학적으로 유용한지 고려해서 제시해야 한다.
① 변수의 측정 수준(<측정의 수준 자세히 보기)도 중요한 고려사항 중 하나
② 평균이 가장 유용하기는 하지만, 중심경향을 측정하는 세 가지(평균, 중위수, 최빈치) 모두 등간척도 혹은 비척도로 측정되었으면 적용이 가능하다.
③ 명목척도로 측정된 자료는 오직 최빈치가 의미가 있다.
④ 서열척도 수준에서 측정되었으면 중위수와 최빈치를 구할 수 있다.
⑤ 정규분포하는 자료에서는 평균, 중위수, 최빈치 모두 유용
⑥ 치우친 분포에서는 평균, 중위수, 최빈치 모두를 보고해야 함.
4. 산포도
: 측정값들이 대푯값 주변에 얼마나 흩어져 있는가?
1) 범위 Range
① 산포도를 가장 간단하게 알아보는 방법
② 분포에서 가장 높은 값과 가장 낮은 값 사이의 차
③ 표본의 크기가 다른 2개으 ㅣ집단을 비교할 때는 범위를 이용하여 비교하는 것이 어렵다.
④ 대략적인 기술통계량을 보고할 때 사용
⑤ 실제 연구에서는 주로 다른 산포도 지수와 병행하여 제시됨
2) 백분위와 사분위 Percentiles and quartiles
① 백분위 : 한 분포 내에서 특정한 점수의 상대적인 위치를 기술
ex) A의 시험 점수가 92번째 백분위이다. : 시험을 치른 학생 중 92%는 A의 점수보다 아래에 있다.
② 사분위 : 백분위를 네 부분으로 나눈 것
- 제1사분위 : 25번째 백분위
- 제2사분위 : 50번째 백분위
- 제3사분위 : 75번째 백분위
3) 분산 Variance
① 각 측정값과 산술평균의 편차를 제곱한 것의 평균
② 분산이 작다 = 측정값들의 평균값 가까이에 분포한다
③ 분산이 크다 = 측정값들이 평균값을 중심으로 퍼져있다.
④ 모집단 분산(σ²) : ∑(측정값 - 모집단평균값) ² / n
⑤ 표본분산(s²) : ∑(측정값 - 표본평균값) ² / n-1 (표본자료는 모집단에서의모든 관찰값들을 포함하지 않기 때문에, 실제 모집단 분산보다 표본분산이 더 작게 된다. 이런 차이를 보상하기 위해 n-1로 나눈다.)
⑥ 기술통계량으로서 분산은 잘 사용되지 않고 분산분석을 할 때 주로 이용된다.
4) 표준편차 Standard deviation, SD : 분산의 제곱근형태
① 표준편차 = s, 모표준편차 = σ
② 표준편차가 크다 = 표본안에서 변이의 정도가 크다
③ 표준편차가 작다 = 표본 안에서 측정값들의 변이정도가 작다
* 표준편차(SD)는 평균을 중심으로 모여있는 정도 즉, 산포도를 나타내는 측정치
* 표준오차(SE)는 표본평균들의 표준편차, 추정된 모평균의 정밀성(precision)을 나타내는 것으로 기술통계량이 아님!
* 표준편차(SD)가 표준오차(SE)보다 적게 나온다고 평균±표준편차(SD)로 표현하는 것은 틀린 표현
5) 변이계수(변동계수) codfficient of variation, CV
① 표준편차를 평균으로 나눈 수치를 의미하는 것으로 x100을 하여 백분율로 나타낸다.
② 두 집단의 평균이 다른 경우 표준편차를 이용하여 산포도를 비교하는 것은 적합하지 않으므로 변이계수 사용
③ 측정단위가 다르거나 대푯값의 차이가 큰 두 자료의 산포도를 비교하기 위하여 사용한다.
④ 등간척도 이상에서 측정된 자료를 기술하는 데 사용될 수 있다.
⑤ 변이계수가 작다는 것은 자료의 변이가 작다는 것을 의미한다.
출처: 이충휘, 「물리치료사와 작업치료사를 위한 연구방법론」, 제6판, 계축문화사, 2003.
'연구방법론' 카테고리의 다른 글
기초통계학 정리(기술통계, 추론통계, 정규성검정 etc.) 및 순서 (0) | 2024.06.20 |
---|---|
정규분포(Normal distribution)와 정규분포 확인하는 방법 (0) | 2024.06.20 |
기초통계학(1): 기술통계학과 추론통계학 (1) | 2024.06.20 |
모집단과 표본과 표본추출기법(Sampling) (0) | 2024.06.20 |
측정의 수준(Level of Measurement)과 변수(Variable) (0) | 2024.06.19 |