본문 바로가기

테크/데이터

[데이터기초] 기술통계 그리고 추리통계

기술통계란? (Descriptive Statistics)

수집한 자료를 분석해서 데이터 대상등의 속성을 파악하여 분석하는 통계적 방법을 의미합니다.

 

조사 대상(모집단)의 특성을 알기위해 표본을 추출하여 조사 및 분석을 수행하고 표본의 특징을 파악하기 위해 도수분포표나 표본 통계값을 계산하여 표현하기도 하는데 이를 기술 통계량이라고 합니다. 

 

기술통계량은 표본자료를 요약하는 과정에서 발생하는 정보의 손실을 최소화 하고 요약정보의 활용효과를 높여주는 특징을 가지고 있기도 하지요. 가장 기본적인 가설겅정부터 고급 통계분석에 필요한 기초 정보가 되기 때문에 가장 먼저 시작하는 데이터 분석이기도 합니다. 이런 기술통계는 빈도분석, 기술통계분석, 데이터분석 등의 기초통계분석을 이용합니다. 대표적인 기술통계분석은 평균과 표준편차 입니다. 중심경향값을 의미하는 평균과 분산도를 의미하는 표준편차를 아래에서 설명하겠습니다.

 

1. 중심경향값

 

1) 표본평균(sample mean)

 

관측값의 합계를 관측값의 개수로 나눈 것을 표본평균이라고 합니다. 즉, 전체 자료가 가지는 수치들의 총합을 전체 자료의 숫자로 나눈것을 의미합니다. 표본평균은 계산이 쉽고 일반적으로 더 많이 사용하지만 표본의 크기가 작은 경우에는 중심경향을 제대로 반영하지 못한다는 단점도 존재합니다. 표본의 크기가 작은 자료에서 평균보다 상당히 크거나 작은 극단값이 포함되어 있다면 평균값이 중심으로부터 크게 벗어나 중심경향값의 성질을 잃게 됩니다.

 

2) 중앙값(median)

 

최대값과 최소값의 정가운데 수치를 의미합니다. 즉, 관측값을 크기 순서대로 정렬하여 가운데 위치한 관측값을 중앙값이라고 합니다. 관측값의 갯수가 홀수이면 정가운데 위치한 관측값이 중앙값이며, 짝수일 경우 가운데 위치한 2개의 관측값의 평균이 중앙값이 됩니다. 

 

3) 최빈값(mode)

 

가장 많은 빈도를 보이는 수치를 의미하며 그 관측값을 최빈값이라고 부릅니다. 관측한 값의 빈도가 모두 같다면 최빈값은 존재하지 않습니다. 가장 많은 빈도를 보이는 관측값이 많다면 최빈값은 여러개가 존재할 수도 있습니다. 따라서, 중심경향값을 반영하는 기술통계량이지만 평균과 중위수를 같이 검토해야 합니다.

 

2. 분산도(산포도)

 

1) 범위(Range)

 

관측값 중에서 최대값에서 최소값을 뺀 값을 범위라고 합니다. 가장 계산하기 쉬운 기술통계이기도 하지만 극단값에 영향을 받으므로 산포도를 파악할때 보조적인 통계량으로 활용해야 합니다.

 

2) 분산(Variance)

 

각 자료가 평균으로부터 떨어진 거리(편차)들을 제곱한 수치들의 총합을 전체 자료의 수로 나눈 값을 의미합니다. 표본의 분산은 S의 제곱으로 표시됩니다.

 

3) 표준편차(Standard Deviation)

 

분산에 제곱근을 취한 값을 의미합니다.

 

평균, 분산, 표준편차 식

3. 분포도

 

1) 왜도(Skewness)

 

분포가 평균을 중심으로 기울어진 방향과 그 정도를 나태내는 기술통계를 의미합니다. 분포의 비대칭 정도를 나타내는 척도로 활용됩니다.

 

s = 0 : 정규분포와 동일한 좌우대칭
s < 0 : 오른쪽으로 치우침
s > 0 : 왼쪽으로 치우침

 

2) 첨도(Kurtosis)

 

평균과 표준편차에 의한 정규분포와 비교했을때 그 분포의 모양이 얼마나 뾰족한지 납작한지 나타내는 기술통계를 의미합니다. 즉, 분포의 뾰족한 정도를 나타내는 통계값이라고 할 수 있습니다.

 

K = 0 : 정규분포와 뾰족함이 동일
K < 0 : 정규분포보다 납작함
K > 0 : 정규분포보다 뾰족함

 

추리통계란?

모집단을 대표하는 표본을 추출하고 표본의 기술통계를 이용해 모집단의 속성들을 유추하는 통계방법을 의미합니다.

 

간단히 말해서 여론조사의 신뢰구간을 말할 때 추리통계를 사용하게 됩니다. 대구시장을 뽑는 선거가 있을때 대구지역의 40대 표심을 알기위해서 모든 사람에게 전화를 돌릴 수 없으니 임의로 뽑아낸 적은 수의 사람을 대상으로 표본을 수집하고 40대의 지지율을 추정하는 것을 의미합니다.