대푯값, 산포도, 평균, 분산, 표준편차

숫자로 된 자료가 있을 때, 그 자료의 특성을 나타내는 수는 두가지가 필요합니다. 하나는 대푯값 또하나는 산포도입니다.

대푯값이란, 자료를 잘 나타낼 수 있는 수, 즉 자료를 대표할 수 있는 값을 말합니다. 대푯값에는 평균, 중앙값, 최빈값 등이 있는데, 가장 많이 쓰이는 것은 평균입니다.

산포도란, 자료가 흩어져있는 정도를 나타내는 값을 말합니다. 분산, 평균편차, 데이터 범위 등이 있는데, 가장 많이 쓰이는 것은 분산입니다.

평균

전체 자료의 합을 전체 자료의 개수로 나눈 값을 평균이라고 합니다. 예를 들어 세과목 시험을 봐서 50점, 60점, 70점을 받았다고 하면 평균은 다음과 같이 계산합니다.

\begin{gather*}
\frac{50+60+70}{3} = 60
\end{gather*}

마찬가지 방식으로 $ x_1 $, $ x_2 $, $ x_3 $, $ \cdots $, $ x_n $까지 총 $ n $개의 자료의 평균은 다음과 같이 계산합니다.

\begin{gather*}
\frac{x_1 + x_2 + x_3 + \cdots + x_n}{n}
\end{gather*}

10과목 시험 봤는데 50점이 3개, 60점이 4개, 70점이 3개라 하면 평균을 다음과 같이 계산합니다.

\begin{gather*}
\frac{50 \times 3 + 60 \times 4 + 70 \times 3}{3+4+3}
\end{gather*}

마찬가지 방식으로 $ x_1 $이 $ f_1 $개, $ x_2 $이 $ f_2 $개, $ x_3 $이 $ f_3 $개, $ \cdots $, $ x_n $이 $ f_n $개 있다면 평균을 다음과 같이 계산합니다.

\begin{gather*}
\frac{x_1 f_1 + x_2 f_2 + x_3 f_3 \cdots + x_n f_n}{f_1 + f_2 + f_3 + \cdots + f_n}
\end{gather*}

분산

변량에서 평균을 뺀 것을 편차라고 하고, 편차 제곱의 평균을 분산이라 합니다. 예를 들어 세과목 시험을 봐서 50점, 60점, 70점을 받았다면, 평균이 60점이므로 분산은 다음과 같이 계산합니다.

\begin{gather*}
\frac{(50-60)^2 + (60-60)^2 + (70-60)^2}{3}
\end{gather*}

마찬가지 방식으로 $ x_1 $, $ x_2 $, $ x_3 $, $ \cdots $, $ x_n $까지 총 $ n $개의 자료의 평균이 $ m $이라 하면, 분산은 다음과 같이 계산합니다.

\begin{gather*}
\frac{(x_1 -m)^2 + (x_2 -m)^2 + (x_3 -m)^2 + \cdots + (x_n -m)^2}{n}
\end{gather*}

10과목 시험 봤는데 50점이 3개, 60점이 4개, 70점이 3개라 하면 평균이 60점 이므로 분산은 다음과 같이 계산합니다.

\begin{gather*}
\frac{(50-60)^2 \times 3 + (60 -60)^2 \times 4 + (70-60)^2 \times 3 }{3+4+3}
\end{gather*}

마찬가지 방식으로 $ x_1 $이 $ f_1 $개, $ x_2 $이 $ f_2 $개, $ x_3 $이 $ f_3 $개, $ \cdots $, $ x_n $이 $ f_n $개의 평균이 $m$이라 하면 분산은 다음과 같이 계산합니다.

\begin{gather*}
\frac{(x_1 -m)^2 f_1 + (x_2 -m)^2 f_2 + (x_3 -m)^2 f_3 \cdots + (x_n -m)^2 f_n}{f_1 + f_2 + f_3 + \cdots + f_n}
\end{gather*}

분산의 특징은 평균에서 먼 값이 많을 수록 값이 커진다는 것입니다.

표준편차

표준편차는 분산의 양의 제곱근을 말합니다. 변량의 단위가 $ m $라고 할 때, 분산의 단위는 $ m^2 $이 되므로, 근호를 씌워서 변량과 단위를 맞춘다고 보시면 됩니다.