본문 바로가기

논문/논문통계

표준편차 구하는 방법 쉽게 알아보기_퀵데이터

실제 표준편차(σ)를 사용하면 데이터의 흩어진 정도를 알 수 있습니다.

이 표준편차는 어떻게 계산할까요?

먼저 편차를 알아야 하는데 편차란 각 데이터가 평균값에서 어느 정도 떨어져 있는가를 나타냅니다.

편차 = 데이터 값 - 평균값

마케팅 부서 A팀과 B팀이 각 10명씩 실적 평가를 했다고 가정해 볼게요.

아래와 같이 평가 점수표가 있는데 그래프의 방향과 크기로 편차의 차이를 시각화 했습니다.

두 데이터는 평균값이 5점으로 같지만 편차를 시각화해서 비교해보면 A팀이 더 많이 흩어져 있음을 알 수 있죠?

 

*평균 0에 양수와 음수로 표현되는 편차를 모두 더하면 반드시 0이 됩니다.

표준편차와 분산 : 편차를 사용해 흩어진 정도를 표현하는 두 가지 방법

그렇다면 A팀이 더 흩어져 있다는 것을 설명하려면 어떻게 할지 두 가지 방법을 알아보겠습니다.

ⅰ) 편차를 양수로 바꾸어서 더한다.

양수와 음수의 모든 값을 양수라 생각하고(절대값), 그 합계를 데이터 수로 나누는데 이것이 평균편차 입니다.

A팀의 평균편차 : 3+2+2+1+1+0+2+2+2+3 = 18, 18 ÷ 10 = 1.8

B팀의 평균편차 : 2+1+1+0+0+0+1+1+1+1 = 8, 8 ÷ 10 = 0.8

☞ 각팀의 평균편차를 비교하면 A팀의 흩어진 정도가 더 큼을 알 수 있어요.

ⅱ) 편차를 제곱해서 더한다.

양수 음수 모두 편차를 제곱하여 합계(편차제곱 합)를 구한 다음 데이로 수로 나눈데 이것이 분산 입니다.

$\combi{A팀의\ 분산:\ \left(-3\right)}^2+\combi{\left(-2\right)}^2+\combi{\left(-2\right)}^2+\combi{\left(-1\right)}^2+\combi{\left(-1\right)}^2+\combi{0}^2+\combi{2}^2+\combi{2}^2+\combi{2}^2+3^2=40,\ \ 40\div 10=4$A : (3)2+(2)2+(2)2+(1)2+(1)2+02+22+22+22+32=40,  40÷10=4

$\combi{B팀의\ 분산:\ \left(-2\right)}^2+\combi{\left(-1\right)}^2+\combi{\left(-1\right)}^2+0^2+0^2+\combi{0}^2+\combi{1}^2+\combi{1}^2+\combi{1}^2+1^2=10,\ \ 10\div 10=1$B : (2)2+(1)2+(1)2+02+02+02+12+12+12+12=10,  10÷10=1

☞ 각팀의 분산을 비교하면 A팀의 흩어진 정도가 더 큼을 알 수 있어요.


평균편차든 분사인든 A팀 값이 더 큰데, 평균편차도 분산도 흩어진 정도를 나타내는 지표인 산포도 입니다.

그러나 평균편차는 거의 사용하지 않습니다.

왜 그런지 알아볼게요.

평균값 0에 대하여 2(A), 3(B), -2(C), -3(D)의 편차를 생각해보죠.

절대값을 구할 때 원래의 값 x에 세로선을 써 |x|라고 표기하는 것은 다 아시죠?

|-3|=3, |3|=3 과 같이요.

그런데 |X|=X라고 하면 | | 안의 값과 같은 우변의 값도 같게 표기해야 합니다.

|-2| = 2 ⇒ |-2| = -(-2) 처럼요.

이것을 수식으로 값을 X라 한 경우 다음처럼 표기할 수 있어요.

|X| = -(X) = -X ⇒ |X| = -X

따라서

|X| = X(X≥0), -X(X≤0)

X의 절대값은 X의 값이 0이상일 때는 X, 0이하일 때는 -X가 됩니다.

언뜻 보면 단순한 것처럼 보이지만 절대값을 사용하면 수학적으로 좀 더 복잡해 집니다.

반면 분산은 수학적으로 다루기 쉽지만 주의할 점이 있습니다.

A팀 데이터로 분산을 구해보는데 이때 단위를 눈여겨 보세요.

 

각 점수에서 평균값 5점을 빼고 난 편차값에 제곱 후 모두 더하는데 이때 단위는 점입니다.

만약 단위가 cm의 길이라면 cm2 으로 바뀌어 면적이 되어 버립니다.

단위가 달라지면 원래 데이터와 비교할 수 없기 때문에 주의해야 합니다.

$\combi{A팀의\ 분산:\ \left(-3\right)}^2+\combi{\left(-2\right)}^2+\combi{\left(-2\right)}^2+\combi{\left(-1\right)}^2+\combi{\left(-1\right)}^2+\combi{0}^2+\combi{2}^2+\combi{2}^2+\combi{2}^2+3^2=40,\ \ 40\div 10=4$A : (3)2+(2)2+(2)2+(1)2+(1)2+02+22+22+22+32=40,  40÷10=4

편차제곱의 합을 데이터 수로 나눈 것이 분산 입니다.

데이터 값의 흩어진 정도를 보기에 분산은 매우 유용한 기법입니다.

그러나 제곱해서 값을 모두 양수로 만들면 단위가 바뀌니까 주의해야겠죠.

통계학은 수학과 마찬가지로 생각하는 방법이나 기법을 일반화해 누구나 공유할 수 있도록 하는 학문입니다.

음의 부호가 붙어 있어도 떼어내면 된다는 개념의 절대값은 언뜻 보면 편리한 것 같죠?

그러나 수학적으로 어떤 값을 이런저런 이유로 양의 부호를 붙이고 음수를 양수로 만들면 실제로 더욱 복잡해집니다.

반면 분산의 제곱은 값이 양수든 음수든 제곱하면 모두 양수가 되어 수학적으로 사용하기 쉽습니다.

표준편차와 표준점수 : 표준편차 몇 개만큼 떨어져 있는가

분산은 편차를 제곱해 모두 더한 값을 데이터로 나눈 값입니다.

즉 편차를 제곱한 값(편차제곱)의 평균값 입니다.

그러나 분산은 단위까지 제곱하는 문제가 있죠.

이를 해결하고 각각의 데이터 값이 평균값에서 어느 정도 떨어져 있는지 나타낸 지표가 바로 표준편차(σ)입니다.

분산의 제곱근(√)을 계산해 제곱한 단위를 원래의 값으로 되돌림으로써 표준편차를 구할 수 있습니다.

σ몇 개에 해당하는지 나타내는 것 표준점수 입니다.

1σ를 표준점수 1로 하고 평균값을 편차값 50으로 한 경우 평균값 보다 표준점수 1이 높은 값은 편차값 60입니다.

그럼 이제 표준편차를 구해보도록 하겠습니다.

표준편차 구하기

A팀 데이터

2, 3, 3, 4, 4, 5, 7, 7, 7, 8, (점)

A팀 평균값 : μA = 5(점)

A팀 편차제곱을 모두 더한 값

-3, -2, -2, -1, -1, 0, 2, 2, 2, 3(점)

A팀 편차제곱을 모두 더한 값

(-3)2+(-2)2+(-2)2+(-1)2+(-1)2+(0)2+(2)2+(2)2+(2)2+(3)2 = 40(점)

A팀 분산

40 ÷ 10 = 4 (점2)

*편차를 제곱했기 때문에 분산의 단위는 점2 입니다.

A팀 표준편차

σA = √4 = 2

*원 데이터와 단위를 같게 만들려고 분산의 √(제곱근)을 구한 값이 표준편차 입니다.

이때 단위는 원래의 (점)으로 돌아갑니다.

σA = 2 를 사용해 표준점수와 편차값을 구해볼게요.

$표준점수\ =\ \frac{데이터-\ 평균값}{표준편차}=\ \frac{편차}{표준편차}$ =  = 

$편차값=\ 50+표준점수\times 10=50+\frac{데이터-평균값}{표준편차}\times 10$= 50+×10=50+×10

A팀에서 가장 높은 8점의 표준점수와 편차값을 구해보겠습니다.

표준점수

(8 - 5) ÷ 2 = 1.5

편차값

50 + 1.5 × 10 = 65

표준점수는 평균값에서 표준편차 몇 개만큼 떨어져 있는가를 나타내는 값입니다.

이것은 편차가 표준편차의 몇 배인지를 나타낸 것과 같습니다.

결국 표준편차는 편차의 기준이 되는 값입니다.

이상 퀵데이터에서 표준편차 구하는 방법을 알아보았습니다~~^^

 

​(주)한국교육데이터

 

 

#편차 #데이터 #표준편차 #분산 #편차제곱 #표준점수 #제곱값 #기업통계 #논문통계 #통계분석 #퀵데이터 #한국교육데이터