수학

랜덤 변수의 기대값, 분산, 상관성이라는 용어에 대한 이해

망고토마토 2023. 10. 29. 19:14
반응형

랜덤변수의 기대값
랜덤변수의 기대값을 풀어서 설명하면 다음과 같다. 
 
발생할 수 있는 랜덤변수와
그 랜덤변수가 발생할 수 있는 확률을 곱한다. 
 
랜덤 변수마다 확률을 곱하고 이것을 전부 다 더하면
랜덤변수에 대한 기대값을 얻을 수 있다. 
 
수학적으로 표현하면 다음과 같다. 

mean

x는 랜덤변수, f(x)는 확률 밀도 함수이다. 
E[X]는
랜덤변수 x의 기대값, 평균값
랜덤 변수 x의 분포에 대한 평균값,
랜덤변수 x의 First moment라고 불린다. 
 
랜덤변수 제곱값의 평균(mean squared value)
랜덤변수 x의 분포에 대한 통계적인 특성을 표현하는 방법으로 mean squared value가 있다.
확률변수 x의 second moment 라고 불리기도 한다. 

mean squared value

 
확률변수 x의 root mean suared value라는 용어가 있는데 이것은 E[X^2]의 제곱근(square root)이다. 
 
랜덤변수의 분산(variance)
(랜덤변수 X - 랜덤변수 X의 평균값) 제곱의 평균 값을 랜덤변수 X의 분산이라고 한다. 
랜덤변수가 발생할 때마다, 랜덤변수가 평균값으로부터 얼만큼 떨어져 있는지를 평균하여 보여주는 용어이다. 
수학적으로 표현하면 다음과 같다. 

분산의 제곱근 값이 랜덤변수의 표준편차(standard deviation)이다.
 
분산이라는 말이 잘 와닿지 않았다.
다음 영상에서 분산과 공분산에 대해 직관적으로 설명하고 있다.
https://youtu.be/-KR3h6G0OGE?si=-PGNSHW7-tCUa8jS

위 영상에서 말하는 것은
1. 분산의 단위는 랜덤변수 단위의 제곱이다.
2. Variance 를 분산 대신, 변화하는 양 변량으로 생각하자
  변량은 랜덤변수가,  랜덤변수의 평균보다 크거나, 작거나, 그 변화의 정도를 보여주는 지표이다.

3. 두개의 랜덤변수 A,B가 있다. 공변량(공분산)은
랜덤변수 A의 평균 기준 A의 변화량 (+, -)과
랜덤변수 B의 평균 기준 B의 변화량(+,-)을 곱한 개념이다

랜덤변수 A와 B에 대항 공변량 값이 +이고
랜덤변수 A의 변화량이 평균보다 높다면
랜덤변수 B의 변화량 또한 평균보다 높다는 것을 의미한다.

공변량(공분산)은 두 랜덤변수의 변화량의 방향이 같은가 아닌가를 알려준다.
또한 공변량 값이 크면
A랜덤변수의 변화가 B랜덤변수의 변화왜 관련이  크다, 연관 되어 있다는 것을 말한다.
공변량 값이 0이면  A 랜덤변수의 변화가 B 랜덤변수의 변화와 관련이 없다는 것을 의미한다.

랜덤변수간 상관성(correlation), covariance
 
두가지 종류의 랜덤변수가 있다. 하나의 랜덤변수가 나머지 한개의 랜덤변수와 얼마나 연관성이 있는지를 나타내는 지표가 covariance이다. co + varaince 라는 단어를 보면, 앞에서 언급되었던 분산(variance)과 관련이 있는 것을 알 수 있다. 
 랜덤변수 X,Y 각각의 편차를 곱한 것의 기대값이 covariance이다. 
 

 
랜덤 변수 X,Y의 covariance를 X,Y의 표준편차로 정규화(normalized)한 것이 correlation coefficient(상관계수)이다. 

characteristic function
랜덤변수 분포의 정도가 어느정도인지를 나타내는 지표로 characteristic function이 있다. 

 
랜덤변수의 characteristic function이 주어진다면 랜덤변수의 확률 밀도 함수를 다음과 같이 구할 수 있다. 

랜덤변수 X의 moments를 다음과 같이 구할 수 있다. 

반응형