99 MMLAB 신입생교육 수학 보충교재                                         이수형 씀

제 1 과  확률 변수 (Random Variable)

버전 1.1 최종수정일 990108

 

확률변수(random variable)란 컴퓨터 프로그래밍에서의 변수와 같은 것인데, 어떤 값을 취하느냐가 확률적으로 결정되는 변수이다. 그래서 앞으로는 간략하게 '변수'라고 기술하기로 한다.

확률변수는 영문자 대문자로 쓰고 그 변수가 취할 수 있는 값 하나하나에 대해서는 소문자로 쓴다.

 

예를 들어 보자. 주사위를 한번 굴려 나온 값을 나타내는 변수 X는 1,2, ...,6의 값을 가질 수 있는데, 각 값을 가질 수 있는 확률은 모든 값이 동일해서 모두 1/6이다.

변수에 결부되어있는 확률을 표현하는 데에는 두 가지 방법이 있다. 밀도(혹은 질량)과 분포가 그것이다.

먼저 밀도(혹은 질량)은 다음과 같은 것이다. (노파심에서 하는 말인데, 함수의 그래프를 보는 요령이란 먼저 각 축이 무엇을 의미하는 것인지를 봐야하고 흰종이를 덮어서 가린다음에 오른쪽으로 조금씩 밀어가면서 본다는 식으로, 즉 정의역의 원소 하나당 공변역의 어떤 원소가 매핑되는지를 보는 것이다. 이건 그림 감상이 아닌 것이다.)

 

 

분포는 다음과 같은 것이다.

 

 

즉 분포함수는 질량을 누적합한 것(또는 밀도를 적분한 것)이다.

 

이걸 수식으로는 다음과 같이 쓴다.

이산변수 X가 값 x를 가질 확률을 확률질량함수(probability mass function; pmf)라 부르고 라고 쓴다. .

(P[X=x]란 'probability that X equals x'라고 읽는다. P[·] 안에 들어가는 것을 '사건'이라 부르며, 쉼표가 있다면 AND의 의미이다. 쉼표가 연결하는 각각도 물론 사건이다. 세로막대기 |가 있으면 그 뒤에 있는 것은 조건절이다. 조건부 확률인 것이다.)

변수 X가 값 x이하를 가질 확률을 확률분포함수(cumulative distribution function; cdf)라 부르고 라고 쓴다. .

연속변수 X가 값 x 주변에서 가질 확률밀도를 확률밀도함수(probability density function; pdf)라 부르고 라고 쓴다. .

 

익히 잘 알고 있는 정규분포의 종 모양 그림이 바로 밀도함수의 그림이다.

분포함수는 밀도함수(혹은 질량함수)를 적분한 것으로서, 무한대로 가면 반드시 1의 값을 가지며 음의 무한대로 가면 0을 가질 것이다.

 

평균은 변수를 샘플링할 때 얻을 수 있는 값에 대한 기대치인데,

주사위의 경우 1을 낼 확률이 1/6 ,... , 6을 낼 확률이 1/6이므로

1* 1/6 + ...+ 6* 1/6 = 3.5 가 된다.

 

이를 수식으로 쓰면 다음과 같다.

변수 X의 평균을 E[X]라 표기하고, 다음과 같이 정의된다.

 

여기에서 다음이 유도된다.

 

분산은 변수의 값을 찍어야 할 때 평균값으로 찍는다면 얼마나 잘 맞을지를 나타내는 척도로서 고안된 것이다. 평균값에서 벗어나는 정도를 그때의 확률로 가중평균하면 될 텐데, 평균값에서 벗어나는 정도를 뭘로 할 것인가가 문제였다.

값 x는 평균 로부터 얼마나 떨어져 있는 걸까? (이를 '편차'라 부른다)로 하는 걸 일단 생각할 수 있는데 그건 확률로 가중평균하면 무조건 0이 나오므로 관두고, 절대값을 취해서 로 하는 게 좋아보이지만 계산이 좀 힘들어져서 (물론 의미적으로 이해가 쉬우므로 통계에서는 쓰인다. 하지만 곱셈공식이나 인수분해 등을 적용할 수 없기 때문에 확률론에서는 활용도가 떨어지는 것이다.), 와 같이 제곱을 하는 것을 생각해내었다.

 

변수 X의 분산은 Var[X]로 쓰고, 다음과 같이 정의된다. (적분 안의 E[X]는 이미 상수라는 것을 염두에 둘 것)

 

여기서 E[·]이라는 기호를 좀 잘 써보면 이를 좀더 멋있게 표현할 수 있다.

X의 평균 이란 (X로서 가능한 값)*(X가 그 값이 나올 확률)을 모든 가능한 값에 대해 더한 것이라는 걸 생각하자.

X의 확정적인 함수 g(X)의 평균을 구해보자. 우선 g(X)는 X가 값을 취함에 따라 꼭두각시처럼 그에 상응하는 값을 취하는 새로운 변수라는 것을 알 수 있다. (그 예로는 2X+1 같은 걸 들 수 있다.) 따라서 g(X)라는 변수의 평균을 구할 때, g(X)의 밀도함수를 쓰는 게 아니라 X의 밀도함수를 써서 나타낼 수 있다는 것을 알 수 있다. .

이와 같은 논리로, .

 

(E[·]라는 기호가 사용된 경우 그것을 이해하는 요령은 대괄호 안에 확률변수가 무엇인가를 파악하는 것이다. 두 개의 변수가 들어있는 경우에는 다음과 같이 되기 때문이다, . )

 

이걸 또 풀어보면,

.

 

분산의 루트는 표준편차라 하고 라 표시한다. 표준편차가 분산에 대해 가지는 장점은 제곱된 값이 아니라는 데 있다. sec에서 msec로 단위를 바꾸어도 백만 배가 되지 않고 얌전히 천 배가 되는 것이다.

표준편차를 평균으로 나눈 것을 C.O.V.(Coefficient of variation)이라 부르며 단위에 무관한 무명수라는 장점이 있다.

n차 모멘트는 값을 n승 해서 평균한 것, 를 말하며 '중심(central)'이라는 말이 앞에 붙으면 편차를 n승해서 평균한 것, 이다. 분산은 2차 중심모멘트인 것이다.

 

X의 range는 X의 최대값에서 최소값을 뺀 것이다.

X의 확률밀도(또는 질량)함수에서 최대값을 갖는 점을 mode라 한다. mode는 가장 나올 확률이 높은 대표값인 것이다. bimodal은 같은 높이의 봉우리가 두 개인 밀도함수를 말하는 것이다. 통계에서는 확률분포 . 밀도 . 질량 따위는 알 턱이 없고 관측치의 빈도(frequency)만을 알 수 있을 뿐인데, bimodal 운운은 통계에서는 빈도를 보고 말하게 된다.

통계학에서는 샘플을 떠서 그 분포를 알아내려는 시도를 하게되는데, 샘플 안에 관측치(observation)가 100개 있다면 소팅해서 50번째 값을 median이라 하고, 25번째 값과 75번째 값들을 각각 첫째 셋째 quartile이라 하고, 그것말고 다른 것들도 백분위(1~100이면 percentile, 0~1이면 quantile)이라하여 지정할 수 있다. median은 엉뚱한 관측치(이를 outlier라 부른다.)가 포함되어도 mean에 비해 영향을 덜 받으므로 통계학에서 중요시된다. 첫째 셋째 quartile의 차를 inter-quartile range라 하고 그 반을 SIQR이라 부르는데, 이는 표준편차 같은 것의 대용으로 쓰이고 역시 outlier에 대해 강한 특성을 보인다. 이 샘플이 어떤 확률변수로 모델링될 수 있을 것인가를 판별하기 위해서는, 샘플에서의 백분위 값들과 그 분포에서의 백분위 값을 비교하는 방법이 사용된다. median, quartile, 백분위 등은 원래 통계에서 온 것이지만 확률론에서도 정의할 수 있는데, 이는 확률분포함수의 역함수를 생각함으로써 이루어진다. 분포에서의 median 값은 분포함수값이 0.5가 되는 값을 말하는 것이고, 첫째 quartile은 0.25일 때의 값으로 정의되는 것이다.

편차의 절대값을 평균한 것은 평균절대편차(mean absolute deviation)라고 한다.

편차의 3승을 평균해서 표준편차의 3승으로 나눈 것, (이를 coefficient of skewness라 부른다)도 있는데 이는 평균을 기준으로 얼마나 모양이 대칭인가 등을 판별하는 데 쓰인다. 밀도함수가 대칭이 아닌 경우를 skewed되어있다고 하는데 이는 median과 mean을 비교함으로써도 이루어질 수 있다.(그 둘은 일반적으로 같지 않다. 낮게 널리 퍼져있는 쪽으로 평균이 움직인다.) mean이 median보다 클 때는 skewed to the right라고 한다.

편차의 4승을 평균해서 표준편차의 4승으로 나눈 것, (이를 kurtosis라 부른다)도 있는데 이 값은 정규분포일 때 3을 갖게되고 큰 편차가 상대적으로 더 확률이 높을 때에는 3보다 크게 되므로, 정규분포와 비교할 때 얼마나 더 퍼졌는가를 판별하는 데 쓰인다. [p.462 Allen]

 

분산, 표준편차, range, C.O.V., SIQR, 평균절대편차 같이 밀도함수가 얼마나 퍼져있는가를 나타내는 척도들을 통틀어 indices of dispersion이라 부르고, 평균이나 median, mode와 같이 확률변수의 대표값이라 할 수 있는 것을 indices of central tendency라 부른다. skewness, kurtosis는 indices of shape라고 부른다.

여기서는 일부러 확률론과 통계론에서 쓰이는 척도들을 섞어서 기술했는데, 확률변수는 결국 실세계의 어떤 현상을 모델링하기 위한 것이고(모델링은 왜 하냐하면 시뮬레이션이나 수학적 해석을 하기 위해서 하는 것이다.), 모델링을 제대로 하려면 통계론을 사용하지 않고서는 안될 것이기 때문이다. 그 현상의 특성을 파악하려 할 때 일단은 관측을 통해 샘플을 얻은 후 통계학의 힘을 빌려서 앞서 말한 여러 척도들을 구해야 한다. 그 다음에야 비로소 이것이 어떤 부류의 확률변수로 모델링될 수 있는지 밝혀지는 것이다.

 

마지막으로 지적하고 싶은 것은, 확률변수에 대해서 특성을 말할 때, 보통은 평균과 분산 같은 척도만을 언급하나 확률변수의 특성 모든 것을 알려주는 것은 바로 분포함수(혹은 밀도함수, 혹은 질량함수)라는 것이다.

 

제 2 과  확률 변수들 사이의 관계

 

우리가 해석을 원하는 시스템은 많은 변수가 있는 시스템이다.(우리가 짜는 컴퓨터 프로그램에도 수많은 변수가 있지 않은가.) 이때 변수들 사이에는 확정적(deterministic) 관계식이나 확률적 관계가 성립될 수 있다.

확정적 관계라면 전자회로에서 전압이 가해지면 각 구성부품에 걸리는 전압이 정해지는 것과 같은 게 있겠고, 확률적 관계라면 키와 몸무게의 상관관계나 첫 번째 시험과 학기말 최종 성적과의 상관관계를 생각하면 될 것이다.

여기서는 확률적 관계에 대해서 알아볼 것이며, 우선 두 변수 사이의 관계에 대해서 그 다음은 여러 변수사이의 관계에 대해서 알아본다.

 

변수라는 게 있어 확률적으로 값을 취한다고는 했으나, 사실은 아주 미세하게 이면을 들여다보면 확정적인 공식이 성립하는 시스템이 있을 것이다. 브라운 운동을 설명하는 데 있어 공기분자들의 상태를 모두 모델링한다면 확정적으로 연기분자의 움직임을 알 수 있을지 모른다. 그러나 그것은 너무나 많은 메모리와 프로세서를 소모하게될 것이므로, 대신 브라운 운동은 확률적으로 간단하게 설명되어지곤 한다. 이 경우에서 볼 수 있듯이 확률을 도입하는 것은 시스템을 보다 간단하게 바라볼 수 있도록 해주는 것이다.

그러나 확률을 도입해서 시스템의 변수 수를 줄인다 하더라도, 너무 줄이면 간단함을 얻은 대신 정확성이 결여되는 것이 통례이다. 다음의 예에서는 다변수 시스템의 장점을 보여주며, 그를 통해 변수들간의 관계를 표시하기 위한 수식들의 기본을 보여준다.

 

내 농담에 대해 A라는 친구가 좋아할 확률과 그렇지않을 확률이 반반일 때에는 위험부담이 반이나 되니 입을 다물자라고 생각할 수도 있지만, 그에 대해서 알아서 그의 기분이 좋을 때는 2/3의 확률로 좋아하고 기분이 그저그렇거나 나쁠 때는 1/3의 확률로 좋아하고 그의 기분이 좋을 확률은 딱 절반이라고 할 때에는 눈치껏 그의 마음을 읽을 줄만 안다면 농담이 성공할 수 있는 확률이 높아지는 것이다.

 

이 간단한 경우에 대해 수식으로 표현한다면 우선 다음의 두 변수를 정의할 수 있다,

X = A의 기분이 좋을 때 1, 아니면 0

Y = 내 농담에 A가 좋아한다면 1, 아니면 0

P[X=1] =P[X=0] =P[Y=1]= P[Y=0]= 1/2

 

'A의 기분이 좋을 때'라는 말은 조건부 확률이다,

P[Y=1|X=1]=2/3 , P[Y=0|X=1]=1/3

P[Y=1|X=0]=1/3 , P[Y=0|X=0]=2/3

 

X,Y의 두 변수에는 분명히 원인과 결과의 관계가 있기는 하다. 하지만 기분이 좋은지 알기 위해서는 농담을 던져보는 것도 한가지 방법이기 때문에 그런 인과관계를 역으로 뒤집을 수도 있어야 한다. 그걸 어떻게 알까?

 

먼저 (기분과 반응을 동일선상에 놓고볼 때) 기분이 좋은 동시에 농담을 좋아할 확률은 다음과 같이 구해진다.

P[X=1, Y=1] = P[Y=1|X=1]P[X=1]= 1/3

마찬가지로

P[X=1, Y=0] = P[Y=0|X=1]P[X=1]= 1/6

P[X=0, Y=1] = P[Y=1|X=0]P[X=0]= 1/6

P[X=0, Y=0] = P[Y=0|X=0]P[X=0]= 1/3

 

이제 농담에 반응이 좋았을 때 기분이 좋았을 확률을 구할 수 있게 된다.

P[X=1|Y=1] = P[Y=1, X=1] /P[Y=1]= 2/3

우연히 같았지만 다른 게 통례이다.

 

변수 X, Y 가 있을 때 이 둘을 모두 관심하에 두고 공평하게 보는 게 joint 확률이다.

joint 질량함수를 정의하면 .

이 joint 질량함수는 모든 가능한 x,y 조합에 대해 다 더하면 1이 된다, .

여러 변수를 고려하게되면 경우의 수가 많아지므로 각 경우에 대한 확률은 더 작아진다는 것을 알 수 있다.

여기서 한 변수 Y를 무시하려면 .

이것을 joint 분포함수 로 표현하면, . 여기서 연유되어, joint가 아닌 한 개의 변수에 대한 것을 marginal('가장자리의')이라고 부르게 되었다. marginal이라는 이름이 joint 분포로부터 얻어지기는 했으나, 실제의 경우 통계를 통해 marginal은 쉽게 알 수 있으나  joint 분포는 알 수 없는 것이 통례이다.

 

두 변수 사이의 상관관계의 기본은 그 둘이 독립인가 아닌가를 밝히는 일이다.

독립이라 함은 확률적으로 무관하다는 것을 말한다. 의 조건을 만족시키면 된다. 연속의 경우에는 . 바로 이와 같이 joint 밀도 . 질량 함수를 marginal의 곱으로 표현하기 위하여 독립성 가정이 널리 (남용에 가깝게) 사용되고 있다. 독립성 가정이 없는 경우 joint 확률을 알아내기란 통계를 통해서는 거의 불가능에 가깝나.

(사실 독립사건의 개념은 사건 A,B에 있어 P[A, B] = P[A] P[B]인 경우로 정의되며 그렇기 때문에 질량.밀도.분포함수 등에 대해서 위와 같이 정의된 것이다.)

독립이라는 것을 밝혀내면 여러 편리한 점이 있는데, 더한 것의 분산이 분산을 더한 것이 될 수 있고, 곱한 것의 평균이 평균을 곱한 것이 될 수 있다는 것, 그리고 정의 그대로 joint 밀도함수가 marginal 밀도함수의 곱으로 표현된다는 것을 우선 들 수 있다.

 

두 변수 사이의 독립여부를 밝히는 데 있어서 joint 분포를 다 알아내고 모든 경우에 대해 위의 조건을 검사하긴 귀찮기도 하고 불가능하거나 비실용적인 경우가 많으므로, 좀더 쉽게 판별하는 척도로서 covariance 등을 사용한다.

correlation은

covariance는

correlation coefficient는

잘 보면 covariance는 각각의 평균을 0으로 만들기 위한 정규화(normalization), correlation coefficient는 (표준정규분포에서 그랬던 것처럼) 거기에 더해 각각의 표준편차를 1로 만들기 위한 정규화를 한 것임을 알 수 있다.

100% 의존적인 (즉 똑같은) 변수 둘 사이의 covariance는 바로 분산이 된다. 그때의 correlation coefficient는 1이 됨을 알 수 있다.

 

covariance나 correlation coefficient가 0일 때 이 둘은 uncorrelated되었다고 한다. (correlation이 0일 때에는 orthogonal하다고 한다.) 두 변수가 서로 독립이라면 uncorrelated이지만, uncorrelated라 해서 독립이라는 보장은 없다.

또한 correlation coefficient가 1이나 -1일 때는 두 변수 사이에는 확정적인 선형관계식이 성립한다. (주어진 실험결과 내지 통계수치들로부터 확정적인 선형관계식을 찾는 일을 선형회귀(linear regression)라 하며, 아마 여러분은 이것과 유사한 일을 학부1학년 물리나 화학 실험시간 또는 2학년 선형대수 시간에 다루거나 직접 써본 바 있을 것이다.)