99 MMLAB 신입생교육 수학 보충교재                                         이수형 씀

제 4 과  확률 프로세스(Random Process)

버전 0.9 최종수정일 990217

강의분량 3 시간

 

확률프로세스란 1년치 모의고사 성적표 뭉치(혹은 지난 10년간 한강 최고수위 통계, 혹은 30년간 서울 1월에 영하로 연속된 날의 최대 길이 통계)에서 모종의 간단한 규칙을 찾아내서 그것만으로 표현하고자 하는 것이다. 통계로부터 얻어진 관측치의 순열을 sample path라 한다.

 

확률프로세스는 확률변수의 집합으로 정의가 되는데, 시각 인덱스가 있어서 확률변수를 시각순으로 정렬시킬 수 있는 경우이다. 이산시각과 연속시각 두 경우가 있다. 이산시각일 때에는 sequence라는 말도 쓴다.

집합이므로 수식으로는 와 같이 집합 기호를 사용하게 된다. 이산시각인 경우 인덱스를 i, n, m, k 등으로 쓰는 것이 관례이고, 연속시각인 경우 인덱스를 t, 등으로 쓰곤한다. 시각 인덱스는 밑에 첨자로 쓰기도 하고 괄호를 쓰고 그 안에 넣기도 한다.

 

확률 프로세스의 증분(increment)은 이산시각의 경우에 이번 것에서 직전 것을 뺀 것을 말한다. 의 증분 와 같이 정의된다. 사실 increment라는 의미는 좀더 포괄적으로 쓰이며 이 이산시간 경우에는 difference라고 말하는 것이 좀더 정확할 것 같다.

확률 프로세스의 누적합(sum)은 이산시각의 경우에 시각 0에서부터 지금까지를 다 합한 것을 말한다. 그러니 증분을 구하는 것과 누적합을 구하는 것은 역 사상 관계가 되게 된다. .

연속시각일 경우에는 각각 미분(differential)과 적분 프로세스로 이름 붙여진다.

 

예를 들어, 패킷의 도착시각 프로세스의 증분 프로세스는 패킷 도착간 시간 프로세스이며, 누적합 프로세스의 증분 프로세스는 각 구간에서 도착한 개수 프로세스이다. 패킷도착시각 프로세스나 패킷도착간시간 프로세스는 (도착한 패킷 하나하나마다 등수를 매길 수 있으니) 이산시각 프로세스로서 range는 실수가 적당할 것이다. 누적합 프로세스나 구간별 양 프로세스는 (결과적으로 패킷 개수를 세는 것이므로) range를 이산적인 정수로 생각할 수 있다. (물론 range를 적당히 큰 수로 나눠서 소수점 밑으로 보낸 다음 실수인 것처럼 여겨도 상관없다.) '구간별 양'이라는 말은 이산적인 소구간을 가정한 말인데, 이 경우에도 구간이 매우 작다면 density를 정의할 수 있을 것이고 그 경우 누적합 프로세스의 미분이 될 것이다.

 

확률 프로세스의 특성을 파악할 때에는 각 시각에서의 (marginal) 분포만 말고 그 주변 시각에서의 분포들과의 joint 분포를 따져야 한다. 이런 특성은 시각에 따라 변할 수 있는데, stationary하다는 것은 이런 특성이 모든 시각에 일정하다는 것이다.

 

수학적으로는 다음과 같이 정의된다.

확률프로세스 {X(t)}가 stationary 하다면, n개의 서로 다른 시각에서의 확률변수사이의 분포는 각 n 시각 사이의 거리에만 관계있다.

 

즉,

1) X(t) 혼자만의 분포는 t에 무관하게 동일하다.

        

        따라서 어떤 관찰시각에서건 평균과 분산은 동일하다.

2) X(t1)과 X(t2) 둘사이의 분포는 t2-t1에만 의거 결정된다.

        

        따라서 상관성은 관찰시각의 차이에 의해서만 결정된다.

3) n>2일 때도 마찬가지

 

다시 말해, {X(t)}가 시각 t에 들어오는 패킷의 양을 나타낼 때, {X(t)}가 stationary하다는 뜻은 X(t1)과 X(t2)가 같은 분포를 갖고 있다는 뜻이다. 또 이때 이 둘 사이의 상관성은 둘의 시간차 t2-t1를 알면 결정된다는 뜻이다.

stationary한 경우 autocorrelation은 와 같이 둘 사이의 시간차에 의해서만 결정되게 되며, autocovariance 나 autocorrelation coefficient 도 마찬가지로 정의된다.

 

누적합 프로세스나 도착시각 프로세스는 marginal이 계속 틀려지므로 (일단 평균이 계속 커지지 않는가?) 절대 stationary가 아니다. 반면 패킷 도착간 시간이나 시구간당 도착양 프로세스는 stationary할 수 있는데 그건 모델링하기 나름이다.

 

앞서의 과에서 설명한대로 실제 세계의 현상으로부터 marginal 분포를 얻어내는 것도 힘든데, 하물며 2차 joint 분포들을 얻어내려 하는 것은 매우 힘들고 더구나 임의 n차 joint 분포를 얻어낸다는 것은 미친 짓에 가까우므로, 2차까지만 검사하기로 하고 분포보다는 평균, 분산, correlation 등의 척도만을 사용하여 stationary한지 대충이라도 검사하고자 하는 것이wide sense stationary 성질이다.

즉,

1) 어떤 관찰시각에서건 평균과 분산이 동일하고,

2) correlation이 관찰시각의 차이에 의해서만 결정될 때,

그 확률프로세스를 wide sense stationary(WSS)하다고 한다.

 

stationary면 WSS이나, WSS이라고 stationary한 것은 아니다.

stationary라는 것을 생각하는 이유는 실세계의 현상을 최소한 간단히 기술하기 위해서이다. 보통 marginal 분포와 correlation coefficient 만으로 기술하게 된다.

stationary하다는 가정은 직관적으로 그러리라는 설득력이 있을 때만 합리화되어질 텐데, 휴대전화 통화량의 경우 시간대에 따라 양이 틀려질 테고 평일과 주말이 틀리겠지만, 매달 둘째주 월요일 2시~3시의 통화량은 1년 내내 비슷한 확률적 성질을 가질 것이다. 물론 가입자 증가추세를 고려해야 하겠지만. 확실한 것은, 시간대를 무시한 통화량 프로세스가 stationary하다는 주장은 엉터리라는 것이다.

 

마코프(Markovian; 마코비언) 성질이란 여러 시각간의 조건부 확률 조건절에서, AND로 연결된 사건들은 가장 마지막 시각의 사건 하나로 요약이 가능하다는 것이다.

.

조심해야할 것은, 그냥 joint 확률에서나 조건부확률의 주절에서는 적용안된다는 것을 염두에 두어야 한다는 것이다. 마코비언 성질을 가지고 있는 프로세스라 하더라도 여전히 인 것이다.

이 성질은 수학적 해석을 가능하게 해주는 장점이 있으므로 가정에 널리 사용되어왔다. 이 성질을 갖는다면 joint 확률을 여러 단순한 조건부확률로 쪼갤 수 있기 때문이다.

n차 조인트 확률은 n-1차 조인트 확률에 (조건절과 주절이 각각 하나씩인 2변수간) 조건부확률을 하나 곱함으로써 얻어지는 것이다. 이를 반복하면 2변수간 조건부 확률을 n-1개 곱하고 가장 과거의 marginal 확률을 곱해도 같아진다는 것을 알 수 있다.

독립이었다면 marginal 확률을 n개 곱하게 되므로 이는 독립보다는 좀 복잡하게 되는 셈이다.

 

이제 확률 프로세스들의 부류를 설명하겠는데, 이산시각 버전과 연속시각 버전을 나란히 제시하겠다. 그 대칭성에 주의하라. (프와손 프로세스나 renewal process의 경우에는 표현방법에 대해 대칭적으로 이 교재 안에서 배치되어있다. 또한 증분 : sum 혹은 미분 대 적분 의 대칭도 존재하니 역시 정신을 똑바로 차려주기 바란다.)

 

iid sequence란 independent, identically distributed의 머리글자를 딴 것으로서 매 시각이 다른 모든 시각들로부터 독립이고, 동일한 분포인 이산시각 프로세스를 말하는 것이다. 주사위를 계속 던지는 경우로서 주사위가 중간에 망가지는 등 분포가 변하는 상황이 발생하지 않았을 때를 말하는 것이다.

white noise (백색잡음)은 iid sequence의 연속시간 판이다. WGN(white Gaussian noise)은 marginal이 정규분포인 백색잡음이다.

iid sequence 또는 white noise는 당연히 stationary하며 marginal 하나만으로 표현 가능하다.

 

iid sequence의 누적합 프로세스가 random walk이고 도박 승률이 p일 때 10번 이상 버틸 수 있는 확률, 언젠가 개털이 될 확률, 떼돈을 벌 수 있는 확률 등을 계산할 때 사용된다. 이런 종류의 문제를 gambler's ruin 문제라 부른다.

white noise의 적분은 브라운 운동(Brownian motion)으로서 이름 그대로 담배입자가 공기입자와 부딪쳐 생기는 궤적인 브라운 운동을 모델링하기 위해 고안된 것이다. 이를 Wiener process라고도 부른다.

이들 둘은 또한 큐길이 프로세스를 모델링할 수도 있는데, 큐로의 구간별 입력이 iid sequence일 때 (혹은 입력 rate 프로세스가 white noise일 때) 그렇다.

 

프와손 프로세스 는 패킷 도착간 시간이 iid 지수분포일 때의 도착 누적양 프로세스이다. 따라서 이 프로세스의 sample path는 늘면 늘었지 줄지는 않게 되며(단조증가), range는 0 이상의 정수이다.

프와손 프로세스의 이면에는 패킷의 도착시각을 나타내는 프로세스 가 있는데 이 프로세스는 도착간시간 프로세스의 sum process가 된다. k째 도착시각이 t보다 크다는 것은 t 안에 도착한 패킷 개수가 k-1 보다 적다는 의미이므로 로 표현하는 방법과 연관성을 가진다. 수식으로는 가 된다. 이 프로세스의 sample path는 순증가이며, range는 0이상의 실수이다.

프와손 프로세스의 시각 t에서의 marginal은 인자 의 프와손 분포를 가진다. . 그래서 '프와손'이라는 이름이 붙은 것이다.

(t, t+h]의 작은 구간에 이 프와손 프로세스가 1 이상 증가할 확률은 t에 무관하며 (이는 memoryless 성질 때문이다. 어와!), h에 비례하게 된다(이는 테일러 급수를 이용한 것이다).

먼저 t가 마침 패킷도착시각이었다고 하자. 그렇다면 t+h 안에 1이상 증가하려면 지수변수가 h보다 작게 나오면 되는 것이다, . 이 확률이 h가 작을 때 h에 비례하는 것은 지수함수의 테일러 급수를 사용한 것이다, . 여기서 작은 o는 h로 나눈 것이 h가 0으로 갈 때 0으로 간다는 의미이다. 그래서 여기서 는 확률의 rate가 되게 된다.

이제 t가 패킷도착시각이 아니었다고 해보자. 그래도 마찬가지로 위와 똑같이 하면 되는데, 그 이유는 memoryless의 정의인 에서 나온 것이다. memoryless라는 말은 은행에서 기다릴 때 번호표를 받지 않는 경우이다. 누가 먼저 왔는지 따지지 않고 누가 오래 기다렸는지 신경도 쓰지 않고 그냥 모여있는 사람 중에서 하나 골라서 서비스 해줄 때를 말하는 것이다.

 

renewal process란 도착간 시간이 지수분포로 국한되어있지 않고 임의의 분포가 허용되는 경우인데 (도착간시간이 iid라는 점은 같다), 패킷의 도착시각 프로세스로 표현해도 되고 누적양 프로세스 로 표현해도 상관 없다.

 

마코프 프로세스는 마코비언 성질을 갖는 모든 프로세스를 일컫는 말로서, 그중 특별히 range가 이산적인 경우를 마코프 체인이라 부른다. 여기에 더해 range가 특별히 유한할(주 : 원래 이산적이라 함은 countable하다는 의미이다) 경우에는 확률질량함수를 벡터로 표현할 수 있게 된다. range 안의 각 값들을 상태(state)라 부른다.

range가 유한하고 이산시각이면서 stationary한 경우의 마코프 체인의 예가 가장 쉬운데 조건부 확률로 이루어진 전이행렬(transition matrix)을 상태확률벡터(state probability vector)에 곱하는 것이 다음시각에서의 상태확률벡터를 얻는 방법이기 때문이다.

수식으로 쓰면 시각 k에서의 상태확률(state probability)은 marginal pmf를 나타내는 열벡터로서 , 이때 모든 원을 합하면 1이 된다. 위에서 말하는 바는 와 같이 행렬의 곱으로 다음시각에서의 상태확률이 얻어진다는 것이다 (이것은 마코비언 성질이다). 여기서 전이행렬 P는 2변수 조건부 확률을 원소로 갖게 된다. (i,j) 원은 , 이때 어떤 한 열에 속하는(즉 조건절을 공유하는) 모든 원을 합하면 1이 된다. P의 특별히 2변수 조건부 확률이 stationary 하다면 P는 시각에 대해 상수인 행렬이 되고 (이를 time homogeneous하다고 말들 한다), 인 것을 알 수 있다.

(LeonGarcia 책과 기술법이 다르다고 불평을 할 수도 있을 것이다. 하지만 말 나온 김에 잔소리를 하자면, 교재나 논문마다 행과 열을 바꾸어 기술하고 있는 게 현실이고 이 정도는 쉽게 바꾸어 볼 수 있어야 훌륭한 대학원생이 될 수 있는 것이다.)

 

방금 2변수 조건부 확률만 stationary하게 놓는다고 말했는데 왜 marginal은 안 그런가 의문이 생길 것이다. 마코프 체인에서는 와 같이 지금 pmf가 직전의 pmf와 같게 되는 상태를 steady state (주 : steady state라는 말의 반대말은 transient이며, 응용 수학의 전분야에서 널리 쓰이는 분류법이다)라고 일컬어 이를 구하는 것을 주된 목적으로 여기고 있기 때문이다.

필자의 소견으로는 이는 초기 상태확률벡터를 제대로 못주고 2변수 조건부 확률만을 쉽게 얻을 수 있을 때 marginal을 구하기 위한 방법이 아닐까 생각한다.

시뮬레이션을 예로 들어보자. 모델링한 시스템이란 실세계의 시스템과 거리가 있지만 관계식만 제대로 잡았다면 조금 시간이 지나면 실세계의 확률적 특성에 근접한 특성을 보이게 되는데, 실세계와 같아질 때를 steady state라 부르는 것이다. 처음 시작한 지 얼마 안될 때는 초기조건에 의존적이라서 transient 시기라 부른다.

보통 실세계의 확률적 특성을 stationary하다고 가정을 하는데, 따라서 마코프 프로세스에서의 steady state는 marginal이 일정해질 때로 보는 것이다. 모든 마코프 체인에는 stationary하게 해주는 state probability가 존재한다. (를 만족하는 는 언제나 존재한다. 왜냐하면 P-I의 행렬식은 언제나 0이 되기 때문이다. 그 이유는 P의 열벡터는 원소들의 합이 1이므로 행벡터들은 1차종속이기 때문이다. 다시말해 행을 하나 빈칸으로 놔둬도 나머지 행들로부터 그 행을 유추해낼 수 있기 때문이다.) 하지만 steady state라는 개념은 반복적용해서 시간이 흘렀을 때 초기조건과 무관한 어떤 고정된 값 ('진동'도 안되고 목적하는 값에 얼마든지 가까이 갈 수 있다는 '수렴'의 개념으로)이 나온다는 개념으로 쓰이고 있는데 그런 관점에서 보면 모든 마코프 체인이 steady state를 가지는 것은 아니라는 것을 알 수 있다. 에서 어떤 에 대해서도 가 초기조건에 무관한 로 수렴하는 것은 늘 그렇지는 않은 것이다. 일단 P=I 인 경우에는 초기조건으로 늘 고정되어있을 테니 그것이 불가능하다는 것을 알 수 있고, 인 경우에는 가 절대로 수렴하지 않고 교대로 상태를 바꾸게 됨을 알 수 있다. 더 알고싶으면 일단 [LeonGarcia 8.4]을 읽어보라. 결과적으로 의 모든 열벡터가 로 (좀 유식하게 쓰면 로) 수렴하면 된다.

transient 시기에 있을 때의 마코프 프로세스는 물론 stationary하지 않다, 일단 marginal이 매 시각마다 틀리므로. 물론 초기조건을 잘 잡으면 이런 transient 시기를 빨리 빠져나올 수 있게 되며, 기껏 비싼 컴퓨터를 돌려서 얻은 결과에서 transient 시기에 해당하는 결과를 버려야 하는 시뮬레이션에서 이런 기법은 중요하다.

 

마코프 체인에서는 각 상태에서 머무르는 시간(sojourn time이라 부른다)이 iid인 memoryless 분포가 된다. 물론 각 상태마다 머무르는 평균시간은 틀리다.

그러니 마치 각 상태별로 memoryless한 타이머를 두고, 진입하면 누르고 알람이 울리면 종료시킨 다음 다음상태를 고르는 것으로 봐도 무방하다. 이때 다음상태를 고르는 조건부확률들의 행렬은 이산시각 마코프 체인을 정의하게 되는데, 이것을 내재된 마코프 체인(embedded Markov chain)이라 부른다.

 

마코프 renewal 프로세스 혹은 semi-Markov 프로세스는 sojourn time의 제한을 없애기 위해 renewal process를 가상으로 돌리고 renewal이 일어날 때마다 전이행렬을 한번 곱하는 식으로 하는 것이다.

 

birth-death process는 마코프 체인인데 전이가 인접 상태로만 일어날 경우를 말한다.

앞서 본 프와손 프로세스는 birth-only process라고 부를 수 있다. 또 프와손 프로세스에서는 sojourn time이 iid가 되게 된다. 프와손 프로세스의 sojourn time이 인자 의 지수분포라면 는 전이확률의 rate가 되게 된다는 말을 했는데 이것을 혼동되게도 전이율(transition rate)이라고 약해서 부르곤 한다.

상태 k에서의 balance equation이란, steady state에서라면 나갈 확률과 들어올 확률이 같아야 한다는 것을 식으로 쓴 것이다, P[상태k, 타우 후에 다른 상태 ] =P[다른 상태, 타우 후에 k]의 조인트 확률의 등식으로서 . 여기서 는 상태 k의 steady state 확률질량이고 는 사실 k에 있을 때 i로 갈 조건부 확률인데, 여기서는  sojourn time이 지수분포일 것이므로 와 같이 전이율로 쓰곤 한다.

 

확률프로세스를 정의할 때 autoregressive(재귀점화식)라는 말과 moving average라는 말을 또 쓰는데, 전자는 등차수열 같은 건데 매번 상수가 아니라 백색잡음을 더하는 경우고 moving average는 백색잡음의 sum 프로세스인데 가중치가 들어있는 경우이다. [p.346 LeonGarcia]의 그림을 보기 바란다.

 

autoregressive 모델은 매 시각마다의 값을 정할 때 과거 p 시각 전까지의 자기 값들에 가중평균을 취하고 (이것만 가지고는 확정적 모델이 되어버리니까) 거기에 백색잡음을 더한 것이다. 수식으로는 다음과 같이 정의된다,

차수 p의 재귀점화식 프로세스 AR (p)인 는 다음과 같이 정의된다,.

여기서 는 백색 잡음(white noise)으로서 특히 백색 거시언 잡음(white Gaussian noise)일 때에는 의 marginal은 정규분포를 갖게된다.

 

다음의 기호에 익숙해지는 것도 유익할 것 같다.

B는 backward shift operator로서 로 정의된다. 이런 operator를 p 차의 다항식 에 넣어서 가 된다고 하자. 이런 걸 이용해서 위에서 정의한 AR(p)를 다음과 같이 간략하게 (그리고 수준높게) 표현하곤 한다.

 

moving average는 과거 q시각 전까지의 백색잡음 값들을 가중평균한 것이다.

.

역시 좀 수준높게 표현하자면 .

여기서 다항식 는 q차의 다항식으로서 .

 

이 둘을 합친 것을 ARMA라 부르며,

또는 로 기술한다.