상세 컨텐츠

본문 제목

[확률과 통계] 2.1 Basic Concepts & 2.2 Probability Mass Function

전공/확률과 통계

by blacksmith16 2020. 10. 24. 22:46

본문

2장의 전체적인 내용은 Discrete Random Variable에 관한 것이다. 이 포스팅에서는 Random Variable과 Probability Mass Function(PMF)이 무엇인지에 대해 설명한다.

Basic Concepts

Random Variable

정의를 그대로 읽어보자면, Random Variable이란 Sample Space를 실수에 매핑하는 함수이다. 다시 말해 입력은 outcome, 출력은 실수인 함수이다. 아직은 말이 어렵다. 예제를 통해 알아보자.

Example

4면을 가지고(각 면의 숫자는 1, 2, 3, 4) 모든 면이 나올 확률이 동일한 두 개의 주사위가 있다. 두 주사위를 동시에 던졌을 때 나오는 숫자쌍을 $o\in{\Omega}, o = (o_1, o_2)$라 하자. 이를 바탕으로 $X(o_1, o_2) = max(o_1, o_2)$로 정의된 함수를 생각해볼 수 있다. 이 때 $X$는 Sample Space의 $o$를 실수인 $o_{1}, o_{2}$ 중 하나로 매핑하는 것으로 볼 수 있으므로 Random Variable인 것이다.

Random Variables Give An Easy Way to Specify Events

랜덤 변수를 사용하면 어떤 Event를 아주 단순하게 지칭할 수 있게 된다. $X : \Omega \rightarrow \mathbb{R}$인 함수(or Random Variable)가 있을 때 다음과 같이 Event를 표현할 수 있다.

$$ {X = x} = {o \vert o \in \Omega\ and\ X(o) = x} $$

즉, $X$가 $x$가 되게하는 Event를 $X=x$라는 것으로 표현할 수 있다는 것이다. 주사위 예제에서 한 번 적용해보자면, ${(1,2), (2,1), (2,2)}$라는 Event를 표현하기 위해서 $X=2$라고 단순하게 적을 수 있게 된 것이다. 2라는 숫자가 함수 $X$에 의해 ${(1,2), (2,1), (2,2)}$와 매핑되었기 때문에 가능해졌다.

Random Variables and Probability

확률을 표현할 때도 Random Variable을 사용하면 편리하다. 주사위 예제를 계속 활용하여 설명하겠다. Random Variable을 사용하면 ${(1,2), (2,1), (2,2)}$ 다음 세 outcome의 확률을 더한 값을 알고 싶을 때 $P(X=2)$라고만 쓰면 된다.

Probability Mass Function(PMF)

Probability Mass Function이란 $X=x$의 확률에 대한 함수이다. 즉, 입력은 Random Variable 값이고 출력은 확률으로 가지는 함수인 것이다. 바로 앞 주제에서 본 형태인 $P(X=x)$ 또는 간단하게 $p_X(x)$로 나타낸다.

Random Variable의 종류

Random Variable은 우리가 임의로 정의할 수 있지만, 많은 상황에서 적용할 수 있는 대표적인 Random Variable의 종류를 소개하겠다.

Discrete Uniform Random Variables

특정 범위(a와 b 사이)의 Random Variable 값이 같은 확률을 가지는 경우이다. 그래서 Discrete Uniform Random Variable의 PMF는 아래와 같다.

$$p_X(k) = P(X = k) = \begin{cases} \frac{1}{b-a-1} &\text{if } k=a, a+1, \cdots, b \\ 0 &\text{if } otherwise \end{cases}$$

Binomial Random Variables

성공 / 실패가 있는 상황이 n번 시행되었을 때 성공한 횟수를 $X$의 값으로 가지는 Random Variable이다. 한 번의 시행에서 성공할 확률을 $p$라고 하자. PMF는 우리가 흔히 아는 형태로 다음과 같다.

$$p_X(k) = P(X=k) = {n \choose k} p^k (1-p)^{n-k}\ (k=0, 1, \dots, n)$$

Geometric Random Variables

몇 번째 시행에서 처음 성공했는지를 $X$의 값으로 가진다. $X=k$라 하면, 첫 번째부터 k-1 번째 시행은 전부 실패하고 k 번째에서 성공했다는 뜻이다. 한 번의 시행에 대해 성공할 확률을 $p$라고 하면, PMF는 다음과 같다.

$$ p_X(x) = P(X=k) = (1-p)^{k-1}p $$

Poisson Random Variables

Binomial Random Variable에서 n이 매우 크고 p가 매우 작은 상황에서는 연산 비용이 매우 커진다. Poisson Random Variable은 이러한 상황에서 적용할 수 있는 Binomial Random Variable의 PMF를 근사시켜 연산 비용을 줄인 PMF를 가지고 있다. 따라서 기본적인 상황 개념과 X의 값은 Binomial과 동일하다. 아래는 PMF인데, 여기서 $λ=np$이다.

$$p_X(k) = p(X=k) = e^{-\lambda}\frac{\lambda^{k}}{k!} \approx {n \choose k} p^k (1-p)^{n-k}$$

관련글 더보기

댓글 영역