포스테키안
2024 182호 / 지식더하기 ②
푸아송 분포
1시간 동안 1,000명의 사람들이 ‘P’ 브랜드의 매장 앞을 지나갈 때, 10초마다 0.1%의 확률로 ‘P’ 브랜드의 상품이 팔린다고 가정해 봅시다. 이때 1시간 동안 몇 개의 상품이 팔리는지에 대한 확률 분포는 어떻게 계산할 수 있을까요? 한 가지 방법은 이항분포1를 이용하는 것입니다.
여기서 이항분포를 통해 구한 확률 분포를 알기 위해서는 360!의 값을 계산해야 합니다. 그런데 360!은 1에서부터 360까지의 자연수를 모두 곱하여 계산해야 하는 매우 큰 수이기에 실제로 계산하기 매우 어렵습니다. 이처럼 이항분포에서 n이 너무 크고, p가 너무 작은 경우 이항 분포를 이용하기에는 한계가 존재하는데요. 따라서 큰 수를 계산하기 위해서는 극한을 이용하는 푸아송 분포를 사용합니다.
푸아송 분포는 단위 시간, 단위 공간에 어떤 사건이 몇 번 발생할 것인지를 나타내는 이산 확률 분포입니다. 한 시간 동안 은행에 다녀간 고객의 수, 책 한 페이지에 존재하는 오타의 수 등을 푸아송 분포로 구할 수 있습니다.
푸아송 분포를 적용하기 위해선 세 가지 전제조건이 필요합니다. 먼저, 어떤 단위 시간 또는 단위공간에서 발생한 결과는 중복되지 않은 다른 시간이나 공간에서 발생한 결과와 서로 독립적이어야 합니다. 가령 9~10시 사이에 ‘P’ 브랜드의 매장 앞을 지나간 사람의 수는 10~11시에 지나간 사람의 수와 독립이며, ‘K’ 브랜드 매장 앞을 지나간 사람의 수와도 독립이어야 합니다. 두 번째는 일정성입니다. 어떤 단위 시간 또는 단위공간에서 발생한 확률은 그 시간의 크기나 공간의 크기에 비례해야 하며, 외부의 영향을 받지 않습니다. 만약 ‘P’ 브랜드 상품이 10초에 1개 팔린다면, 30초 동안은 상품 3개가 팔려야 합니다. 마지막은 비집락성입니다. 매우 짧은 시간이나 매우 작은 공간에서 두 개 이상의 결과가 동시에 발생할 확률은 0으로 간주합니다. 예를 들어 두 개 이상의 ‘P’ 브랜드 상품이 동시에 팔릴 확률은 희박하므로 무시해도 된다는 것을 의미합니다.
이러한 전제조건을 가지는 푸아송 분포는 이항분포로부터 유도할 수 있는데요.
λ = np 라고 두면, p = λ/n 이므로, 이항분포 식을 아래와 같이 변형할 수 있습니다.
이때 n → ∞로 극한을 취하면
이 되므로 푸아송 분포 식이 유도됩니다.
위 식에서 λ가 푸아송 분포의 모수2에 해당하며, 확률 변수 X가 모수 λ인 푸아송 분포를 따르면 아래와 같이 나타내고, X를 모수가 λ인 푸아송 확률변수라고 부릅니다.
즉, 푸아송 분포 모수는 모두 λ인데요. 이를 계산하는 과정은 아래와 같습니다.
확률변수 X가 푸아송 확률변수이면,
이처럼 푸아송 분포의 모수, 즉 평균과 분산은 모두 λ임을 확인할 수 있습니다.
지금까지 푸아송 분포의 전제조건과 유도 과정, 평균과 분산을 계산하는 방법에 대해 알아보았습니다. 푸아송 분포에 대해 더 알아보고 싶은 분들은 푸아송 분포가 적용되는 일상 속 사례들을 더 찾아보시길 바랍니다!
글. 신소재공학과 23학번 29기 알리미 박다현