[패턴인식과 머신러닝] Chapter2. 확률론-(2)

안녕하세요, 개굴코드입니다. 🐸

오늘은 지난 시간에 이어 확률론의 나머지 부분들을 살펴보도록 하겠습니다. 학습을 하다보니 수학적인 토대가 정말 탄탄해도 쉽게 이해하기 어려운 교재인 것 같은데, 여력이 닿는데까지 최대한 내용들을 잘 풀어보도록 하겠습니다.

1.2 확률론

1.2.3 베이지안 확률

🟢 확률을 보는 두 가지 관점

- 빈도적 관점 : 반복 가능한 어떠한 사건을 여러번 반복해서 그 발생 빈도로 확률을 나타내는 것

- 베이지안 관점 : 반복 불가능한 불확실한 사건도 있으니 주어진 증거에 따라 불확실성(확률)을 추정하는 것

🟢 모델로의 확장

모델의 가중치나 매개변수를 정하는 것은 불확실한 사건으로, 베이지안 관점이 모델과 모델 매개변수 w의 불확실성을 설명하는데 유용.

모델 파라미터에 대해 우리가 가정하는 '파라미터가 이런 분포를 가질거야' 하는 내용을 사전 분포 p(w)로 표현한다면, 관측된 데이터 D = {t1,t2,...tn}은 조건부 확률 p(D|w)로 표현 가능 -> 사전 분포하에서 이런 데이터가 관측될 것이야.

이 때 베이즈 정리는 아래와 같은 형식으로 표현 가능 -> D를 관측한 상태에서의 파라미터의 불확실성을 사후 확률로 표현한 것

p(D|w)를 likelihood function으로 정의, 각각 다른 파라미터 집합 w에 대해 관측된 데이터 집합이 얼마나 그렇게 나타날 가능성이 있었는지를 표현 -> 이 경우, w의 확률 분포를 표현하는 것이 아니고, 가장 그럴듯한 w가 무엇인지에 대한 것이기 때문에 w에 대해 적분해도 총합이 1이 될 필요는 없음.

위의 식에 따라 사후 확률은 likelihood function과 사전 확률 곱에 비례함을 알 수 있고, 사후 확률은 확률 분포로 총합이 1이 되어야하기 때문에 분모 p(D)를 다음과 같이 표현할 수 있음.

빈도적 확률 관점에서 maximum likelihood, 최대 가능도라는 추정값을 매우 자주 사용함. p(D|w)를 최대화하는 파라미터를 찾는 과정이고, 머신러닝에서는 이를 변형하여 오차 함수로 주로 사용. 오차는 최소화해야 하는 목적성을 가지기 때문에 -와 log를 씌워 negative log likelihood를 활용.

빈도적 관점에서는 전체 데이터 집합에서 반복적으로 데이터 부트스트랩, 즉 복원 추출을 진행해서 파라미터를 추정하고 그에 대한 통계량을 통해 그 신뢰성을 추정, 베이지안 관점에서는 합리적인 사전 확률을 사용한다는 가정 하에 빈도적 관점에서 발생할 수 있는 극단 결과를 어느 정도 통제할 수 있다는 장점이 있음.

베이지안도 물론 단점이 있음. 사전 확률은 일종의 주관적 영역이므로 의존도를 낮추기 위해 아예 무정보적 사전 분포를 사용하는 경우 있는데, 이 경우는 서로 다른 모델 간 비교를 어렵게 함. 그렇다고 아예 좋지 않은 사전 분포를 쓰는 경우는 부족한 결과물을 높은 확신으로 내놓음. 따라서 교차 검증과 같은 테크닉들이 유용하게 쓰임.

1.2.4 가우시안 분포

가장 중요한 연속 확률 분포 중 하나에 해당하는 정규 분포, 가우시안 분포

🟢 단변량 가우시안 분포

단변량 가우시안 분포는 아래 식과 같이 정의되고, μ는 평균, σ 제곱은 분산, σ는 표준 편차, 1/ σ 제곱은 정밀도에 해당함.

가우시안 분포는 x에 대해 적분했을 때 총합 1로 정규화되어 있으며, 분포의 최댓값을 최빈값이라 하는데, 가우시안 분포의 경우 최빈값과 평균값이 동일.

🟢 다변량 가우시안 분포

다변량 가우시안 분포는 아래 식과 같이 정의되고 D차원 벡터 μ는 평균값, D X D 행렬 ∑는 공분산, |∑|는 ∑의 행렬식을 의미.

평균값 μ와 분산 σ 제곱을 가지는 정규분포에서 관측값들을 독립적으로 추출한다고 가정. 이 때 같은 분포에서 독립적으로 추출된 데이터 포인트를 i.i.d로 표현할수 있음. 데이터 집합이 서로 독립이기 때문에 조건부 확률을 아래와 같이 곱 형태로 정의할 수 있음.이것이 가우시안 분포의 가능도 함수에 해당.

🟢 최대 가능도

관측 데이터 집합으로 확률 분포의 매개변수를 결정하는 방법 중 하나는 가능도 함수를 최대화하는 매개변수를 찾는 것. 이 때 계산의 편의성을 위해 로그를 씌워 함수의 최댓값을 구함. 곱 대신 합을 통해 계산할 수 있기 때문. μ에 대해 로그식 최댓값 구하면 해를 아래와 같이 표본 평균으로 구할 수 있고, σ 제곱에 대해 최댓값을 찾으면 해를 아래와 같이 표본 분산으로 구할 수 있음.

🟢 편향

추출된 데이터 집합에 대해 기댓값을 구해보면 아래과 같은 식을 얻을 수 있는데, 결국 분산은 최대 가능도 추정에서 (N-1)/N 만큼 과소평가 하게 되는것이고 이는 편향이라고 부름. N이 무한대에 수렴할수록 최대 가능도 추정 해의 분산과 원 분포의 분산이 거의 같아지기 때문에, 결국 데이터의 양이 많다면 이러한 편향 문제가 자연스레 적어진다는 것을 알 수 있음.

1.2.5 곡선 피팅

곡선 피팅의 목표는 N개의 입력값에 대응되는 타겟을 예측하는 것. 확률 분포를 활용해 타깃 변수 값에 대한 불확실성을 표현할 수 있음. 주어진 입력에 대한 t값이 y(x,w)를 평균으로 가지는 가우시안 분포를 가진다 가정할 때 아래와 같은 조건부 분포 정의 가능. 이때 w는 모델 파라미터에 해당.

β는 정밀도 매개변수로 분산의 역수에 해당. 분산이 퍼져있는 정도라면 반대니까, 오밀조밀한 정도라고 보면 될 것임.

최대 가능도를 활용해 알려지지 않은 파라미터인 w와 β를 구할 수 있음. 독립적으로 데이터를 추출했다고 가정하면, 가능도 함수는 이전 개념처럼 조건부 확률의 곱 형식으로 아래 처럼 표현할 수 있음.

가능도 함수에 로그를 취해 w와 β에 대해 각각 식을 최대화하는 값을 구하면 매개변수를 구할 수 있고, 이를 활용해 t에 대한 예측 분포를 얻을 수 있음.(예측'값'이 아니라 예측'분포'를 얻을 수 있다는 것이 포인트)

베이지안 관점을위해 다항식 계수 w에 대한사전 분포를 도입하고 가우시안 분포를 사용한다고 가정. 이 때 역시 정밀도로 α를 사용. 모델 파라미터의 분포를 제어하는 변수들을 하이퍼파라미터라고 함.

w의 사후 분포는 사전 분포와 가능도 함수의 곱에 비례함. 데이터에 대해 가장 사후 분포를 최대화하는 방식으로 w를 결정할 수 있고, 이를 MAP, 최대 사후 분포라고 정의.

1.2.6 베이지안 곡선 피팅

베이지안 관점을 위해 사전 분포를 도입하긴 했지만, w에 대해서 점 추정을 한다는 문제. -> 그냥 정확한 w를 하나로 귀결시키려 하는 것.

따라서, 완전한 불확실성이 가미된 베이지안 관점에서 접근하기 위해서는 모든 w에 대해 적분을 시행해야 함. 그렇기 때문에 아래 좌변의 예측 분포를 우변의 형식으로 정의할 수 있음.

해당 식의 적분을 시행하면 예측 분포가 아래 처럼 가우시안 분포 형태로 표현됨.

여기서 정규분포의 평균과 분산은 각각 다음과 같다.

위에서 정의된 행렬 S는 아래 처럼 주어짐.

I는 단위 행렬이며, 파이는 각각의 원소가 i에 대해 그 값이 x의 i승인 벡터를 의미. 예측 분포의 평균과 분산이 x에 종속되어 있으며, 타깃 변수 노이즈로 인한 예측값 t의 불확실성이 분산 내 매개변수 β항에 표현됨. 이 불확실성은 최대 가능도 예측에서 이미 알 수 있는 정보이나, 그 오른쪽 두번째 항의 경우 w의 불확실성에서 기인한 것이며, 베이지안을 통해 구해진 것임.

복잡한 수식이 익숙치 않아서 초반에 이것저것 뜯어보는 과정 동안 너무 어려웠고, 시간적으로도 많이 헤메었던 것 같은데, 그만큼 전공 수업에서 직관적으로 깨닫지 못했던 likelihood나 오차함수, 학습 과정 등에 대해 조금 더 자세히 알게된 것 같아 유익했던 것 같습니다!

다음 시간에 이어서 모델 선택 및 차원의 저주 개념에 대해 조금 더 공부해보도록 하겠습니다! 🐸

'ML & DL > 패턴인식과 머신러닝' 카테고리의 다른 글

[패턴인식과 머신러닝] Chapter3. 모델 선택 & 차원의 저주 (0)	2026.05.27
[패턴인식과 머신러닝] Chapter1. 오프닝 및 확률론-(1) (1)	2026.04.15

1.2 확률론

1.2.3 베이지안 확률

1.2.4 가우시안 분포

1.2.5 곡선 피팅

1.2.6 베이지안 곡선 피팅

'ML & DL > 패턴인식과 머신러닝' 카테고리의 다른 글

티스토리툴바