본문 바로가기
전공/인공지능, ML, DL

K-L 다이버전스 (Information theory, log, ...)

by import ysy 2022. 1. 2.

 

지난 시간에는 CEE와 MSE를 비교해보았다. 

 

그런데 MSE야 평균을 이용한 직관적인 오차계산법이라고 하지만 CEE는 모양이 왜 저럴까?

밑이 10인 log가 들어간 것도 이상하다.

 

이를 알기 위해서는 정보이론(Information theory)개념이 조금 필요하다.

 

이 세상에는 수많은 정보가 있는데, 그 정보들의 놀라움의 정도는 모두 다르다.

예시로 아래 두 문장을 보자.

강아지가 폴짝 뛰었다.
지렁이가 폴짝 뛰었다.

두 문장 중에 어떤 것이 더 놀라운가?

당연히 지렁이가 폴짝 뛰었다는 점이 더 놀랍다.

왜냐하면 그럴 확률이 더 적기 때문이다.

 

어떤 정보가 있을 때 degree of surprise, 우리말로 놀라움의 정도를 나타내보자. 

이때 사실이 일어날 확률이 작을수록 놀랍고 

확률이 클수록 놀랍지 않다는 것을 기억해야 한다.

 

 

그럼 자연스럽게 log함수로 이를 표현할 수 있다.

확률이 아주크면 정보량은 0으로, 당연하게 일어나는 일은 전혀 놀랍지 않다.

 

 

 

 

이렇게 생겨난 것이 자기정보 개념이고, 나아가 엔트로피라는 개념이 생긴다.

자기정보 개념를 간략하게 설명하자면,

사건이나 메시지의 정보량을 말하는데 이 때 단위는 log의 밑이 2일 경우 비트, 자연상수 e일 경우 나츠로 정의된다.

 

엔트로피는 하나의 확률변수 x의 불확실성을 나타내는 정량적 수치다.

불확실성의 지표기 때문에 확률값이 작을수록 커진다.

 

 


이제 엔트로피 지식을 기반으로 K-L divergence에 대해 알아보자. 

full name은 Kullback-Leibler divergence로 두 확률분포 사이의 거리를 말한다.

즉 두 확률 분포의 유사도로 말할 수 있다.

 

구체적인 식 전개는 두 확률분포 P와 Q사이의 교차 엔트로피 H(Q, P)로 부터 유도된다.

교차엔트로피로부터 식이 전개되어 아래와 같은 관계를 가진다.

 

P와 Q의 교차엔트로피 = P의 엔트로피 + P와 Q간의 KL다이버전스

 

이를 loss로 표현하여 정리하면 아래 식으로 표시할 수 있다. 

 

P와 Q간의 KL다이버전스 loss = P와 Q의 교차엔트로피 loss - P의 엔트로피 

 

그런데 이 때 엔트로피는 one hot vector다. 

그래프로 나타내면 discrete impulse 형태가 된다.

 

discrete impulse

one hot vector의 sumation은 항상 1이므로

log식인 P의 엔트로피는 항상 0이 된다. 

 

따라서 사실상 아래 식으로 표현할 수 있다.

 

P와 Q간의 KL다이버전스 loss = P와 Q의 교차엔트로피 loss

 

그래서 CEE 식을 사용한다. 

유사성을 표현하는 loss인 KL다이버전스와 같기 때문이다.


**추가

아래는 윷놀이에서 앞면이 나오는 확률을 40%, 50%, 60%인 상황을 가정하여 각 확률분포를 구하고 각각에 대한 엔트로피와 교차 엔트로피, KL 다이버전스를 구하여 확률분포끼리의 관계를 파악하는 방법이다.

예제 정도로 확인해주면 될 것 같다.

 

반응형

댓글