지난 시간에는 CEE와 MSE를 비교해보았다.
그런데 MSE야 평균을 이용한 직관적인 오차계산법이라고 하지만 CEE는 모양이 왜 저럴까?
밑이 10인 log가 들어간 것도 이상하다.
이를 알기 위해서는 정보이론(Information theory)개념이 조금 필요하다.
이 세상에는 수많은 정보가 있는데, 그 정보들의 놀라움의 정도는 모두 다르다.
예시로 아래 두 문장을 보자.
강아지가 폴짝 뛰었다.
지렁이가 폴짝 뛰었다.
두 문장 중에 어떤 것이 더 놀라운가?
당연히 지렁이가 폴짝 뛰었다는 점이 더 놀랍다.
왜냐하면 그럴 확률이 더 적기 때문이다.
어떤 정보가 있을 때 degree of surprise, 우리말로 놀라움의 정도를 나타내보자.
이때 사실이 일어날 확률이 작을수록 놀랍고
확률이 클수록 놀랍지 않다는 것을 기억해야 한다.
그럼 자연스럽게 log함수로 이를 표현할 수 있다.
확률이 아주크면 정보량은 0으로, 당연하게 일어나는 일은 전혀 놀랍지 않다.
이렇게 생겨난 것이 자기정보 개념이고, 나아가 엔트로피라는 개념이 생긴다.
자기정보 개념를 간략하게 설명하자면,
사건이나 메시지의 정보량을 말하는데 이 때 단위는 log의 밑이 2일 경우 비트, 자연상수 e일 경우 나츠로 정의된다.
엔트로피는 하나의 확률변수 x의 불확실성을 나타내는 정량적 수치다.
불확실성의 지표기 때문에 확률값이 작을수록 커진다.
이제 엔트로피 지식을 기반으로 K-L divergence에 대해 알아보자.
full name은 Kullback-Leibler divergence로 두 확률분포 사이의 거리를 말한다.
즉 두 확률 분포의 유사도로 말할 수 있다.
구체적인 식 전개는 두 확률분포 P와 Q사이의 교차 엔트로피 H(Q, P)로 부터 유도된다.
교차엔트로피로부터 식이 전개되어 아래와 같은 관계를 가진다.
P와 Q의 교차엔트로피 = P의 엔트로피 + P와 Q간의 KL다이버전스
이를 loss로 표현하여 정리하면 아래 식으로 표시할 수 있다.
P와 Q간의 KL다이버전스 loss = P와 Q의 교차엔트로피 loss - P의 엔트로피
그런데 이 때 엔트로피는 one hot vector다.
그래프로 나타내면 discrete impulse 형태가 된다.
one hot vector의 sumation은 항상 1이므로
log식인 P의 엔트로피는 항상 0이 된다.
따라서 사실상 아래 식으로 표현할 수 있다.
P와 Q간의 KL다이버전스 loss = P와 Q의 교차엔트로피 loss
그래서 CEE 식을 사용한다.
유사성을 표현하는 loss인 KL다이버전스와 같기 때문이다.
**추가
아래는 윷놀이에서 앞면이 나오는 확률을 40%, 50%, 60%인 상황을 가정하여 각 확률분포를 구하고 각각에 대한 엔트로피와 교차 엔트로피, KL 다이버전스를 구하여 확률분포끼리의 관계를 파악하는 방법이다.
예제 정도로 확인해주면 될 것 같다.
'전공 > 인공지능, ML, DL' 카테고리의 다른 글
2023 인공지능 툴 결산 / Best 12 AI Tools in 2023 (2) | 2024.02.14 |
---|---|
인공지능으로 트렌드 파악하기 (0) | 2024.01.12 |
[Deep Learning from Scratch 1] 밑바닥부터 시작하는 딥러닝 1 리뷰 (0) | 2022.06.24 |
Batch, mini batch 배치와 미니배치 그리고 여러가지 경사하강법 (0) | 2022.01.08 |
0에서의 ReLU (3) | 2022.01.01 |
댓글