분포1 K-L 다이버전스 (Information theory, log, ...) 지난 시간에는 CEE와 MSE를 비교해보았다. 그런데 MSE야 평균을 이용한 직관적인 오차계산법이라고 하지만 CEE는 모양이 왜 저럴까? 밑이 10인 log가 들어간 것도 이상하다. 이를 알기 위해서는 정보이론(Information theory)개념이 조금 필요하다. 이 세상에는 수많은 정보가 있는데, 그 정보들의 놀라움의 정도는 모두 다르다. 예시로 아래 두 문장을 보자. 강아지가 폴짝 뛰었다. 지렁이가 폴짝 뛰었다. 두 문장 중에 어떤 것이 더 놀라운가? 당연히 지렁이가 폴짝 뛰었다는 점이 더 놀랍다. 왜냐하면 그럴 확률이 더 적기 때문이다. 어떤 정보가 있을 때 degree of surprise, 우리말로 놀라움의 정도를 나타내보자. 이때 사실이 일어날 확률이 작을수록 놀랍고 확률이 클수록 놀랍지 .. 2022. 1. 2. 이전 1 다음 반응형