불확실성의 척도: 엔트로피의 수학적 설계
불확실성의
척도:
엔트로피의 수학적 설계
"정보는 메시지의 내용이 아니라, 그 메시지가 발생할 확률이 우리에게 주는 '놀라움의 양'입니다."
[10년 차 몬이 샘의 사유: 해가 서쪽에서 뜰 확률]
"선생님, 뉴스에서 매일 나오는 뻔한 소식은 정보 가치가 없는데, 갑자기 터지는 특보는 왜 그렇게 자극적인가요?"
질문하는 학생에게 저는 '확률'이라는 단어를 꺼내 보였습니다.
"얘들아, 수학적으로 정보는 '놀라움(Surprise)'과 같단다. '내일 동쪽에서 해가 뜬다'는 말은 확률이 100%라 우리에게 아무런 정보도 주지 못해. 하지만 '내일 서쪽에서 해가 뜬다'는 말은 확률이 극히 낮기에, 만약 사실이라면 엄청난 정보량을 갖게 되지. 수학자 클로드 섀넌은 이 '놀라움의 정도'를 로그 함수를 빌려 수치화했어. 정보가 많다는 건 무질서(불확실성)가 해소된다는 뜻이지. 우리가 배우는 엔트로피는 바로 그 무질서의 크기를 재는 자란다."
단순한 물리 현상을 넘어 데이터의 본질을 꿰뚫어 보는 도구. 엔트로피를 이해할 때 우리는 비로소 '지능'이 어떻게 정보를 처리하는지 이해하게 됩니다.
01 Self-Information: 놀라움의 수치화
어떤 사건 $x$가 발생했을 때 얻는 정보량 $I(x)$는 그 사건이 일어날 확률 $P(x)$에 반비례해야 하며, 독립적인 두 사건의 정보량은 더해져야 합니다. 이 조건을 만족하는 유일한 구조가 바로 '로그(Log)'입니다.
$I(x) = -\log P(x)$
(확률이 작을수록 정보량은 무한히 커집니다)
이 식에 따르면 확실한 사건($P=1$)의 정보량은 0이며, 불확실한 사건일수록 전달하는 메시지의 가치가 커짐을 알 수 있습니다.
02 섀넌 엔트로피(Shannon Entropy): 확률 분포의 기댓값
엔트로피는 모든 가능한 사건들이 가진 정보량의 '평균'입니다. 즉, 어떤 시스템이 얼마나 예측 불가능한지를 나타내는 지표입니다.
$H(X) = -\sum_{i=1}^{n} P(x_i) \log P(x_i)$
(기댓값 연산 $E[I(x)]$과 동일한 구조)
동전 던지기에서 앞뒷면 확률이 0.5로 같을 때 엔트로피는 최대가 됩니다. 반면 한쪽으로 치우칠수록 엔트로피는 낮아지며, 이는 시스템이 더 정돈되고 예측 가능해졌음을 의미합니다.
ARCHIVE CLOSED: 정보의 질서가 만드는 미래
엔트로피는 단순한 물리적 무질서를 넘어, 데이터를 효율적으로 압축하고 인공지능이 정답을 찾아가도록 유도하는 나침반이 되었습니다. 딥러닝 모델이 예측값과 실제값 사이의 엔트로피 차이(Cross-Entropy)를 줄여나가는 과정은, 곧 기계가 세상의 질서를 배워가는 과정과 같습니다. 오늘 정리한 엔트로피의 수학적 구조가 여러분의 탐구 보고서에 '정보 이론과 확률적 최적화'라는 압도적인 전문성을 더해주길 바랍니다. 10년 차 몬이 샘은 여러분이 수학이라는 정교한 도구로 복잡한 세상 속에서 선명한 진리의 정보를 찾아내는 리더로 성장하길 응원합니다!