시각의 수학적 재구성: CNN과 합성곱 연산
시각의
수학적 재구성:
CNN과 합성곱 연산
"이미지는 단순한 그림이 아닙니다. 커널이라는 수학적 돋보기로 읽어내는 거대한 행렬의 집합입니다."
[10년 차 몬이 샘의 교실 이야기: 돋보기로 찾은 보물]
"선생님, 컴퓨터는 강아지 사진을 보고 어떻게 귀가 뾰족한지, 꼬리가 살랑거리는지 아는 건가요? 눈도 없는데 신기해요."
질문하는 아이들에게 저는 격자무늬 종이와 작은 구멍이 뚫린 카드를 보여줍니다.
"얘들아, 컴퓨터에게 사진은 수백만 개의 숫자가 적힌 칸채우기 판이야. 하지만 컴퓨터는 이 '수학적 돋보기(커널)'를 들고 사진 위를 한 칸씩 훑으면서 숫자의 패턴을 찾아내지. 세로선이 강한 곳, 가로선이 꺾이는 곳... 이 돋보기를 통과한 결과물들이 모여 '아, 이건 강아지의 귀구나!'라고 판단하게 되는 거야. 결국 우리가 배우는 행렬 곱셈이 AI에게는 세상을 보는 '망막'이 되는 셈이지."
추상적인 개념이 구체적인 수학적 도구로 변하는 순간, 아이들의 상상력은 인공지능의 내부 회로를 따라 정교하게 움직이기 시작합니다.
01 합성곱(Convolution): 필터로 특징을 추출하다
합성곱 연산은 입력 이미지의 국소 영역과 필터(또는 커널)라 불리는 작은 행렬을 원소별로 곱한 뒤 모두 더하는 과정입니다. 이 연산을 통해 이미지의 윤곽선, 질감 등 핵심적인 특징이 추출된 '특징 맵(Feature Map)'이 생성됩니다.
[2D Convolution Formula]
$(I * K)(i, j) = \sum_m \sum_n I(i+m, j+n) K(m, n)$
($I$: 입력 이미지, $K$: 커널/필터)
필터의 값(가중치)이 어떻게 설정되느냐에 따라 이미지에서 수직선을 찾을지, 수평선을 찾을지 결정됩니다. 딥러닝은 학습을 통해 이 필터의 최적값을 스스로 찾아냅니다.
02 출력의 미학: 스트라이드(Stride)와 패딩(Padding)
연산 후 출력되는 데이터의 크기를 조절하고 외곽 정보를 보존하기 위해 두 가지 기하학적 기법을 사용합니다.
● 스트라이드 (Stride)
커널이 한 번에 이동하는 칸수입니다. 스트라이드가 커질수록 출력되는 특징 맵의 크기는 작아지며, 정보가 압축됩니다.
● 패딩 (Padding)
이미지 가장자리에 0을 채워(Zero-padding) 출력 크기를 유지하고, 외곽 데이터가 소실되는 것을 방지합니다.
출력 크기($O$) 공식: $O = \frac{I - K + 2P}{S} + 1$
ARCHIVE CLOSED: 수학적 필터가 빚어낸 시각 지능
CNN은 단순한 알고리즘이 아니라, 인간의 시각 피질이 작동하는 방식을 수학적인 격자 구조와 합성곱 연산으로 재현한 결과물입니다. 필터 하나하나가 세상의 특징을 잡아내는 '수학적 눈'이 되어줍니다. 오늘 정리한 CNN의 연산 원리가 여러분의 세특 보고서에 '인공지능 시각 모델의 수학적 구현'이라는 날카로운 인사이트를 더해주길 바랍니다. 10년 차 몬이 샘은 여러분이 수학이라는 도구로 세상을 더 깊고 명확하게 관찰하는 리더로 성장하길 응원합니다!