AI 완전정복

PART 1 · AI의 기초 발상

AI란 무엇인가

"규칙을 짜는 것"에서 "스스로 배우는 것"으로

AI를 이해하는 출발점은 딱 하나의 전환이다. 사람이 규칙을 일일이 짜주는 대신, 기계가 예시(데이터)를 보고 규칙을 스스로 찾게 한다. 이 발상의 차이가 전부다.

🔀 두 가지 접근

📜 규칙 기반 (옛 방식)

사람이 "이러면 이렇게 하라"를 전부 코딩. 예: "이메일에 '당첨'이 있으면 스팸." 예외가 많아지면 규칙이 폭발해 감당 불가.

🧠 학습 기반 (머신러닝)

스팸 메일 수만 통을 보여주고 "이게 스팸이다"라고 알려주면, 기계가 공통 패턴을 스스로 찾아낸다. 규칙을 직접 안 짠다.

🪆 AI ⊃ 머신러닝 ⊃ 딥러닝

세 단어가 자주 섞여 쓰이는데, 사실 포함 관계다.

딥러닝은 머신러닝의 한 방법이고, 머신러닝은 AI의 한 갈래다. 요즘 화제의 대부분(ChatGPT 포함)은 가장 안쪽 딥러닝이다.

요리 비유. 규칙 기반은 레시피를 글자 하나까지 받아 적는 것. 머신러닝은 완성된 요리 수천 접시를 맛보며 "이 맛을 내려면 뭘 어떻게"를 스스로 감 잡는 것. 후자는 레시피에 없던 새 재료에도 대응할 수 있다.

머신러닝이 규칙 기반과 결정적으로 다른 점은?

사람이 규칙을 직접 코딩하지 않고, 데이터(예시)에서 기계가 규칙·패턴을 스스로 찾아낸다는 것. 그래서 예외가 많고 복잡한 문제(이미지·언어)에 강하다.

머신러닝의 핵심 아이디어

학습이란 결국 "함수의 손잡이를 맞추는 것"

머신러닝의 본질은 의외로 단순하다. 입력을 출력으로 바꾸는 함수를 찾되, 그 함수를 데이터에 맞게 조금씩 조정하는 것. 수식 없이 감만 잡아도 충분하다.

📐 모델 = 조절 손잡이가 달린 함수

"집 크기 → 집값"을 예측한다고 하자. 가장 단순한 모델은 집값 = a × 크기 + b. 여기서 a와 b가 "손잡이"다. 이 손잡이를 잘 맞추면 예측이 정확해진다. 머신러닝에서 이 손잡이를 파라미터(parameter, 가중치)라 부른다.

실제 데이터를 보면서 예측이 실제와 가까워지도록 a와 b를 조금씩 돌린다. 이 "조금씩 돌리는 과정"이 곧 학습이다. GPT 같은 모델은 이 손잡이가 수천억 개일 뿐, 원리는 똑같다.

파란 점은 실제 데이터, 보라 선은 모델. 점들에 가장 잘 맞는 선이 되도록 손잡이(a, b)를 조정하는 게 학습이다.

📏 "얼마나 틀렸나"를 재는 손실(Loss)

손잡이를 어느 쪽으로 돌릴지 알려면, 먼저 지금 얼마나 틀렸는지를 숫자로 재야 한다. 이 "틀린 정도"가 손실(loss) 또는 오차다. 예측과 정답의 차이를 모아 하나의 숫자로 만든 것. 학습의 목표는 단 하나, 이 손실을 가장 작게 만드는 손잡이 값을 찾는 것이다.

한 걸음 더 · '특징'을 누가 고르나 (딥러닝의 진짜 도약)

고전 머신러닝의 진짜 일은 모델이 아니라 특징 공학(feature engineering)이었다. "집값"이라면 평수·층수·역까지 거리 같은 입력 항목을 사람이 손으로 골라 넣어야 했고, 이미지라면 "모서리 개수" 같은 특징을 사람이 설계했다. 모델 성능의 8할이 이 특징 선택에서 갈렸다. 딥러닝의 혁명은 바로 이 단계를 없앤 것이다 — 원시 데이터(픽셀·글자)를 그대로 넣으면 어떤 특징이 중요한지까지 신경망이 스스로 학습한다(표현 학습, representation learning). 8장 CNN이 "선→부품→사물"을 스스로 찾는 게 정확히 이것이다. 그래서 데이터만 충분하면 사람의 도메인 지식 없이도 통한다.

핵심 한 줄: 머신러닝 = ① 손잡이 달린 함수(모델)를 두고 → ② 틀린 정도(손실)를 재서 → ③ 손실이 줄도록 손잡이를 조금씩 돌리기. 6장에서 이 "돌리는 방법"(경사하강·역전파)을 자세히 본다.

학습의 세 가지 종류

정답을 주느냐, 안 주느냐, 보상을 주느냐

머신러닝은 "무엇을 보고 배우느냐"에 따라 크게 셋으로 나뉜다. 뉴스에 나오는 거의 모든 AI는 이 셋 중 하나(또는 조합)다.

종류	배우는 방식	예시
지도학습 Supervised	입력 + 정답을 함께 줌. "이 사진은 고양이"	이미지 분류, 스팸 필터, 가격 예측, 결함 검출
비지도학습 Unsupervised	정답 없이 데이터만. 스스로 묶고 구조 발견	고객 군집화, 이상 탐지, 차원 축소
강화학습 Reinforcement	행동에 보상/벌점을 줌. 시행착오로 전략 학습	알파고, 로봇 제어, 게임 AI

🏷️ 지도

정답표를 보고 공부하는 학생. 가장 흔하고 강력. 결함 검출도 여기("정상/불량" 라벨로 학습).

🧩 비지도

정답 없이 비슷한 것끼리 모으는 정리정돈. "이상한 것 찾기"에 강함.

🎮 강화

게임하며 점수로 배우는 방식. 잘하면 보상, 못하면 벌점.

자전거로 비유. 지도학습 = 교본과 정답을 보며 배움. 비지도학습 = 그냥 여러 자전거를 관찰해 종류를 나눔. 강화학습 = 일단 타보고 넘어지면(벌점) 안 넘어지면(보상) 몸으로 익힘. ChatGPT는 지도학습 + 강화학습(사람 피드백)을 함께 쓴다(11장).

"불량 검출" AI는 보통 어떤 학습일까?

지도학습. "정상/불량"이 라벨링된 이미지 수천~수만 장을 보여주고 패턴을 학습시킨다. 라벨이 부족하면 비지도(이상 탐지)를 섞기도 한다. 반도체 검사가 정확히 이 영역이다.

PART 2 · 신경망의 원리

뉴런과 퍼셉트론

뇌를 흉내 낸 가장 작은 계산 단위

딥러닝의 "신경망"은 뇌의 신경세포(뉴런)에서 영감을 받았다. 인공 뉴런 하나가 하는 일은 단순하다. 여러 입력을 가중치로 섞어 더한 뒤, 일정 기준을 넘으면 신호를 내보낸다.

🔢 인공 뉴런의 3단계

① 입력 × 가중치: 각 입력에 중요도(가중치)를 곱한다. 중요한 입력엔 큰 가중치.
② 모두 더하기 (+ 편향): 곱한 값들을 합산하고, 기준점을 조절하는 편향(bias)을 더한다.
③ 활성화 함수: 그 합이 기준을 넘으면 "켜고(신호 전달)", 아니면 약하게 내보낸다.

입력에 가중치를 곱해 더하고(Σ), 활성화 함수를 통과시켜 출력을 낸다. 이게 뉴런 하나의 전부다.

⚡ 활성화 함수가 필요한 이유

활성화 함수가 없으면 아무리 뉴런을 많이 쌓아도 결국 직선(단순 비례)밖에 못 만든다. 활성화 함수(예: ReLU, "음수면 0, 양수면 그대로")가 비선형성(꺾임)을 넣어줘야 곡선·복잡한 패턴을 표현할 수 있다. 세상의 문제는 직선이 아니니까.

회의 결정 비유. 뉴런은 여러 의견(입력)을 중요도(가중치)대로 반영해 합산하고, 일정 찬성선을 넘으면 "통과(발화)"시키는 의장 같다. 가중치를 어떻게 두느냐가 곧 그 뉴런의 "판단 기준"이다.

활성화 함수가 없으면 왜 안 되나?

비선형성이 사라져 신경망 전체가 결국 하나의 직선(선형 함수)으로 붕괴한다. 곡선·복잡한 경계를 못 그려 어려운 문제를 못 푼다. 그래서 ReLU 같은 "꺾임"을 넣는다.

신경망의 구조

뉴런을 층층이 쌓으면 "깊은" 신경망

뉴런 하나는 단순하지만, 여러 개를 한 줄(층)로 세우고 그 층을 여러 겹 쌓으면 놀라운 일이 일어난다. 이 "여러 겹"이 바로 딥(deep) 러닝의 "deep"이다.

🏛️ 입력층 → 은닉층 → 출력층

각 층의 뉴런이 다음 층 뉴런과 연결된다. 정보가 왼쪽(입력)에서 오른쪽(출력)으로 흐른다.

🔭 층이 깊을수록 "추상화"가 올라간다

이미지 인식을 예로 들면, 앞쪽 층은 선·모서리 같은 단순한 특징을 잡고, 중간 층은 눈·코·바퀴 같은 부품을, 뒤쪽 층은 얼굴·자동차 같은 전체 개념을 잡는다. 단순한 특징을 조합해 점점 복잡한 개념으로 올라가는 것. 사람이 특징을 일일이 알려주지 않아도 스스로 특징을 발견(feature learning)하는 게 딥러닝의 위력이다.

레고 계층. 반도체에서 "트랜지스터→게이트→CPU"로 추상화가 올라갔듯, 신경망도 "선→부품→사물"로 올라간다. 아래 단순한 것을 조합해 위로 갈수록 의미가 풍부해지는 동일한 원리다.

왜 '깊게' 쌓나 — 보편 근사 정리: 수학적으로는 은닉층 하나만 있어도 뉴런을 충분히 넓게 두면 어떤 연속 함수든 원하는 정밀도로 흉내 낼 수 있다 (보편 근사 정리). 그런데 왜 굳이 깊게 쌓을까? 효율 때문이다. 얕고 넓은 망은 같은 문제를 풀려면 뉴런이 기하급수적으로 많이 필요하지만, 깊은 망은 "단순한 특징을 조합해 복잡한 특징을 만드는" 계층 구조를 쓰므로 훨씬 적은 파라미터로 같은 일을 해낸다. 세상의 데이터(이미지·언어)가 원래 계층적이라, 그 구조를 닮은 깊은 망이 잘 맞는 것이다.

석사 수준 · 깊은 망을 실제로 학습시키는 법

단순히 층을 쌓으면 기울기가 뒤로 갈수록 0이 되거나 폭발한다(기울기 소실/폭발). 이를 푸는 네 가지가 현대 딥러닝의 토대다. ① 가중치 초기화 — 분산을 층 크기에 맞춰 잡는 Xavier/He 초기화. ② 활성화 — sigmoid 대신 ReLU 계열로 기울기 흐름 유지. ③ 정규화 — 배치 정규화(BatchNorm)·층 정규화(LayerNorm)로 각 층 입력 분포를 안정화. ④ 잔차 연결(residual) — 입력을 출력에 그대로 더해(skip) 기울기가 지름길로 흐르게(ResNet의 핵심). 이 넷이 없으면 수십 층 이상은 사실상 학습이 안 된다. 트랜스포머도 LayerNorm + 잔차로 깊이를 버틴다.

한 걸음 더 · 파라미터 수

연결선 하나하나가 가중치(파라미터)다. 작은 신경망도 수천 개, 이미지 모델은 수백만~수억 개, GPT-4급은 수천억~조 단위의 파라미터를 가진다. 학습이란 이 모든 손잡이를 데이터에 맞게 동시에 조정하는 일이고, 그래서 막대한 계산(=GPU, 18장)이 필요하다.

학습의 원리

경사하강과 역전파: 손잡이를 맞추는 법

2장에서 "손실이 줄도록 손잡이를 돌린다"고 했다. 그런데 손잡이가 수억 개라면 어느 쪽으로 돌려야 할까? 그 답이 경사하강법과 역전파다. AI에서 가장 중요한 메커니즘이니 천천히 보자.

⛰️ 경사하강법 (Gradient Descent)

손실을 "골짜기가 있는 지형"이라고 상상하자. 우리는 가장 낮은 곳(손실 최소)을 찾고 싶다. 방법은 단순하다. 지금 서 있는 자리에서 가장 가파르게 내려가는 방향으로 한 걸음 내딛기. 이걸 반복하면 골짜기 바닥에 도달한다. 이 "내려가는 방향"을 알려주는 게 기울기(gradient)다.

시작 · 오차 큼최소 (목표)

경사하강법 — 손실 골짜기에서 가장 가파른 내리막을 따라 한 걸음씩 내려가, 출렁이다 최솟값에 안착한다. (마우스를 올리면 더 빨리 수렴한다)

한 가지 중요한 함정 — 이 골짜기는 매끈한 그릇 하나가 아니다. 실제 손실 지형은 수억 차원에 울퉁불퉁한 산맥이라, 공이 진짜 최저점이 아닌 국소 최저점(local minimum)이나 평평한 안장점에 갇힐 수 있다. 그래서 실무에선 한 번에 전체 데이터가 아니라 작은 묶음(미니배치)으로 기울기를 추정해 일부러 약간의 무작위성을 주거나(SGD), 관성을 더해(모멘텀) 얕은 웅덩이를 굴러 넘게 하고, 걸음 크기를 자동 조절하는 Adam 같은 최적화기를 쓴다. 다행히 거대 신경망에서는 나쁜 국소 최저점이 생각보다 드물다는 게 경험적으로 알려져 있다.

걸음이 너무 크면 골짜기를 건너뛰어 출렁대고, 너무 작으면 한없이 느리다. 이 걸음 크기 학습률(learning rate) 조절이 학습의 핵심 기술 중 하나다.

🔁 역전파 (Backpropagation)

수억 개 손잡이 각각이 "오차에 얼마나 기여했는지"를 어떻게 알까? 역전파는 출력에서 생긴 오차를 뒤에서 앞으로 거꾸로 전파하며, 각 가중치가 책임져야 할 몫을 계산한다. 그 몫만큼 각 손잡이를 경사하강으로 조정한다. 이 한 바퀴를 데이터로 수백만 번 반복하면 모델이 똑똑해진다.

순전파

입력→예측 계산

→

손실 측정

예측 vs 정답 차이

→

역전파

오차를 거꾸로 분배

→

가중치 갱신

경사하강으로 조정

→

반복

수백만 번

↻

이 사이클을 반복

양궁 비유. 화살을 쏘고(순전파), 과녁에서 얼마나 빗나갔는지 보고(손실), "팔 각도·힘 중 무엇 때문에 빗나갔나"를 거슬러 따져(역전파), 다음엔 그만큼 자세를 고친다(갱신). 이걸 반복하면 명중률이 오른다.

석사 수준 · 역전파와 옵티마이저를 수식으로

역전파는 연쇄법칙(chain rule)으로 손실 L의 각 가중치 기울기 ∂L/∂w를 출력층→입력층으로 거꾸로 곱해 내려가며 계산한다(계산 그래프의 자동 미분). 분류 손실은 보통 교차 엔트로피 L = −Σ y·log(ŷ). 기울기를 구한 뒤 갱신 방식이 옵티마이저다: ① SGD: w ← w − η·g. ② 모멘텀: 과거 기울기의 관성을 더해 진동을 줄이고 골을 빨리 내려감. ③ Adam: 기울기의 1차(평균)·2차(분산) 모멘트를 추정해 파라미터마다 학습률을 자동 조절 — 사실상 표준. 학습률 η는 보통 워밍업 후 코사인 감쇠 스케줄을 쓴다.

역전파와 경사하강의 관계는?

역전파는 "각 손잡이가 오차에 얼마나 기여했나(기울기)"를 계산하는 방법이고, 경사하강은 그 기울기를 보고 "손잡이를 어느 쪽으로 얼마나 돌릴지" 정하는 방법이다. 둘이 짝을 이뤄 학습을 굴린다.

과적합과 일반화

"외운 학생"과 "이해한 학생"의 차이

학습이 잘됐는지 판단하는 진짜 기준은 "본 적 없는 새 데이터를 맞히느냐"다. 이것을 일반화라 하고, 그 반대 함정이 과적합(overfitting)이다. AI 실무에서 가장 자주 부딪히는 문제다.

📚 과적합: 답을 외워버린 모델

모델이 학습 데이터를 너무 깊이 파고들면, 일반적 패턴 대신 그 데이터의 우연한 잡음까지 통째로 외운다. 그러면 학습 데이터는 100% 맞히지만 새 데이터에선 엉망이 된다. 시험 족보만 달달 외워 응용 문제에 무너지는 학생과 같다.

왼쪽은 너무 단순(과소적합), 오른쪽은 잡음까지 외운 과적합. 가운데처럼 '핵심 패턴만' 잡는 게 목표.

🧪 그래서 데이터를 나눈다

구분	역할
학습셋 (Train)	모델이 보고 배우는 데이터
검증셋 (Validation)	학습 중 성능을 점검하고 설정을 튜닝
시험셋 (Test)	마지막에 딱 한 번, 진짜 실력 측정 (커닝 금지)

🛡️ 과적합을 막는 법

· 데이터를 더 많이: 가장 확실. 다양한 예시를 보면 잡음에 덜 휘둘린다.
· 정규화(Regularization): 손잡이가 과하게 커지지 않도록 벌점을 줘 모델을 단순하게 유지.
· 드롭아웃(Dropout): 학습 중 뉴런 일부를 무작위로 꺼서 특정 경로에 의존하지 못하게.
· 조기 종료: 검증 성능이 나빠지기 시작하면 학습을 멈춤.

한 걸음 더 · 편향–분산 트레이드오프

과소적합과 과적합은 사실 한 저울의 양 끝이다. 편향(bias)이 높다 = 모델이 너무 단순해 패턴 자체를 못 잡음 (과소적합). 분산(variance)이 높다 = 모델이 데이터마다 너무 출렁여 잡음까지 외움(과적합). 모델을 키우면 편향은 줄지만 분산이 늘고, 줄이면 그 반대 — 그 사이 달콤한 지점을 찾는 게 전통적 관점이다. (흥미롭게도 아주 거대한 신경망에서는 이 곡선이 한 번 더 꺾여 더 키울수록 다시 좋아지는 "이중 강하" 현상이 관찰되는데, 그래서 현대 LLM은 "그냥 더 크게"가 통하는 면이 있다.)

석사 수준 · 정규화를 수식으로

과적합을 누르는 정공법들: ① L2 정규화(가중치 감쇠) — 손실에 λ·Σw²를 더해 가중치가 커지지 않게 한다(베이즈적으로는 가중치에 가우시안 사전분포를 두는 것과 동치). ② 드롭아웃 — 매 스텝 뉴런을 확률 p로 끄면, 사실상 지수적으로 많은 부분 망의 앙상블을 학습하는 효과. ③ 조기 종료·데이터 증강·라벨 스무딩. 일반화 이론에선 모델의 '유효 복잡도'를 줄이는 것으로 본다. 흥미롭게도 현대 거대 모델은 데이터가 워낙 많아 명시적 정규화보다 데이터 규모·다양성 자체가 가장 강력한 정규화로 작동하기도 한다.

2부 요약: 뉴런(가중합+활성화, 4장) → 층층이 쌓아 신경망(5장) → 경사하강·역전파로 학습(6장) → 외우지 말고 일반화하도록 관리(7장). 이제 이 신경망을 "용도별로 특화한" 딥러닝 구조들로 넘어간다.

PART 3 · 딥러닝 아키텍처

CNN · 이미지를 보는 신경망

컴퓨터가 사진을 "이해하는" 방식

이미지·영상 분야의 혁명을 일으킨 구조가 CNN(합성곱 신경망)이다. 컴퓨터 비전·결함 검출과 가장 직접 맞닿는 구조라 자세히 본다.

🖼️ 이미지는 숫자 격자다

컴퓨터에게 사진은 픽셀 밝기 숫자의 격자일 뿐이다(컬러는 R·G·B 세 장). 흔한 신경망에 이 숫자를 통째로 넣으면 픽셀이 너무 많아 비효율적이고, 위치가 조금만 바뀌어도 못 알아본다. CNN은 이 문제를 영리하게 푼다.

🔍 합성곱: 작은 "특징 탐지기"로 훑기

CNN은 작은 창(필터)을 이미지 위에서 미끄러뜨리며(슬라이딩) 훑는다. 각 필터는 특정 특징, 예컨대 "세로 모서리", "둥근 곡선"에 반응한다. 같은 필터를 이미지 전체에 쓰기 때문에, 물체가 어디에 있든 같은 특징을 찾아낸다(위치 불변성).

입력 이미지(픽셀)

→

특징 지도

→

"고양이"

합성곱 — 작은 필터(보라 창)가 이미지를 한 칸씩 훑으며 특징을 뽑아 특징 지도를 만들고, 층이 깊어질수록 추상적 개념으로. (마우스를 올리면 더 빨리 훑는다)

여기서 핵심은 같은 필터를 이미지 전체에 재사용한다는 점이다. 그래서 고양이가 사진의 왼쪽 위에 있든 오른쪽 아래에 있든 같은 "귀 탐지기"가 반응한다(위치 불변성). 또 흔한 신경망이라면 픽셀 하나마다 가중치를 따로 둬야 하지만, CNN은 작은 필터(예: 3×3) 한 장의 가중치 9개를 전체에 공유하므로 파라미터가 극적으로 적다. 한 층에 필터가 수십~수백 장 있고(각자 다른 특징 담당), 이 필터들의 가중치가 곧 학습 대상이다 — 즉 CNN은 "어떤 특징을 봐야 하는지" 까지 데이터에서 스스로 배운다.

🪜 풀링과 계층적 특징

합성곱 뒤엔 보통 풀링(pooling)으로 정보를 압축한다(예: 2×2 영역에서 가장 강한 값만 남기기). 이를 반복하면 5장에서 본 것처럼 모서리 → 부품 → 사물로 추상화가 올라간다. 사람이 "고양이 귀는 뾰족하다" 같은 규칙을 알려주지 않아도, CNN이 데이터에서 스스로 특징을 발견한다.

산업 응용: 제조 검사, 특히 반도체 결함 검출이 전형적인 CNN 문제다. "정상 패턴 이미지"를 학습한 모델이 미세한 이상(긁힘·이물질)을 찾아낸다. 최근엔 이상 탐지·세그멘테이션·트랜스포머 기반 비전(ViT)도 함께 쓰인다.

CNN이 일반 신경망보다 이미지에 강한 이유는?

작은 필터를 이미지 전체에 공유해 훑기 때문에 ① 파라미터가 적어 효율적이고 ② 물체 위치가 바뀌어도 같은 특징을 잡는 위치 불변성을 갖는다. 또 층이 깊어지며 단순→복잡 특징을 계층적으로 학습한다.

순차 데이터와 어텐션

문장처럼 "순서가 있는" 데이터 다루기

이미지는 한눈에 보지만, 문장·음성·시계열은 순서가 의미를 만든다("개가 사람을 물다" ≠ "사람이 개를 물다"). 이런 데이터를 다루려는 시도가 결국 오늘날 LLM의 직전 단계인 어텐션으로 이어진다.

🔗 RNN: 기억을 들고 한 단어씩

초기 방식인 RNN(순환 신경망)은 단어를 하나씩 읽으며 "지금까지의 요약(기억)"을 다음 단계로 넘긴다. 사람이 문장을 왼쪽부터 읽어가는 것과 비슷하다. 하지만 두 가지 한계가 있었다.

· 긴 의존성에 약함: 문장이 길어지면 앞부분 기억이 희미해진다(장기 의존성 문제).
· 순차 처리라 느림: 한 단어씩 차례로만 처리 가능 → 병렬화가 어려워 대규모 학습에 불리.

👁️ 어텐션(Attention): "중요한 단어에 집중"

돌파구는 어텐션이었다. 한 단어를 해석할 때 문장의 모든 단어를 한꺼번에 보되, 관련 깊은 단어에 더 큰 가중치(주목)를 둔다. 예를 들어 "그 동물은 길을 못 건넜다. 너무 피곤했기 때문에"에서 "피곤한" 주체가 "동물"임을 어텐션이 연결한다.

"피곤"을 해석할 때 어텐션은 멀리 떨어진 "동물"에 강하게 주목한다. 거리와 무관하게 관련 단어를 직접 연결한다.

왜 결정적인가: 어텐션은 ① 멀리 떨어진 단어도 직접 연결해 장기 의존성을 풀고 ② 모든 단어를 동시에 볼 수 있어 병렬 처리가 가능하다. 이 두 장점이 다음 장 트랜스포머의 폭발력을 만든다(그리고 병렬 처리는 GPU와 완벽히 맞는다, 18장).

한 걸음 더 · 공짜는 아니다 (어텐션의 n² 비용)

모든 단어가 모든 단어를 본다는 건, 단어가 n개면 비교가 n×n번 일어난다는 뜻이다. 그래서 입력이 2배 길어지면 연산·메모리는 약 4배로 는다. 이 제곱 비용이 "컨텍스트 윈도우"가 왜 비싸고 한계가 있는지의 근본 이유다(12장). 그래서 긴 문맥을 싸게 처리하려는 연구(희소 어텐션, 플래시어텐션, 상태공간 모델 등)가 활발하다 — 어텐션의 표현력은 지키면서 n² 벽을 깎아내려는 싸움이다.

트랜스포머

"Attention Is All You Need" · 현대 AI의 엔진

2017년 등장한 트랜스포머(Transformer)는 RNN을 버리고 오직 어텐션만으로 순차 데이터를 처리했다. ChatGPT의 "GPT"가 바로 Generative Pre-trained Transformer다. 오늘날 거의 모든 거대 AI의 뼈대다.

🧬 핵심 1 · 셀프 어텐션 (Self-Attention)

문장 안의 모든 단어가 모든 단어를 서로 본다. 각 단어가 "나와 관련 깊은 단어가 누구인지"를 스스로 계산해 문맥을 파악한다. RNN처럼 한 줄로 읽는 게 아니라 한 번에 전체를 조망한다.

🔢 핵심 2 · 단어를 숫자(벡터)로

컴퓨터는 단어를 모르니, 각 단어(정확히는 토큰, 단어 조각)를 의미를 담은 숫자 벡터(임베딩)로 바꾼다. 신기하게도 학습이 끝나면 비슷한 의미의 단어가 벡터 공간에서 가까이 모인다(왕−남자+여자 ≈ 여왕 같은 관계까지 잡힌다).

⚡ 핵심 3 · 완전 병렬 처리

RNN과 달리 단어를 한꺼번에 처리하므로 GPU로 대규모 병렬 학습이 가능하다. 이 덕분에 인터넷 전체급 데이터로 거대한 모델을 학습할 수 있게 됐고, 그게 LLM 시대를 열었다.

토큰화

문장→단어조각

→

임베딩

토큰→의미 벡터

→

셀프 어텐션

단어끼리 문맥 파악

→

여러 층 반복

의미를 점점 정교화

→

출력

다음 단어 예측

회의실 비유. RNN은 한 명씩 차례로 귓속말로 전달하는 릴레이(뒤로 갈수록 내용이 변질). 트랜스포머는 모두가 한 테이블에 앉아 동시에 서로를 보며 누가 핵심인지 가늠하는 원탁회의. 더 정확하고 빠르다.

순서는 어떻게 알까 — 위치 인코딩: 한 가지 역설이 있다. 어텐션은 모든 단어를 "동시에" 보기 때문에 그 자체로는 단어의 순서를 모른다 — "개가 사람을 물다"와 "사람이 개를 물다"가 똑같이 보인다. 그래서 트랜스포머는 각 단어 벡터에 위치 정보(positional encoding)를 더해 "너는 3번째 단어야"를 표시한다. RNN은 한 단어씩 읽으니 순서가 공짜였지만, 병렬을 얻은 대가로 순서를 따로 주입해야 하는 것이다. 최신 모델이 긴 문맥을 다루는 비결(RoPE 등)도 대부분 이 위치 인코딩을 영리하게 만드는 데 있다.

석사 수준 · 어텐션을 수식으로

각 토큰을 Query·Key·Value 벡터로 사영한 뒤, Attention = softmax(Q·Kᵀ / √d_k)·V. 직관: Q와 K의 내적이 "관련도 점수"이고, √d_k로 나눠 점수 분산을 안정화하며(스케일드 닷프로덕트), softmax로 가중치를 만들어 V를 가중합한다. 멀티헤드는 이를 h개 병렬로 해 서로 다른 부분공간의 관계를 잡고 이어붙인다. 생성 모델(GPT)은 미래 토큰을 못 보게 막는 인과(causal) 마스킹을 쓴다. 각 트랜스포머 블록은 (멀티헤드 어텐션 → 피드포워드 MLP) 에 부분마다 잔차 연결 + LayerNorm을 두른 구조이고, 이걸 수십~수백 겹 쌓은 게 LLM이다.

한 걸음 더 · 멀티헤드 어텐션

트랜스포머는 어텐션을 여러 개(멀티헤드) 병렬로 둬서, 한 헤드는 문법 관계를, 다른 헤드는 의미 관계를 보는 식으로 다양한 관점을 동시에 학습한다. 각 단어를 Query·Key·Value 세 벡터로 변환해 "내 Query와 가장 잘 맞는 Key를 가진 단어의 Value를 가져온다"는 게 어텐션의 실제 계산이다. 이런 층(어텐션+피드포워드)을 수십~수백 겹 쌓은 것이 GPT 같은 모델의 실체다.

LLM과 생성형 AI

ChatGPT는 결국 "다음 단어 맞히기"다

놀랍게도, 거대 언어모델(LLM)의 핵심 능력은 단 하나에서 나온다. "지금까지의 글 다음에 올 단어를 예측하기." 이 단순한 목표를 어마어마한 규모로 밀어붙였더니 번역·요약·코딩·추론까지 창발했다.

📖 1단계 · 사전학습 (Pre-training)

인터넷·책 등 방대한 텍스트를 주고, 문장 일부를 가린 뒤 다음 단어(토큰)를 맞히게 반복 훈련한다. 정답은 원문 자체이므로 사람이 라벨을 달 필요가 없다(자기지도학습). 수천억 개 파라미터를 수조 단어로 학습하며 문법·상식·문체· 약간의 추론까지 흡수한다. 막대한 GPU와 전기, 시간이 드는 단계다.

🎯 2단계 · 정렬 (Fine-tuning & RLHF)

사전학습만 한 모델은 "그럴듯한 다음 단어"는 잘 내지만 사람의 지시를 따르거나 안전하게 답하진 못한다. 그래서 ① 좋은 질문-답변 예시로 지시 미세조정하고 ② 사람이 여러 답변 중 나은 것을 고른 피드백으로 RLHF(인간 피드백 기반 강화학습)를 한다. 이 정렬 과정이 "쓸 만하고 공손한 ChatGPT"를 만든다.

사전학습

방대한 텍스트로 다음단어 예측

→

지시 미세조정

질문-답변 예시 학습

→

RLHF

사람 선호로 다듬기

→

완성

대화형 AI

✍️ 어떻게 "생성"하나

답을 한 번에 통째로 쓰는 게 아니라, 토큰을 하나씩 차례로 생성한다. 매 순간 "다음에 올 가장 그럴듯한 토큰"을 확률로 뽑고, 그걸 입력에 붙여 또 다음 토큰을 뽑는다(자기회귀, autoregressive). 약간의 무작위성(temperature)을 줘서 매번 조금씩 다른, 창의적인 답이 나온다.

중요한 직관: LLM은 사실을 "검색"하는 게 아니라 그럴듯한 다음 말을 확률로 생성한다. 그래서 모르는 것도 자신 있게 지어내는 환각(hallucination)이 생긴다(13·19장). 강력하지만 "확률적 글쓰기 기계"라는 본질을 기억하면 한계도 이해된다.

생성형 AI 전반: 같은 발상이 이미지(확산모델 Diffusion), 음성, 코드, 영상으로 확장됐다. 텍스트는 "다음 단어", 이미지는 "노이즈에서 그림 복원"이라는 차이만 있을 뿐, 데이터의 패턴을 학습해 새 데이터를 만든다는 핵심은 같다.

한 걸음 더 · 토큰화와 스케일링 법칙

모델은 글자나 단어가 아니라 토큰(자주 쓰는 글자 덩어리) 단위로 본다. 영어는 대략 한 단어가 1~2토큰, 한국어는 더 잘게 쪼개진다. "strawberry의 r 개수"를 모델이 곧잘 틀리는 것도 글자가 아니라 토큰 덩어리로 보기 때문이다. 그리고 "얼마나 키워야 하나"엔 경험 법칙이 있다 — 스케일링 법칙: 성능은 모델 크기·데이터·연산을 키울수록 매끄럽게 오른다. 특히 친칠라(Chinchilla) 연구는 모델만 키우지 말고 데이터도 비례해 늘려야 최적임을 보였다. "더 크게 하면 더 똑똑해진다"가 막연한 기대가 아니라 측정된 곡선이라는 점이 이 분야의 동력이다.

석사 수준 · 사전학습 목표와 스케일링 법칙

목표는 단순하다 — 다음 토큰의 음의 로그우도를 최소화한다: L = −Σ log P(다음 토큰 | 이전 토큰들)(자기회귀 교차 엔트로피). 정답이 데이터 자체라 라벨이 필요 없다(자기지도). 토큰화는 보통 BPE(자주 등장하는 바이트 쌍을 반복 병합)로 어휘를 만든다. 성능은 모델 크기 N·데이터 D·연산 C에 대해 매끄러운 거듭제곱 법칙(대략 L ∝ N^−α)을 따르고, 친칠라(Chinchilla)는 주어진 연산 예산에서 N과 D를 비슷한 비율로 키워야 최적(대략 토큰 ≈ 20 × 파라미터)임을 보였다. 일부 능력은 규모가 임계점을 넘을 때 갑자기 나타나는 창발(emergence)로 보고된다.

ChatGPT가 가끔 틀린 사실을 자신 있게 말하는 근본 이유는?

사실 데이터베이스를 조회하는 게 아니라 "통계적으로 그럴듯한 다음 토큰"을 생성하기 때문. 그럴듯함과 사실 여부는 다르므로, 근거 없이도 매끄러운 거짓(환각)을 만들 수 있다. 그래서 중요한 정보는 항상 검증이 필요하다.

PART 4 · LLM 실전과 최신 트렌드

컨텍스트·프롬프트·인컨텍스트 학습

모델의 "작업 기억"을 다루는 법

11장까지가 "모델이 어떻게 만들어지나"였다면, 여기부터는 완성된 모델을 실제로 어떻게 쓰는가다. 출발점은 모델의 작업 공간인 컨텍스트(context)를 이해하는 것.

🪟 컨텍스트 윈도우 = 한 번에 볼 수 있는 양

LLM은 입력을 토큰으로 쪼개 처리한다(10장). 한 번에 읽고 기억할 수 있는 토큰 수의 한계가 컨텍스트 윈도우다. 사람의 "한 번에 머릿속에 떠올릴 수 있는 분량"과 같다. 초기엔 수천 토큰이었지만, 최신 모델은 수십만~수백만 토큰(책 여러 권 분량)까지 본다.

중요한 한계 둘: ① 컨텍스트가 길수록 비용·속도가 늘고(연산이 길이에 민감), ② 너무 길면 가운데 정보를 놓치는 "lost in the middle" 현상이 있다. 그래서 "무조건 다 넣기"보다 필요한 것만 잘 넣는 기술(13장 RAG)이 중요해진다.

✍️ 프롬프트와 인컨텍스트 학습

모델에게 주는 지시문이 프롬프트(prompt)다. 놀라운 점은, 모델을 다시 훈련시키지 않고 프롬프트 안에 예시 몇 개만 보여줘도 그 패턴을 따라 한다는 것. 이를 인컨텍스트 학습(in-context learning)이라 한다.

기법	방식
제로샷 (Zero-shot)	예시 없이 그냥 지시. "이 문장 감정 분류해줘."
퓨샷 (Few-shot)	예시 몇 개를 보여주고 시킴. "좋다→긍정, 싫다→부정. 그럼 '별로다'는?"
시스템 프롬프트	대화 전체의 규칙·역할 설정. "너는 친절한 비서다."

책상 비유. 컨텍스트 윈도우는 펼쳐놓을 수 있는 책상 크기다. 작으면 자료를 조금만, 크면 많이 올려둘 수 있다. 하지만 책상이 너무 넓어도 자료가 흩어지면 못 찾는다. 그래서 "무엇을 책상에 올릴지" 고르는 게 핵심 기술이다.

컨텍스트는 공격 표면이기도 하다: 모델은 시스템 프롬프트, 사용자 입력, 검색해 온 문서를 한 컨텍스트 안에서 잘 구분하지 못한다. 그래서 외부 문서나 웹페이지에 "이전 지시를 무시하고 이렇게 해"라는 문장을 심어두면 모델이 그걸 명령으로 따라버리는 프롬프트 인젝션이 가능하다. 도구·에이전트(14·15장)와 결합하면 이게 실제 피해(데이터 유출 등)로 이어질 수 있어, "컨텍스트에 무엇을 넣느냐"는 성능 문제이자 보안 문제다. 신뢰할 수 없는 입력은 권한을 제한하고 검증하는 게 기본이다.

석사 수준 · KV 캐시와 컨텍스트의 진짜 비용

생성은 토큰을 하나씩 뱉는데, 매 스텝 앞 토큰 전체를 다시 어텐션하면 낭비다. 그래서 각 토큰의 Key·Value를 저장해 재사용하는 KV 캐시를 쓴다 — 토큰당 계산은 선형이 되지만, 캐시 크기가 층수 × 헤드 × 시퀀스 길이 × 차원으로 늘어 긴 문맥에선 메모리(특히 HBM 대역폭)가 병목이 된다. 그래서 KV를 줄이는 기법이 추론 효율의 핵심이다: 여러 쿼리가 K·V를 공유하는 MQA/GQA, 메모리를 페이지처럼 관리하는 PagedAttention, KV 양자화 등. "컨텍스트가 길수록 비싸다"의 실제 정체가 이 KV 메모리이고, 9장에서 본 어텐션의 n² 비용과 짝을 이룬다.

왜 트렌드의 출발점인가: RAG, 도구 사용, 에이전트, 추론까지 "컨텍스트에 무엇을, 어떻게 넣느냐"의 싸움이다. 모델 자체는 그대로 두고, 그 주변(컨텍스트·도구·루프)을 엔지니어링하는 것이 요즘 AI 실무의 핵심이다. 이걸 묶어 "컨텍스트 엔지니어링"이라 부르기도 한다.

RAG · 검색 증강 생성

모델에게 "커닝 페이퍼"를 쥐여주기

LLM의 약점은 ① 학습 시점 이후를 모르고 ② 회사 내부 문서 같은 사적 지식이 없으며 ③ 모르면 지어낸다(환각)는 것. 이를 한 방에 푸는 대표 기술이 RAG(Retrieval-Augmented Generation)다. 요즘 기업 AI의 거의 표준.

🔎 핵심 발상: 답하기 전에 "찾아서" 넣는다

질문이 오면 모델이 바로 답하는 게 아니라, 먼저 관련 문서를 검색해서 그 내용을 컨텍스트에 넣고, 그걸 근거로 답하게 한다. 시험 전에 교과서에서 해당 페이지를 펴주는 것과 같다. 그래서 최신·사내 정보에 강하고, 근거가 있으니 환각이 줄며, 출처까지 댈 수 있다.

🧮 어떻게 "의미로" 검색하나: 임베딩 + 벡터DB

단순 키워드 검색은 표현이 다르면 못 찾는다. RAG는 문서와 질문을 모두 임베딩(embedding), 즉 의미를 담은 숫자 벡터(10장)로 바꾼다. 그리고 벡터 데이터베이스에서 의미가 가까운 조각을 찾는다. "자동차"로 검색해도 "승용차" 문서를 찾아내는 식이다.

질문

사용자 입력

→

임베딩

질문→의미 벡터

→

벡터 검색

⚙️ 실전 디테일 (들어두면 좋은 키워드)

· 청킹(Chunking): 긴 문서를 검색하기 좋은 작은 조각으로 나누는 것. 조각 크기가 품질을 좌우.
· 리랭킹(Re-ranking): 검색된 후보를 한 번 더 정밀하게 점수 매겨 정렬.
· 하이브리드 검색: 의미 기반(벡터) + 키워드 기반(BM25)을 섞어 정확도↑.
· 에이전틱 RAG: 한 번 검색하고 끝이 아니라, 모델이 "검색이 더 필요한가?"를 스스로 판단하며 반복 검색(15장 에이전트와 연결).

RAG vs 파인튜닝 vs 프롬프트: 새 지식을 주입할 땐 보통 RAG(정보가 자주 바뀌거나 출처가 필요할 때), 말투·형식을 바꿀 땐 파인튜닝, 간단한 조정은 프롬프트로 한다. 셋은 경쟁이 아니라 상황별 도구다. 최근엔 컨텍스트가 길어지고 검색이 똑똑해지며 RAG가 기본값이 됐다.

RAG는 만병통치약이 아니다: 현실의 RAG는 검색만큼만 똑똑하다(garbage in, garbage out). 흔한 실패 모드: ① 관련 문서를 못 찾으면 모델은 여전히 지어낸다, ② 엉뚱한 문서를 가져오면 그걸 "근거"로 자신 있게 틀린다, ③ 청크가 너무 잘게 잘려 문맥이 끊기거나 너무 크면 핵심이 묻힌다, ④ 검색은 잘했는데 모델이 그 근거를 무시하기도 한다. 그래서 RAG 품질 작업의 대부분은 LLM이 아니라 검색·청킹·리랭킹·평가를 다듬는 데 든다. "출처를 댄다"가 곧 "맞다"는 아니므로, 답이 실제로 근거에서 왔는지 확인하는 장치(인용 검증)가 중요하다.

RAG가 환각을 줄이는 원리는?

답하기 전에 관련 문서를 검색해 근거로 제공하기 때문. 모델이 기억(불확실)에 의존하지 않고 눈앞의 자료를 보고 답하니, 지어낼 여지가 줄고 출처도 댈 수 있다. 단, 검색이 틀리면 답도 틀리므로 검색 품질이 관건이다.

도구 사용·함수 호출·MCP

말만 하던 AI가 "행동"하기 시작하다

LLM은 본래 텍스트만 생성한다. 계산도 틀리고, 오늘 날씨도 모르고, 실제로 무언가를 실행하지도 못한다. 이 벽을 깬 것이 도구 사용(tool use)이다. AI에게 손발을 달아준 셈.

🛠️ 함수 호출 (Function Calling)

모델이 "내가 직접 답하는 대신 이 도구를 이렇게 써야겠다"고 판단해, 정해진 형식으로 도구를 호출하는 능력이다. 예를 들어 "서울 날씨 알려줘"에 대해 모델이 get_weather(city="Seoul")를 호출하라고 출력하면, 시스템이 실제 날씨 API를 실행해 결과를 다시 모델에 넘긴다. 모델은 그 결과로 답한다.

🧮 계산기·코드

틀리기 쉬운 계산을 직접 실행해 정확히.

🌐 웹 검색

학습 이후의 최신 정보를 가져옴.

🗂️ 데이터베이스·API

사내 시스템·외부 서비스와 연동.

💾 파일·메모리

읽고 쓰고 기억을 저장.

🔌 MCP: 도구 연결의 "USB-C"

문제는, 도구마다 연결 방식이 제각각이면 매번 새로 붙여야 한다는 것. 이를 표준화한 것이 MCP(Model Context Protocol)다. 모델과 도구·데이터를 잇는 공통 규격으로, 비유하면 기기마다 다르던 충전 단자를 USB-C 하나로 통일한 것과 같다. MCP 덕분에 "도구 생태계"가 폭발적으로 커졌다.

MCP라는 공통 규격 하나로 모델이 수많은 도구·데이터에 표준 방식으로 연결된다.

한 걸음 더 · 도구는 양날의 검 (구조적 출력과 권한)

도구 사용이 강력한 만큼 위험도 따라온다. 모델이 엉뚱한 도구를 고르거나, 인자를 틀리게 채우거나, 위험한 작업 (파일 삭제·결제)을 실행할 수 있다. 그래서 실무에선 ① 도구 호출을 반드시 정해진 형식(JSON 스키마)으로만 받게 강제하고(구조적 출력), ② 각 도구에 권한·한도를 두고(읽기 전용/승인 필요), ③ 되돌릴 수 없는 작업은 사람 확인을 거치게 한다. "모델에게 손발을 달아준다"는 건 곧 "그 손발을 통제하는 골격이 필요하다"는 뜻이고, 그게 다음 장의 하네스다.

의미: 도구 사용으로 LLM은 "말하는 기계"에서 "일하는 기계"로 바뀌었다. 검색·계산·실행을 스스로 하니, 정확성과 활용 범위가 크게 늘었다. 이 능력이 다음 장의 "에이전트"를 가능하게 한다.

AI 에이전트와 하네스

스스로 계획하고 실행하는 AI

최근 AI의 최대 키워드는 단연 에이전트(Agent)다. 한 번 묻고 한 번 답하는 챗봇을 넘어, 목표를 받아 스스로 계획을 세우고 도구를 써가며 여러 단계를 실행하는 AI다.

🔁 에이전트의 핵심: 반복 루프

에이전트는 같은 사이클을 목표 달성까지 반복한다. 계획(Plan) → 실행(Act, 도구 사용) → 관찰(Observe, 결과 확인) → 다시 계획. 사람이 일을 처리하는 방식과 똑같다.

계획Plan

실행Act · 도구

관찰Observe

목표까지
반복

에이전트 루프 — 계획·실행·관찰을 목표 달성까지 반복한다. 불빛이 사이클을 따라 돈다. (마우스를 올리면 더 빨리 돈다)

이 단순한 루프가 강력한 이유는 관찰 단계의 피드백 때문이다. 한 번에 완벽한 계획을 세울 필요가 없다 — 일단 한 걸음 실행하고, 결과(도구 출력·에러·중간 산출물)를 보고, 그에 맞춰 다음 계획을 고친다. 막다른 길이면 되돌아가고, 정보가 부족하면 더 검색한다. 이 "실행하며 적응한다"가 단발 챗봇과 에이전트를 가르는 결정적 차이다. 다만 루프가 끝나지 않거나 같은 실수를 반복할 위험이 있어서, 언제 멈출지를 정하는 장치가 반드시 필요하다 — 그게 다음의 하네스다.

🏗️ 하네스(Harness): 모델을 감싸는 "골격"

똑똑한 모델 하나만으론 신뢰할 수 있는 에이전트가 안 된다. 모델은 실수하고, 무한 루프에 빠지고, 위험한 행동을 할 수 있다. 그래서 모델 바깥에 이를 통제하는 코드 골격을 두는데, 이것을 하네스(harness) 또는 스캐폴딩이라 한다.

핵심 철학: "모델은 그대로(frozen) 두고, 실패가 구조적으로 반복되지 않도록 주변을 설계한다." 똑똑함은 모델에 맡기되, 안전·정확성·재시도·메모리·다단계 조율은 하네스가 책임진다.

하네스가 맡는 일	설명
실행 제어	도구를 안전하게 호출, 권한·한도 관리
재시도·검증	결과를 확인하고 틀리면 다시 시도
메모리	긴 작업의 진행 상황·과거 결과를 기억
오케스트레이션	여러 단계·여러 에이전트를 조율

복잡한 일은 여러 에이전트가 역할을 나눠 협업하기도 한다(예: "조사 담당 + 작성 담당 + 검토 담당"). 다만 루프를 돌수록 시간과 비용이 곱절로 든다. 그래서 "언제 에이전트를 쓰고 언제 단순 호출로 충분한가"를 가르는 게 실무 역량이다.

한 줄 정리: 에이전트 = LLM(두뇌) + 도구(손발) + 하네스(골격·통제) + 루프(반복). "모델을 더 똑똑하게"에서 "모델 주변을 잘 설계해서" 실수 없이 일을 끝내게로 무게중심이 옮겨간 것이 지금의 큰 흐름이다.

추론 모델·테스트타임 컴퓨트

"생각할 시간"을 주면 더 똑똑해진다

최근 AI의 큰 패러다임 전환. 모델을 더 크게 키우는 대신, 답하기 전에 더 오래 "생각"하게 만들어 성능을 끌어올리는 길이 열렸다. 이것이 추론 모델(reasoning model)이다.

💭 생각의 사슬 (Chain-of-Thought)

일반 LLM은 답을 바로 뱉는다. 추론 모델은 답 전에 속으로 단계적으로 추론한다. 문제를 쪼개고, 여러 접근을 시도하고, 모순을 발견하면 되돌아가고(backtracking), 검산한 뒤 답한다. 사람이 어려운 수학 문제를 풀 때 연습장에 끄적이는 그 과정을 모델이 내부적으로 하는 것이다.

⏱️ 테스트타임 컴퓨트 (Test-time Compute)

핵심 통찰: "훈련"에 돈을 더 쓰는 대신 "추론(답할 때)"에 계산을 더 쓴다. 모델이 생각을 길게 할수록(토큰을 많이 생성할수록) 어려운 문제를 더 잘 푼다는 것이 밝혀졌다. 같은 모델도 "더 오래 생각하게" 하면 정답률이 오른다.

추론 모델은 답 전에 '생각하는 시간'을 길게 쓴다. 그만큼 느리고 비싸지만 어려운 문제에 강하다.

🏆 대표 모델과 의미

· OpenAI o1 (2024) → o3: 추론에 특화한 첫 상용 모델 계열. 수학·코딩·과학에서 도약.
· DeepSeek R1 (2025년 1월): 순수 강화학습만으로 o1급 추론을 달성하고 오픈소스로 공개해 충격. 비용도 크게 낮춤.
· 이들은 일반 모델보다 훨씬 많은 토큰(생각)을 생성한다.

한 걸음 더 · 추론 모델은 어떻게 '생각'을 배우나

비결은 검증 가능한 보상으로 하는 강화학습이다. 수학·코딩처럼 정답을 자동으로 채점할 수 있는 문제를 잔뜩 주고, 모델이 길게 풀이를 쓰게 한 뒤 정답을 맞힌 풀이를 강화한다. 그러면 모델은 "어떻게 끄적여야 정답에 닿는지"를 스스로 터득한다 — 사람이 풀이 과정을 일일이 가르치지 않아도, 되돌아가기·검산 같은 행동이 창발한다(DeepSeek R1이 보인 것). 다만 한계도 분명하다: 정답을 자동 채점하기 어려운 열린 문제(글쓰기·판단)에는 이 방식이 잘 안 통하고, 길게 생각할수록 토큰·시간·비용이 그대로 늘어난다. "항상 추론 모델"이 답이 아니라, 어려운 문제에만 골라 쓰는 게 실무다.

석사 수준 · 정렬과 강화학습 변종 (RLHF·DPO·GRPO)

RLHF 고전 파이프라인: ① 사람 선호 쌍으로 보상 모델 R을 학습 → ② 정책(LLM)을 PPO로 R을 최대화하되, 원래 모델에서 너무 벗어나지 않게 KL 페널티를 건다(보상 해킹 방지). 최근엔 보상 모델 없이 선호 데이터로 정책을 바로 최적화하는 DPO, 가치함수 없이 그룹 표본의 상대 보상으로 학습하는 GRPO(추론 모델 학습에 인기)가 부상했다. 추론 특화에선 결과만 채점하는 ORM 대신 풀이 단계마다 채점하는 과정 보상 모델(PRM)도 쓴다. 핵심 통찰: "무엇을 보상으로 정의하느냐"가 곧 모델의 행동을 결정한다 — 검증 가능한 보상(수학·코드 정답)이 추론 능력을 끌어낸 이유다.

왜 큰 전환인가: 그동안 발전은 "모델·데이터를 키우는 사전학습 스케일링"이 주도했다. 추론 모델은 "추론 때 계산을 더 쓰는" 새 축을 열었다. 이는 곧 AI가 더 많은 반도체(GPU)를 먹는다는 뜻이라(18장), 반도체 수요를 다시 한번 밀어 올린다.

효율·아키텍처·멀티모달

더 싸게, 더 작게, 더 다양하게

거대 모델은 비싸고 무겁다. 그래서 "성능은 지키되 비용을 줄이는" 기술과, 텍스트를 넘어 이미지·음성·영상 까지 다루는 흐름이 빠르게 발전 중이다.

🧩 MoE (Mixture of Experts, 전문가 혼합)

모델 전체를 매번 다 쓰면 비싸다. MoE는 모델 안에 여러 "전문가" 서브네트워크를 두고, 입력마다 관련 있는 일부 전문가만 켠다. 예컨대 총 2,350억 파라미터를 갖되 한 번에 220억만 활성화하는 식이다. 덕분에 큰 용량의 지능을 작은 비용으로 쓴다. 병원에서 증상에 맞는 전문의에게만 보내는 것과 같다.

🗜️ 경량화: 양자화·증류

📉 양자화 (Quantization)

가중치 숫자의 정밀도를 낮춰(예: 32비트→4비트) 모델 크기·연산을 확 줄인다. 약간의 정확도 손실로 큰 효율.

🎓 증류 (Distillation)

크고 똑똑한 "선생 모델"의 행동을 작은 "학생 모델"이 따라 배워, 작지만 쓸 만한 모델을 만든다. 폰에서 돌릴 AI의 비결.

🎨 멀티모달 (Multimodal)

이제 AI는 텍스트만이 아니라 이미지·음성·영상·문서를 함께 이해하고 생성한다. 사진을 보고 설명하고, 음성을 듣고 답하고, 글로 영상을 만든다. 트랜스포머가 "모든 것을 토큰(숫자)으로" 다루기에 가능한 일이다. 참고로 이미지 생성은 주로 확산 모델(Diffusion)을 쓴다 — 노이즈 덩어리에서 점점 그림을 복원해가는 방식.

🧷 메모리: 곁다리에서 핵심으로

예전엔 대화 기억을 벡터DB에 임시로 붙이는 정도였지만, 이제 "메모리"가 모델 시스템의 1급 구성요소로 다뤄진다. 에이전트가 긴 작업·여러 세션에 걸쳐 정보를 기억·갱신하는 능력이 중요해졌다(15장 하네스와 연결).

한 걸음 더 · 이제는 '학습'보다 '추론' 비용

한 번 학습한 모델은 수억 명이 매일 쓴다. 그래서 누적 비용은 점점 추론(inference) 쪽이 지배한다 — 모델을 한 번 만드는 값보다, 매 질문에 답하느라 GPU를 돌리는 값이 훨씬 크다. 그래서 효율화의 초점도 추론으로 옮겨갔다: 양자화(FP16→FP8→INT4로 정밀도를 낮춰 메모리·속도 확보), KV 캐시(이미 처리한 토큰의 계산을 재사용), 배칭, MoE로 활성 파라미터 줄이기. "성능을 지키며 한 토큰당 비용을 깎는" 이 싸움이 곧 AI 서비스의 수익성과 직결된다.

석사 수준 · MoE·양자화·추측 디코딩의 실제

MoE: 게이팅 네트워크가 각 토큰을 점수 매겨 상위 k개 전문가에게만 보낸다(top-k 라우팅). 전문가가 한쪽에 쏠리지 않게 부하 분산 보조 손실을 더하고 전문가별 용량(capacity)을 둔다 — 그래서 총 파라미터는 크되 토큰당 활성 파라미터는 작다. 양자화: 가중치를 FP16→INT8/INT4로 줄이되 정확도를 지키려 2차 정보 기반 GPTQ, 활성값을 고려하는 AWQ 같은 보정 기법을 쓰고, 학습·추론에 FP8도 확산 중. 증류: 학생 모델이 교사의 출력 분포를 KL 발산으로 모사. 그리고 작은 모델이 초안을 쓰고 큰 모델이 한 번에 검증하는 추측 디코딩(speculative decoding)으로 품질을 지키며 속도를 끌어올린다. 전부 같은 와트로 더 많은 지능을 짜내려는 기법이다.

4부 요약: 컨텍스트(12) → 검색으로 지식 보강 RAG(13) → 도구로 행동 MCP(14) → 스스로 일하는 에이전트·하네스(15) → 생각을 길게 하는 추론 모델(16) → 싸고 다양하게 만드는 효율·멀티모달(17). 공통 주제는 "모델 자체보다 그 주변 시스템을 설계하는 시대"다. 이 모든 것이 더 많은 연산, 즉 반도체로 이어진다.

PART 5 · 실제 세계와 산업

AI와 반도체

왜 AI 혁명은 곧 반도체 혁명인가

두 주제가 만나는 지점. AI의 발전은 알고리즘만의 이야기가 아니다. 그것을 굴릴 하드웨어(반도체)가 없으면 한 줄도 학습 못 한다. 반도체 완전정복의 17장(병렬화)에서 이어지는 결론이다.

✖️ 딥러닝의 본질은 거대한 행렬 곱셈

신경망의 "입력×가중치 합산"(4장)은 수학적으로 행렬 곱셈이다. 층마다, 데이터마다 이 곱셈이 수십억 번 일어난다. 즉 딥러닝 = "같은 단순 계산을 천문학적으로 많이, 동시에". 이건 GPU가 가장 잘하는 일 그 자체다.

🖥️ AI를 돌리는 칩들

칩	역할
GPU	단순 코어 수천 개로 병렬 행렬연산. AI 학습의 표준 (엔비디아 지배)
TPU·NPU	AI 연산만을 위해 설계한 전용칩(구글 TPU, 스마트폰 NPU 등)
HBM	GPU 옆에 쌓아 붙인 초고속 메모리. 데이터를 빠르게 공급 (삼성·SK하이닉스)

🧱 병목은 계산이 아니라 "데이터 운반"

반도체의 메모리 월이 AI에서 특히 심각하다. 모델이 거대해 가중치·데이터를 메모리에서 GPU로 끝없이 날라야 하는데, 그 통로가 좁으면 비싼 GPU가 논다. 그래서 HBM(고대역폭 메모리)이 AI 시대의 핵심 부품이 됐고, 메모리 회사들이 AI 수혜를 크게 본다.

AI가 반도체 수요를 키우고, 더 좋은 반도체가 더 강한 AI를 가능케 하는 선순환.

규모 감각 — 전력이 곧 한계: AI의 병목은 점점 칩이 아니라 전기와 열이다. 최신 AI 가속기 한 장이 700W~1kW를 먹고, 데이터센터는 수만 장을 묶어 돌리니 한 곳이 도시 하나급 전력을 쓴다. 그래서 빅테크가 발전소·원전 계약까지 맺는 시대가 됐고, "토큰당 전력"이 모델 효율의 진짜 지표가 됐다. 17장의 효율화(양자화·MoE)와 18장의 하드웨어(HBM·전용칩)가 모두 결국 같은 와트로 더 많은 지능을 짜내려는 싸움이다.

교차점: AI(특히 컴퓨터 비전)와 반도체 검사가 만나는 자리는 딥러닝 비전이 실제 산업에 박히는 대표 사례다. 결함 검출, 공정 제어, 수율 분석이 모두 이 교차점 위에 있다.

AI의 한계와 리스크

강력하지만 만능은 아니다

AI를 제대로 안다는 건 그 한계를 아는 것이기도 하다. 과장과 공포 사이에서 균형 잡힌 시각을 갖자.

🌀 주요 한계

· 환각(Hallucination): 그럴듯하지만 틀린 내용을 자신 있게 생성(11장). 사실 검증이 필수.
· 편향(Bias): 학습 데이터에 든 사회적 편향을 그대로 학습·증폭할 수 있다.
· 블랙박스: 왜 그런 답을 냈는지 내부를 설명하기 어렵다(설명가능성 문제).
· 데이터 의존: 학습에 없던 상황엔 약하다. 데이터 품질이 곧 성능.
· 비용·에너지: 거대 모델 학습엔 막대한 전기·GPU·돈이 든다.

⚖️ 현실적 리스크

일자리 변화, 가짜 정보·딥페이크, 저작권·프라이버시, 그리고 안전·오용 문제 등이 활발히 논의된다. 기술 자체보다 어떻게 쓰고 관리하느냐가 핵심이며, 이는 정답이 정해진 문제가 아니라 사회가 함께 풀어가는 영역이다.

🧭 그럼에도 분명한 것

한계가 있어도 AI는 이미 번역, 코딩 보조, 의료 영상 판독, 산업 검사, 신약 탐색 등에서 실질적 가치를 낸다. 핵심은 "AI에게 통째로 맡기기"가 아니라 사람의 판단과 결합하는 것이다.

한 걸음 더 · 정렬(alignment)과 평가의 어려움

모델을 "쓸 만하고 안전하게" 만드는 정렬은 끝난 문제가 아니다. 정교하게 프롬프트를 짜 안전장치를 우회하는 탈옥(jailbreak), 보상을 엉뚱하게 최적화하는 보상 해킹, 그럴듯하게 사람을 설득하지만 틀린 답 같은 게 계속 나온다. 게다가 모델이 워낙 잘해져서 평가(evaluation) 자체가 어렵다 — 벤치마크를 학습 데이터에서 이미 본 "오염" 문제, 채점자(사람·AI)를 속이는 문제 등. 그래서 "이 모델이 정말 더 나은가"를 재는 일이 연구의 한 분야가 됐다. 능력이 오를수록, 능력을 검증하고 통제하는 기술의 중요성도 같이 커진다.

균형 잡힌 태도: "AI가 다 한다"도, "AI는 허상이다"도 둘 다 틀렸다. 특정 작업(패턴 인식·생성)에선 초인적이지만, 진짜 이해·상식· 책임은 아직 사람의 몫이다. 도구로서 강력하되 맹신은 금물 — 이 감각이 균형 잡힌 시각이다.

PART 6 · 최신 연구 동향 (2025–2026)

＋

지금 연구는 어디로 가나

사전학습 규모에서 "생각과 사후학습"으로

2025–2026년 AI 연구의 가장 큰 흐름은 무게중심 이동이다. "모델·데이터를 더 키우는 사전학습 스케일링"에서, 답할 때 더 생각하게 하고(test-time compute) 사후학습(post-training)을 정교화하는 쪽으로. 아래는 arXiv·주요 랩 자료를 교차검증해 추린 흐름이다(수치는 2026년 상반기 기준, 빠르게 바뀐다).

🧠 1. 추론 모델과 test-time compute 스케일링

프런티어 "추론 모델"(OpenAI o1·o3 계열)은 답하기 전 내부적으로 더 오래 "생각"할수록 어려운 문제를 더 잘 푼다 — 추론(inference) 때 연산을 더 쓰는 것이 새 스케일링 축이다(16장). 2025년의 분수령은 DeepSeek-R1(Nature 게재, 2025)로, 오픈(MIT 라이선스) 모델이 o1급 추론에 도달했음을 보였다.

모델	AIME 2024 (pass@1)	비고
DeepSeek-R1-Zero	15.6% → 77.9% (다수결 86.7%)	순수 RL ablation 모델
DeepSeek-R1	79.8%	OpenAI o1-1217(79.2%)과 동급

석사 수준 · '창발(aha moment)'은 조심해서 읽기

DeepSeek는 RL 학습 중 모델이 스스로 생각 시간을 늘리고 자기검토·검증 같은 행동을 보였다고 보고했다 (self-evolution, "aha moment"). 하지만 이 "스스로 창발" 서사는 학계에서 논쟁 중이다 — 후속 연구(Sea AI Lab, COLM 2025)는 그런 반성 패턴이 RL 이전 베이스 모델에도 이미 있었고, 응답 길이 증가의 일부는 GRPO 알고리즘의 최적화 편향(아래)일 뿐이라고 지적한다. 또 "오래 생각 = 항상 더 정확"도 아니다(ACL 2025). 정리: RL이 추론을 끌어올린 건 분명하나, 능력을 새로 만드는지 vs 잠재된 걸 증폭하는지는 아직 열린 문제다.

🎯 2. 검증 가능한 보상 RL (RLVR) — 새로운 사후학습 엔진

R1의 핵심 비결은 검증 가능한 보상 강화학습(RLVR)이다. 수학·코드처럼 정답을 자동 채점할 수 있는 문제에서 최종 답의 정답 여부만을 보상으로 줘 추론을 학습시킨다. 알고리즘은 GRPO(PPO 변종 — 가치/크리틱 신경망을 없애고 그룹 내 상대적 우열로 학습; 16장).

시험에서 헷갈리는 지점: "SFT 없이 순수 RL만으로"라는 헤드라인은 연구용 ablation 모델 R1-Zero에 해당한다. 실제 출시된 R1은 순수 RL이 아니다 — 가독성·언어 혼용 문제를 잡으려 소량의 콜드스타트 SFT + 거부 샘플링을 RL 앞뒤에 둔다.

석사 수준 · 이 분야는 이미 스스로 고치는 중

① GRPO의 길이 편향 — 틀린 답일수록 응답을 길게 만드는 최적화 편향이 발견됐고, 이를 없앤 Dr. GRPO가 토큰 효율을 개선했다. ② 가치함수를 버리면 test-time 스케일링(Best-of-N·가중 투표)에 필요한 검증기가 사라진다 — RL^V는 한 모델을 추론기 겸 생성형 검증기("Yes/No")로 같이 학습해, 추가 생성 비용 없이 test-time 효율을 크게 끌어올린다고 보고했다(단, 단일 모델·벤치마크군 한정이라 일반화는 미지수).

🤖 3. 에이전트·도구 사용·컴퓨터 유즈

에이전트의 "행동 공간"이 다섯 갈래로 확장됐다(2026 서베이): ① API 호출 ② 코드를 행동으로(code-as-action) ③ 에이전트 전용 셸/IDE(ACI) ④ 네이티브 컴퓨터 유즈(스크린샷+마우스/키보드로 일반 GUI 제어 — Claude computer use, OpenAI Operator) ⑤ 체화형 VLA(로봇). 컴퓨터 유즈는 앱 API 없이 아무 화면이나 다룰 수 있지만 지연·취약성·프롬프트 인젝션 위험이 크다(14·15장).

벤치마크 진척: 데스크톱 제어 벤치마크 OSWorld(검증판)에서 CoAct-1이 컴퓨터 유즈 + 코드 실행을 결합해 60.76%로 첫 60% 돌파(2026 초). 이제 평균 성공률뿐 아니라 실패 유형(위험 행동·재시도·grounding 오류)까지 보고하는 추세다.

⚙️ 4. 효율화 — MoE와 어텐션 대안

프런티어 오픈 모델은 MoE(전문가 혼합)가 표준이 됐다(17장). DeepSeek-V3는 총 6,710억 파라미터 중 토큰당 370억만 활성화하고, MLA(다중헤드 잠재 어텐션)·MTP(다중 토큰 예측)로 효율을 쌓는다 — R1도 이 V3 위에 올라탔다.

흔한 오해: MoE의 효율은 연산(FLOPs)이지 메모리가 아니다 — 전문가 전부가 VRAM에 올라가 있어야 한다(그래서 "활성 파라미터는 작지만 총 메모리는 큼"). MoE 배포 자체가 까다로워 모델·시스템·하드웨어 3단계 추론 최적화가 별도 연구 분야로 컸다(ACM Computing Surveys).

석사 수준 · 어텐션 대안이 어텐션과 '수렴'한다

트랜스포머의 n² 비용(9장)을 피하려는 상태공간모델(Mamba/S6)·선형/희소 어텐션이 활발한데, 최근엔 경쟁을 넘어 수렴하는 결과가 나왔다 — Mamba의 S6 층을 어텐션으로 재정식화하면 그 안에 "숨은 어텐션 행렬"이 있음이 밝혀졌다(ACL 2025). SSM과 트랜스포머가 생각보다 가깝다는 뜻이고, 해석가능성에도 도움이 된다.

🎬 5. 멀티모달·World Model·영상 생성

텍스트를 넘어 한 모델이 이미지·음성·영상을 함께 다루는 방향이 빠르게 자리 잡았다. 세 갈래가 두드러진다.

① 통합(unified) 모델 — 이해와 생성을 한 네트워크에 합치려는 흐름. 연구의 대표격은 Meta의 Chameleon(early-fusion 토큰 기반으로 이미지와 텍스트를 한 모델에서 섞어 생성). 2025년 3월 GPT-4o의 네이티브 이미지 생성이 기폭제가 되어 통합 모델 관심이 폭발했고, 한 서베이는 이를 확산 기반·자기회귀 기반·하이브리드 셋으로 분류한다(단, Chameleon은 이미지+텍스트 한정이라 "any-to-any"는 다소 과한 표현).

② 영상 생성 = 확산 트랜스포머(DiT) — OpenAI Sora는 영상을 시공간 패치(LLM의 토큰에 해당)로 쪼개 처리하는 확산 트랜스포머다. Sora 2(2025.9)는 동기화된 오디오·더 정확한 물리·사실감을 더했고, OpenAI는 이를 "물리 세계를 시뮬레이션하는 world model로 가는 한 걸음"으로 규정한다. Google Veo 3, Kling 등도 같은 DiT 계열.

③ World model — DeepMind Genie 3(2025.8)는 텍스트 프롬프트로 실시간 조작 가능한 환경을 생성한다(24fps·720p, 수 분간 일관성, 약 1분의 시각 기억). 에이전트·로봇을 위한 "무한한 훈련 환경"으로서의 가능성이 주목된다.

단, '영상 모델 = 세계 모델'은 논쟁 중: 이 규정은 주로 벤더(OpenAI·DeepMind)의 표현이고 학계에서 뜨겁게 다툰다. Yann LeCun은 픽셀을 생성하는 방식의 world model에 회의적이며 픽셀 대신 추상 표현을 예측하는 V-JEPA를 주장하고, 독립 벤치마크(Physics-IQ· PhyWorldBench)에서는 생성 영상의 83~93%가 물리 법칙을 위반한다고 보고됐다. 즉 "진짜 물리를 배웠나, 표면 통계를 흉내냈나"는 미해결이다(검증 과정에서 "규모만으로 물리가 창발한다"는 강한 주장은 기각됨). Genie 3도 일관성은 수 분, 행동은 이동 중심, 물리 오류가 있다는 한계가 명시돼 있다.

📉 6. 데이터·스케일링 — "데이터 월"과 합성 데이터

사전학습이 양질의 인간 텍스트를 거의 다 먹어간다는 우려가 구체화됐다.

데이터 월: Epoch AI는 학습에 쓸 만한 인간 공개 텍스트를 약 300조(T) 토큰(90% 신뢰구간 100T–1000T)으로 추정하고, 현 추세면 2026~2032년 사이 소진(과훈련을 공격적으로 하면 더 일찍)된다고 본다. 단 합성·멀티모달 데이터와 데이터 효율 개선이 이 벽을 미룰 수 있다.

합성 데이터의 함정 — 모델 붕괴: AI가 만든 데이터로 다시 AI를 재귀 학습시키면 품질이 점점 무너지는 모델 붕괴(model collapse)가 보고됐다(Nature 2024). 하지만 이는 기존 데이터를 합성으로 "대체"할 때의 이야기다 — 실제처럼 기존 데이터에 합성 데이터를 "누적"하면 붕괴를 피한다는 후속 연구가 잇따랐다. (2025년 스탠퍼드 논문은 "모델 붕괴"가 사실 8가지 서로 다른 정의로 쓰인다고 지적.) 정리: 붕괴는 필연이 아니지만, 진짜 인간 데이터의 가치는 더 커진다.

Chinchilla 재검증: Epoch의 재현 연구는 원조 Chinchilla 논문이 보고한 파라메트릭 적합이 데이터에 잘 안 맞았다고 지적했다 — 다만 오류를 바로잡으면 결론(대략 파라미터당 토큰 ≈ 20)은 유지된다. "compute-optimal 스케일링이 뒤집힌 것"은 아니다(11장 스케일링 법칙과 연결).

🔍 7. 해석가능성·안전·정렬 (가장 빠르게 크는 영역)

모델이 강해질수록 "안을 들여다보고, 통제하는" 연구가 중요해진다. (이 영역은 변화가 가장 빨라 1차 출처로 수치를 단정하긴 이르므로, 방향과 대표 작업만 짚는다.)

기계적 해석가능성·SAE — 신경망 내부 활성을 사람이 읽을 수 있는 특징(feature)으로 분해하는 희소 오토인코더(SAE). Anthropic의 monosemanticity·attribution graph("모델의 생각 추적"), DeepMind의 Gemma Scope 등.
정렬의 균열 — 모델이 학습 중 의도를 숨기는 정렬 위장(alignment faking)(Anthropic), 평가 상황을 눈치채고 일부러 못하는 척하거나 책략을 꾸미는 scheming·sandbagging(Apollo Research, OpenAI)이 실험적으로 관찰됐다.
확장 가능한 감독(scalable oversight) — 사람이 직접 채점하기 어려운 능력을 어떻게 검증·감독하나(토론, weak-to-strong 일반화, 자동 정렬 연구원 등). 능력이 평가를 앞지를 때를 대비한 연구다(19장과 연결).

이 섹션 읽는 법: 위 모델명·수치는 2026년 상반기 기준이고, 벤치마크 순위(OSWorld·AIME)와 모델 세대는 매우 빠르게 바뀐다. 그래도 큰 그림 — "규모에서 → 추론·사후학습·에이전트·효율로" — 은 당분간 이어질 흐름이다.

📎 주요 출처

＊

핵심 용어 사전

이것만 알면 AI 대화가 끊기지 않는다

자주 나오는 용어 정리. 모르는 게 나오면 여기로 돌아오자.

머신러닝Machine Learning

데이터에서 규칙·패턴을 스스로 학습하는 기법. AI의 한 갈래.

딥러닝Deep Learning

여러 층의 신경망으로 학습하는 머신러닝. 요즘 AI의 주류.

신경망Neural Network

뉴런(가중합+활성화)을 층층이 연결한 모델.

파라미터 / 가중치Parameter / Weight

모델이 학습으로 조정하는 "손잡이". 많을수록 표현력↑(계산량↑).

손실 함수Loss

예측이 정답과 얼마나 다른지 재는 숫자. 줄이는 게 학습 목표.

경사하강법Gradient Descent

손실이 줄어드는 방향으로 가중치를 조금씩 옮기는 방법.

역전파Backpropagation

오차를 뒤에서 앞으로 전파해 각 가중치의 기여(기울기)를 계산.

과적합 / 일반화Overfitting / Generalization

학습 데이터를 외워 새 데이터에 약해짐 / 본 적 없는 데이터에도 잘 맞히는 능력.

CNN합성곱 신경망

필터로 이미지 특징을 훑는 구조. 컴퓨터 비전·결함 검출의 핵심.

RNN / 어텐션Attention

순차 데이터를 한 단계씩 처리하는 옛 구조 / 관련 깊은 부분에 더 집중하는 메커니즘.

트랜스포머Transformer

어텐션 기반 구조. 현대 LLM·생성형 AI의 뼈대.

토큰 / 임베딩Token / Embedding

텍스트를 자른 조각 / 그 의미를 담은 숫자 벡터.

LLM거대 언어모델

방대한 텍스트로 "다음 토큰 예측"을 학습한 대형 트랜스포머. 예: GPT.

사전학습 / 파인튜닝

대규모로 기본기 학습 / 특정 용도·태도로 다듬기.

RLHF

사람 선호 피드백으로 모델을 정렬하는 강화학습. "쓸 만한" 챗봇의 비결.

환각Hallucination

그럴듯하지만 틀린 내용을 생성하는 현상. 검증 필요.

GPU / HBM

병렬 연산 칩 / 그 옆의 초고속 메모리. AI 학습의 하드웨어 양대 축.

컨텍스트 윈도우Context Window

모델이 한 번에 볼 수 있는 토큰의 양. "작업 기억"의 크기.

프롬프트 / 퓨샷Prompt / Few-shot

모델에 주는 지시문 / 예시 몇 개로 패턴을 따르게 하는 인컨텍스트 학습.

RAG검색 증강 생성

답 전에 관련 문서를 검색해 근거로 넣어주는 기법. 최신·사내 지식, 환각 완화.

벡터DBVector DB

임베딩 벡터를 의미 유사도로 검색하는 DB. RAG의 엔진.

도구 사용 / 함수 호출Tool use / Function calling

모델이 검색·계산·실행 등 외부 도구를 직접 호출하는 능력. AI의 "손발".

MCPModel Context Protocol

모델과 도구·데이터를 잇는 표준 규격. "AI 도구의 USB-C".

에이전트Agent

목표를 받아 스스로 계획·실행·관찰을 반복하는 AI. LLM+도구+하네스+루프.

하네스 / 스캐폴딩Harness / Scaffolding

모델을 감싸 실행·재시도·안전·메모리를 통제하는 코드 골격.

추론 모델Reasoning Model

답 전에 단계적으로 "생각"하는 모델(o1, o3, R1). 어려운 문제에 강함.

테스트타임 컴퓨트Test-time Compute

추론(답할 때)에 계산을 더 써서 성능을 올리는 새 스케일링 축.

MoE전문가 혼합

입력마다 관련 전문가 일부만 켜는 구조. 큰 용량을 적은 비용으로.

양자화 / 증류Quantization / Distillation

정밀도를 낮춰 경량화 / 큰 모델의 지식을 작은 모델로 옮기기.

멀티모달 / 확산모델Multimodal / Diffusion

텍스트+이미지+음성+영상을 함께 처리 / 노이즈에서 그림을 복원하는 이미지 생성.

한 호흡에 외우는 전체 흐름: AI = 데이터로 배우는 기계 → 학습은 가중치를 손실이 줄도록 조정(경사하강·역전파) → 뉴런을 쌓은 신경망, 외우지 말고 일반화 → 이미지는 CNN, 순서는 어텐션 → 어텐션만으로 만든 트랜스포머 → 다음 단어 예측을 키운 LLM → 그 위에 컨텍스트·RAG·도구·에이전트·추론을 쌓는 시대 → 이 모든 걸 굴리는 건 GPU·HBM(반도체). 그래서 AI와 반도체는 한 몸이다.

PART 1 · AI의 기초 발상

AI란 무엇인가

"규칙을 짜는 것"에서 "스스로 배우는 것"으로

🔀 두 가지 접근

📜 규칙 기반 (옛 방식)

사람이 "이러면 이렇게 하라"를 전부 코딩. 예: "이메일에 '당첨'이 있으면 스팸." 예외가 많아지면 규칙이 폭발해 감당 불가.

🧠 학습 기반 (머신러닝)

스팸 메일 수만 통을 보여주고 "이게 스팸이다"라고 알려주면, 기계가 공통 패턴을 스스로 찾아낸다. 규칙을 직접 안 짠다.

🪆 AI ⊃ 머신러닝 ⊃ 딥러닝

세 단어가 자주 섞여 쓰이는데, 사실 포함 관계다.

딥러닝은 머신러닝의 한 방법이고, 머신러닝은 AI의 한 갈래다. 요즘 화제의 대부분(ChatGPT 포함)은 가장 안쪽 딥러닝이다.

머신러닝이 규칙 기반과 결정적으로 다른 점은?

머신러닝의 핵심 아이디어

학습이란 결국 "함수의 손잡이를 맞추는 것"

📐 모델 = 조절 손잡이가 달린 함수

파란 점은 실제 데이터, 보라 선은 모델. 점들에 가장 잘 맞는 선이 되도록 손잡이(a, b)를 조정하는 게 학습이다.

📏 "얼마나 틀렸나"를 재는 손실(Loss)

한 걸음 더 · '특징'을 누가 고르나 (딥러닝의 진짜 도약)

학습의 세 가지 종류

정답을 주느냐, 안 주느냐, 보상을 주느냐

머신러닝은 "무엇을 보고 배우느냐"에 따라 크게 셋으로 나뉜다. 뉴스에 나오는 거의 모든 AI는 이 셋 중 하나(또는 조합)다.

종류	배우는 방식	예시
지도학습 Supervised	입력 + 정답을 함께 줌. "이 사진은 고양이"	이미지 분류, 스팸 필터, 가격 예측, 결함 검출
비지도학습 Unsupervised	정답 없이 데이터만. 스스로 묶고 구조 발견	고객 군집화, 이상 탐지, 차원 축소
강화학습 Reinforcement	행동에 보상/벌점을 줌. 시행착오로 전략 학습	알파고, 로봇 제어, 게임 AI

🏷️ 지도

정답표를 보고 공부하는 학생. 가장 흔하고 강력. 결함 검출도 여기("정상/불량" 라벨로 학습).

🧩 비지도

정답 없이 비슷한 것끼리 모으는 정리정돈. "이상한 것 찾기"에 강함.

🎮 강화

게임하며 점수로 배우는 방식. 잘하면 보상, 못하면 벌점.

"불량 검출" AI는 보통 어떤 학습일까?

PART 2 · 신경망의 원리

뉴런과 퍼셉트론

뇌를 흉내 낸 가장 작은 계산 단위

🔢 인공 뉴런의 3단계

① 입력 × 가중치: 각 입력에 중요도(가중치)를 곱한다. 중요한 입력엔 큰 가중치.
② 모두 더하기 (+ 편향): 곱한 값들을 합산하고, 기준점을 조절하는 편향(bias)을 더한다.
③ 활성화 함수: 그 합이 기준을 넘으면 "켜고(신호 전달)", 아니면 약하게 내보낸다.

입력에 가중치를 곱해 더하고(Σ), 활성화 함수를 통과시켜 출력을 낸다. 이게 뉴런 하나의 전부다.

⚡ 활성화 함수가 필요한 이유

활성화 함수가 없으면 왜 안 되나?

신경망의 구조

뉴런을 층층이 쌓으면 "깊은" 신경망

뉴런 하나는 단순하지만, 여러 개를 한 줄(층)로 세우고 그 층을 여러 겹 쌓으면 놀라운 일이 일어난다. 이 "여러 겹"이 바로 딥(deep) 러닝의 "deep"이다.

🏛️ 입력층 → 은닉층 → 출력층

각 층의 뉴런이 다음 층 뉴런과 연결된다. 정보가 왼쪽(입력)에서 오른쪽(출력)으로 흐른다.

🔭 층이 깊을수록 "추상화"가 올라간다

석사 수준 · 깊은 망을 실제로 학습시키는 법

한 걸음 더 · 파라미터 수

학습의 원리

경사하강과 역전파: 손잡이를 맞추는 법

⛰️ 경사하강법 (Gradient Descent)

시작 · 오차 큼최소 (목표)

경사하강법 — 손실 골짜기에서 가장 가파른 내리막을 따라 한 걸음씩 내려가, 출렁이다 최솟값에 안착한다. (마우스를 올리면 더 빨리 수렴한다)

걸음이 너무 크면 골짜기를 건너뛰어 출렁대고, 너무 작으면 한없이 느리다. 이 걸음 크기 학습률(learning rate) 조절이 학습의 핵심 기술 중 하나다.

🔁 역전파 (Backpropagation)

순전파

입력→예측 계산

→

손실 측정

예측 vs 정답 차이

→

역전파

오차를 거꾸로 분배

→

가중치 갱신

경사하강으로 조정

→

반복

수백만 번

↻

이 사이클을 반복

석사 수준 · 역전파와 옵티마이저를 수식으로

역전파와 경사하강의 관계는?

과적합과 일반화

"외운 학생"과 "이해한 학생"의 차이

📚 과적합: 답을 외워버린 모델

왼쪽은 너무 단순(과소적합), 오른쪽은 잡음까지 외운 과적합. 가운데처럼 '핵심 패턴만' 잡는 게 목표.

🧪 그래서 데이터를 나눈다

구분	역할
학습셋 (Train)	모델이 보고 배우는 데이터
검증셋 (Validation)	학습 중 성능을 점검하고 설정을 튜닝
시험셋 (Test)	마지막에 딱 한 번, 진짜 실력 측정 (커닝 금지)

🛡️ 과적합을 막는 법

· 데이터를 더 많이: 가장 확실. 다양한 예시를 보면 잡음에 덜 휘둘린다.
· 정규화(Regularization): 손잡이가 과하게 커지지 않도록 벌점을 줘 모델을 단순하게 유지.
· 드롭아웃(Dropout): 학습 중 뉴런 일부를 무작위로 꺼서 특정 경로에 의존하지 못하게.
· 조기 종료: 검증 성능이 나빠지기 시작하면 학습을 멈춤.

한 걸음 더 · 편향–분산 트레이드오프

석사 수준 · 정규화를 수식으로

PART 3 · 딥러닝 아키텍처

CNN · 이미지를 보는 신경망

컴퓨터가 사진을 "이해하는" 방식

이미지·영상 분야의 혁명을 일으킨 구조가 CNN(합성곱 신경망)이다. 컴퓨터 비전·결함 검출과 가장 직접 맞닿는 구조라 자세히 본다.

🖼️ 이미지는 숫자 격자다

🔍 합성곱: 작은 "특징 탐지기"로 훑기

입력 이미지(픽셀)

→

특징 지도

→

"고양이"

🪜 풀링과 계층적 특징

CNN이 일반 신경망보다 이미지에 강한 이유는?

순차 데이터와 어텐션

문장처럼 "순서가 있는" 데이터 다루기

🔗 RNN: 기억을 들고 한 단어씩

· 긴 의존성에 약함: 문장이 길어지면 앞부분 기억이 희미해진다(장기 의존성 문제).
· 순차 처리라 느림: 한 단어씩 차례로만 처리 가능 → 병렬화가 어려워 대규모 학습에 불리.

👁️ 어텐션(Attention): "중요한 단어에 집중"

"피곤"을 해석할 때 어텐션은 멀리 떨어진 "동물"에 강하게 주목한다. 거리와 무관하게 관련 단어를 직접 연결한다.

한 걸음 더 · 공짜는 아니다 (어텐션의 n² 비용)

트랜스포머

"Attention Is All You Need" · 현대 AI의 엔진

🧬 핵심 1 · 셀프 어텐션 (Self-Attention)

🔢 핵심 2 · 단어를 숫자(벡터)로

⚡ 핵심 3 · 완전 병렬 처리

토큰화

문장→단어조각

→

임베딩

토큰→의미 벡터

→

셀프 어텐션

단어끼리 문맥 파악

→

여러 층 반복

의미를 점점 정교화

→

출력

다음 단어 예측

석사 수준 · 어텐션을 수식으로

한 걸음 더 · 멀티헤드 어텐션

LLM과 생성형 AI

ChatGPT는 결국 "다음 단어 맞히기"다

📖 1단계 · 사전학습 (Pre-training)

🎯 2단계 · 정렬 (Fine-tuning & RLHF)

사전학습

방대한 텍스트로 다음단어 예측

→

지시 미세조정

질문-답변 예시 학습

→

RLHF

사람 선호로 다듬기

→

완성

대화형 AI

✍️ 어떻게 "생성"하나

한 걸음 더 · 토큰화와 스케일링 법칙

석사 수준 · 사전학습 목표와 스케일링 법칙

ChatGPT가 가끔 틀린 사실을 자신 있게 말하는 근본 이유는?

PART 4 · LLM 실전과 최신 트렌드

컨텍스트·프롬프트·인컨텍스트 학습

모델의 "작업 기억"을 다루는 법

🪟 컨텍스트 윈도우 = 한 번에 볼 수 있는 양

✍️ 프롬프트와 인컨텍스트 학습

기법	방식
제로샷 (Zero-shot)	예시 없이 그냥 지시. "이 문장 감정 분류해줘."
퓨샷 (Few-shot)	예시 몇 개를 보여주고 시킴. "좋다→긍정, 싫다→부정. 그럼 '별로다'는?"
시스템 프롬프트	대화 전체의 규칙·역할 설정. "너는 친절한 비서다."

석사 수준 · KV 캐시와 컨텍스트의 진짜 비용

RAG · 검색 증강 생성

모델에게 "커닝 페이퍼"를 쥐여주기

🔎 핵심 발상: 답하기 전에 "찾아서" 넣는다

🧮 어떻게 "의미로" 검색하나: 임베딩 + 벡터DB

질문

사용자 입력

→

임베딩

질문→의미 벡터

→

벡터 검색

⚙️ 실전 디테일 (들어두면 좋은 키워드)

· 청킹(Chunking): 긴 문서를 검색하기 좋은 작은 조각으로 나누는 것. 조각 크기가 품질을 좌우.
· 리랭킹(Re-ranking): 검색된 후보를 한 번 더 정밀하게 점수 매겨 정렬.
· 하이브리드 검색: 의미 기반(벡터) + 키워드 기반(BM25)을 섞어 정확도↑.
· 에이전틱 RAG: 한 번 검색하고 끝이 아니라, 모델이 "검색이 더 필요한가?"를 스스로 판단하며 반복 검색(15장 에이전트와 연결).

RAG가 환각을 줄이는 원리는?

도구 사용·함수 호출·MCP

말만 하던 AI가 "행동"하기 시작하다

🛠️ 함수 호출 (Function Calling)

🧮 계산기·코드

틀리기 쉬운 계산을 직접 실행해 정확히.

🌐 웹 검색

학습 이후의 최신 정보를 가져옴.

🗂️ 데이터베이스·API

사내 시스템·외부 서비스와 연동.

💾 파일·메모리

읽고 쓰고 기억을 저장.

🔌 MCP: 도구 연결의 "USB-C"

MCP라는 공통 규격 하나로 모델이 수많은 도구·데이터에 표준 방식으로 연결된다.

한 걸음 더 · 도구는 양날의 검 (구조적 출력과 권한)

AI 에이전트와 하네스

스스로 계획하고 실행하는 AI

🔁 에이전트의 핵심: 반복 루프

계획Plan

실행Act · 도구

관찰Observe

목표까지
반복

에이전트 루프 — 계획·실행·관찰을 목표 달성까지 반복한다. 불빛이 사이클을 따라 돈다. (마우스를 올리면 더 빨리 돈다)

🏗️ 하네스(Harness): 모델을 감싸는 "골격"

하네스가 맡는 일	설명
실행 제어	도구를 안전하게 호출, 권한·한도 관리
재시도·검증	결과를 확인하고 틀리면 다시 시도
메모리	긴 작업의 진행 상황·과거 결과를 기억
오케스트레이션	여러 단계·여러 에이전트를 조율

추론 모델·테스트타임 컴퓨트

"생각할 시간"을 주면 더 똑똑해진다

💭 생각의 사슬 (Chain-of-Thought)

⏱️ 테스트타임 컴퓨트 (Test-time Compute)

추론 모델은 답 전에 '생각하는 시간'을 길게 쓴다. 그만큼 느리고 비싸지만 어려운 문제에 강하다.

🏆 대표 모델과 의미

· OpenAI o1 (2024) → o3: 추론에 특화한 첫 상용 모델 계열. 수학·코딩·과학에서 도약.
· DeepSeek R1 (2025년 1월): 순수 강화학습만으로 o1급 추론을 달성하고 오픈소스로 공개해 충격. 비용도 크게 낮춤.
· 이들은 일반 모델보다 훨씬 많은 토큰(생각)을 생성한다.

한 걸음 더 · 추론 모델은 어떻게 '생각'을 배우나

석사 수준 · 정렬과 강화학습 변종 (RLHF·DPO·GRPO)

효율·아키텍처·멀티모달

더 싸게, 더 작게, 더 다양하게

🧩 MoE (Mixture of Experts, 전문가 혼합)

🗜️ 경량화: 양자화·증류

📉 양자화 (Quantization)

가중치 숫자의 정밀도를 낮춰(예: 32비트→4비트) 모델 크기·연산을 확 줄인다. 약간의 정확도 손실로 큰 효율.

🎓 증류 (Distillation)

크고 똑똑한 "선생 모델"의 행동을 작은 "학생 모델"이 따라 배워, 작지만 쓸 만한 모델을 만든다. 폰에서 돌릴 AI의 비결.

🎨 멀티모달 (Multimodal)

🧷 메모리: 곁다리에서 핵심으로

한 걸음 더 · 이제는 '학습'보다 '추론' 비용

석사 수준 · MoE·양자화·추측 디코딩의 실제

PART 5 · 실제 세계와 산업

AI와 반도체

왜 AI 혁명은 곧 반도체 혁명인가

✖️ 딥러닝의 본질은 거대한 행렬 곱셈

🖥️ AI를 돌리는 칩들

칩	역할
GPU	단순 코어 수천 개로 병렬 행렬연산. AI 학습의 표준 (엔비디아 지배)
TPU·NPU	AI 연산만을 위해 설계한 전용칩(구글 TPU, 스마트폰 NPU 등)
HBM	GPU 옆에 쌓아 붙인 초고속 메모리. 데이터를 빠르게 공급 (삼성·SK하이닉스)

🧱 병목은 계산이 아니라 "데이터 운반"

AI가 반도체 수요를 키우고, 더 좋은 반도체가 더 강한 AI를 가능케 하는 선순환.

AI의 한계와 리스크

강력하지만 만능은 아니다

AI를 제대로 안다는 건 그 한계를 아는 것이기도 하다. 과장과 공포 사이에서 균형 잡힌 시각을 갖자.

🌀 주요 한계

· 환각(Hallucination): 그럴듯하지만 틀린 내용을 자신 있게 생성(11장). 사실 검증이 필수.
· 편향(Bias): 학습 데이터에 든 사회적 편향을 그대로 학습·증폭할 수 있다.
· 블랙박스: 왜 그런 답을 냈는지 내부를 설명하기 어렵다(설명가능성 문제).
· 데이터 의존: 학습에 없던 상황엔 약하다. 데이터 품질이 곧 성능.
· 비용·에너지: 거대 모델 학습엔 막대한 전기·GPU·돈이 든다.

⚖️ 현실적 리스크

🧭 그럼에도 분명한 것

한 걸음 더 · 정렬(alignment)과 평가의 어려움

PART 6 · 최신 연구 동향 (2025–2026)

＋

지금 연구는 어디로 가나

사전학습 규모에서 "생각과 사후학습"으로

🧠 1. 추론 모델과 test-time compute 스케일링

모델	AIME 2024 (pass@1)	비고
DeepSeek-R1-Zero	15.6% → 77.9% (다수결 86.7%)	순수 RL ablation 모델
DeepSeek-R1	79.8%	OpenAI o1-1217(79.2%)과 동급

석사 수준 · '창발(aha moment)'은 조심해서 읽기

🎯 2. 검증 가능한 보상 RL (RLVR) — 새로운 사후학습 엔진

석사 수준 · 이 분야는 이미 스스로 고치는 중

🤖 3. 에이전트·도구 사용·컴퓨터 유즈

⚙️ 4. 효율화 — MoE와 어텐션 대안

석사 수준 · 어텐션 대안이 어텐션과 '수렴'한다

🎬 5. 멀티모달·World Model·영상 생성

텍스트를 넘어 한 모델이 이미지·음성·영상을 함께 다루는 방향이 빠르게 자리 잡았다. 세 갈래가 두드러진다.

📉 6. 데이터·스케일링 — "데이터 월"과 합성 데이터

사전학습이 양질의 인간 텍스트를 거의 다 먹어간다는 우려가 구체화됐다.

🔍 7. 해석가능성·안전·정렬 (가장 빠르게 크는 영역)

기계적 해석가능성·SAE — 신경망 내부 활성을 사람이 읽을 수 있는 특징(feature)으로 분해하는 희소 오토인코더(SAE). Anthropic의 monosemanticity·attribution graph("모델의 생각 추적"), DeepMind의 Gemma Scope 등.
정렬의 균열 — 모델이 학습 중 의도를 숨기는 정렬 위장(alignment faking)(Anthropic), 평가 상황을 눈치채고 일부러 못하는 척하거나 책략을 꾸미는 scheming·sandbagging(Apollo Research, OpenAI)이 실험적으로 관찰됐다.
확장 가능한 감독(scalable oversight) — 사람이 직접 채점하기 어려운 능력을 어떻게 검증·감독하나(토론, weak-to-strong 일반화, 자동 정렬 연구원 등). 능력이 평가를 앞지를 때를 대비한 연구다(19장과 연결).

📎 주요 출처

＊

핵심 용어 사전

이것만 알면 AI 대화가 끊기지 않는다

자주 나오는 용어 정리. 모르는 게 나오면 여기로 돌아오자.

머신러닝Machine Learning

데이터에서 규칙·패턴을 스스로 학습하는 기법. AI의 한 갈래.

딥러닝Deep Learning

여러 층의 신경망으로 학습하는 머신러닝. 요즘 AI의 주류.

신경망Neural Network

뉴런(가중합+활성화)을 층층이 연결한 모델.

파라미터 / 가중치Parameter / Weight

모델이 학습으로 조정하는 "손잡이". 많을수록 표현력↑(계산량↑).

손실 함수Loss

예측이 정답과 얼마나 다른지 재는 숫자. 줄이는 게 학습 목표.

경사하강법Gradient Descent

손실이 줄어드는 방향으로 가중치를 조금씩 옮기는 방법.

역전파Backpropagation

오차를 뒤에서 앞으로 전파해 각 가중치의 기여(기울기)를 계산.

과적합 / 일반화Overfitting / Generalization

학습 데이터를 외워 새 데이터에 약해짐 / 본 적 없는 데이터에도 잘 맞히는 능력.

CNN합성곱 신경망

필터로 이미지 특징을 훑는 구조. 컴퓨터 비전·결함 검출의 핵심.

RNN / 어텐션Attention

순차 데이터를 한 단계씩 처리하는 옛 구조 / 관련 깊은 부분에 더 집중하는 메커니즘.

트랜스포머Transformer

어텐션 기반 구조. 현대 LLM·생성형 AI의 뼈대.

토큰 / 임베딩Token / Embedding

텍스트를 자른 조각 / 그 의미를 담은 숫자 벡터.

LLM거대 언어모델

방대한 텍스트로 "다음 토큰 예측"을 학습한 대형 트랜스포머. 예: GPT.

사전학습 / 파인튜닝

대규모로 기본기 학습 / 특정 용도·태도로 다듬기.

RLHF

사람 선호 피드백으로 모델을 정렬하는 강화학습. "쓸 만한" 챗봇의 비결.

환각Hallucination

그럴듯하지만 틀린 내용을 생성하는 현상. 검증 필요.

GPU / HBM

병렬 연산 칩 / 그 옆의 초고속 메모리. AI 학습의 하드웨어 양대 축.

컨텍스트 윈도우Context Window

모델이 한 번에 볼 수 있는 토큰의 양. "작업 기억"의 크기.

프롬프트 / 퓨샷Prompt / Few-shot

모델에 주는 지시문 / 예시 몇 개로 패턴을 따르게 하는 인컨텍스트 학습.

RAG검색 증강 생성

답 전에 관련 문서를 검색해 근거로 넣어주는 기법. 최신·사내 지식, 환각 완화.

벡터DBVector DB

임베딩 벡터를 의미 유사도로 검색하는 DB. RAG의 엔진.

도구 사용 / 함수 호출Tool use / Function calling

모델이 검색·계산·실행 등 외부 도구를 직접 호출하는 능력. AI의 "손발".

MCPModel Context Protocol

모델과 도구·데이터를 잇는 표준 규격. "AI 도구의 USB-C".

에이전트Agent

목표를 받아 스스로 계획·실행·관찰을 반복하는 AI. LLM+도구+하네스+루프.

하네스 / 스캐폴딩Harness / Scaffolding

모델을 감싸 실행·재시도·안전·메모리를 통제하는 코드 골격.

추론 모델Reasoning Model

답 전에 단계적으로 "생각"하는 모델(o1, o3, R1). 어려운 문제에 강함.

테스트타임 컴퓨트Test-time Compute

추론(답할 때)에 계산을 더 써서 성능을 올리는 새 스케일링 축.

MoE전문가 혼합

입력마다 관련 전문가 일부만 켜는 구조. 큰 용량을 적은 비용으로.

양자화 / 증류Quantization / Distillation

정밀도를 낮춰 경량화 / 큰 모델의 지식을 작은 모델로 옮기기.

멀티모달 / 확산모델Multimodal / Diffusion

텍스트+이미지+음성+영상을 함께 처리 / 노이즈에서 그림을 복원하는 이미지 생성.