kwanho.dev
ProjectsEditorTravel
ProjectsEditorTravel
Back to kwanho.dev
Home/notes/AI 완전정복

AI 완전정복

지식 0에서 준전공자까지 — 20장 완주

Published
June 15, 2026
Read
35 min
Type
노트
Path
kwanho.dev/notes/ai

On this page

  • PART 1 — AI의 기초 발상
  • 1. AI란 무엇인가
  • 2. 머신러닝의 핵심 아이디어
  • 3. 학습의 세 가지 종류
  • PART 2 — 신경망의 원리
  • 4. 뉴런과 퍼셉트론
  • 5. 신경망의 구조
  • 6. 경사하강 · 역전파
  • 7. 과적합과 일반화
  • PART 3 — 딥러닝 아키텍처
  • 8. CNN · 이미지를 보는 신경망
  • 9. 순차 데이터와 어텐션
  • 10. 트랜스포머
  • 11. LLM과 생성형 AI
  • PART 5 — LLM 실전 · 최신 트렌드
  • 12. 컨텍스트 · 프롬프트
  • 13. RAG
  • 14. 도구 사용 · MCP
  • 15. 에이전트와 하네스
  • 16. 추론 모델
  • 17. 효율 · 멀티모달
  • PART 6 — 실제 세계와 산업
  • 18. AI와 반도체
  • 19. 한계와 리스크
  • 20. 핵심 용어 사전
PART 1AI의 기초 발상
1

AI란 무엇인가

"규칙을 짜는 것"에서 "스스로 배우는 것"으로

AI를 이해하는 출발점은 딱 하나의 전환이다. 사람이 규칙을 일일이 짜주는 대신, 기계가 예시(데이터)를 보고 규칙을 스스로 찾게 한다. 이 발상의 차이가 전부다.

📜 규칙 기반 (옛 방식)
사람이 "이러면 이렇게 하라"를 전부 코딩. 예: "이메일에 '당첨'이 있으면 스팸." 예외가 많아지면 규칙이 폭발해 감당 불가.
🧠 학습 기반 (머신러닝)
스팸 메일 수만 통을 보여주고 "이게 스팸이다"라고 알려주면, 기계가 공통 패턴을 스스로 찾아낸다. 규칙을 직접 안 짠다.

AI ⊃ 머신러닝 ⊃ 딥러닝 포함 관계

인공지능 (AI)사람처럼 지적인 일을 하는 모든 기술머신러닝 (ML)데이터로 패턴을 학습딥러닝 (DL)깊은 신경망으로 학습

딥러닝은 머신러닝의 한 방법이고, 머신러닝은 AI의 한 갈래. 요즘 화제(ChatGPT)는 가장 안쪽 딥러닝이다.

🍳
요리 비유. 규칙 기반은 레시피를 글자 하나까지 받아 적는 것. 머신러닝은 완성된 요리 수천 접시를 맛보며 "이 맛을 내려면 뭘 어떻게"를 스스로 감 잡는 것. 후자는 레시피에 없던 새 재료에도 대응할 수 있다.
▶✅ 머신러닝이 규칙 기반과 결정적으로 다른 점은?
사람이 규칙을 직접 코딩하지 않고, 데이터(예시)에서 기계가 규칙·패턴을 스스로 찾아낸다는 것. 그래서 예외가 많고 복잡한 문제(이미지·언어)에 강하다.
2

머신러닝의 핵심 아이디어

학습이란 결국 "함수의 손잡이를 맞추는 것"

머신러닝의 본질은 의외로 단순하다. 입력을 출력으로 바꾸는 함수를 찾되, 그 함수를 데이터에 맞게 조금씩 조정하는 것.

"집 크기 → 집값"을 예측한다면 가장 단순한 모델은 집값 = a × 크기 + b. 여기서 a와 b가 "손잡이"다. 이걸 학습으로 맞추는 것. GPT 같은 모델은 이 손잡이가 수천억 개일 뿐, 원리는 똑같다.

집 크기 →집값 →학습된 모델

파란 점은 실제 데이터, 보라 선은 모델. 점들에 가장 잘 맞는 선이 되도록 손잡이(a, b)를 조정하는 게 학습이다.

핵심 한 줄: 머신러닝 = ① 손잡이 달린 함수(모델) → ② 틀린 정도(손실)를 재서 → ③ 손실이 줄도록 손잡이를 조금씩 돌리기.
3

학습의 세 가지 종류

정답을 주느냐, 안 주느냐, 보상을 주느냐

🏷️ 지도학습 (Supervised)
입력 + 정답을 함께 줌. "이 사진은 고양이." 이미지 분류, 스팸 필터, 가격 예측, 결함 검출 등.
🧩 비지도학습 (Unsupervised)
정답 없이 데이터만. 스스로 묶고 구조 발견. 고객 군집화, 이상 탐지, 차원 축소 등.
🎮 강화학습 (Reinforcement)
행동에 보상/벌점을 줌. 시행착오로 전략 학습. 알파고, 로봇 제어, 게임 AI 등.
🚲
자전거로 비유. 지도학습 = 교본과 정답을 보며 배움. 비지도학습 = 여러 자전거를 관찰해 종류를 나눔. 강화학습 = 일단 타보고 넘어지면(벌점) 안 넘어지면(보상) 몸으로 익힘. ChatGPT는 지도학습 + 강화학습(사람 피드백)을 함께 쓴다(11장).
▶✅ '불량 검출' AI는 보통 어떤 학습일까?
지도학습. "정상/불량"이 라벨링된 이미지 수천~수만 장을 보여주고 패턴을 학습시킨다. 라벨이 부족하면 비지도(이상 탐지)를 섞기도 한다. 반도체 검사(KLA)가 정확히 이 영역이다.
PART 2신경망의 원리
4

뉴런과 퍼셉트론

뇌를 흉내 낸 가장 작은 계산 단위

인공 뉴런 하나가 하는 일은 단순하다. 여러 입력을 가중치로 섞어 더한 뒤, 일정 기준을 넘으면 신호를 내보낸다.

인공 뉴런의 3단계

x1x2x3×w1×w2×w3Σ 합산+편향활성화함수출력

입력에 가중치를 곱해 더하고(Σ), 활성화 함수를 통과시켜 출력을 낸다.

활성화 함수가 없으면 아무리 뉴런을 쌓아도 결국 직선(단순 비례)밖에 못 만든다. 활성화 함수(예: ReLU, "음수면 0, 양수면 그대로")가 비선형성(꺾임)을 넣어줘야 곡선·복잡한 패턴을 표현할 수 있다.

🚪
회의 결정 비유. 뉴런은 여러 의견(입력)을 중요도(가중치)대로 반영해 합산하고, 일정 찬성선을 넘으면 "통과(발화)"시키는 의장 같다. 가중치를 어떻게 두느냐가 곧 그 뉴런의 "판단 기준"이다.
5

신경망의 구조

뉴런을 층층이 쌓으면 "깊은" 신경망

입력층은닉층 1은닉층 2출력층

각 층의 뉴런이 다음 층과 연결된다. 정보가 왼쪽(입력)에서 오른쪽(출력)으로 흐른다.

이미지 인식을 예로 들면, 앞쪽 층은 선·모서리를, 중간 층은 눈·코·바퀴를, 뒤쪽 층은 얼굴·자동차를 잡는다. 사람이 특징을 알려주지 않아도 스스로 특징을 발견(feature learning)하는 게 딥러닝의 위력이다.

한 걸음 더 · 파라미터 수
연결선 하나하나가 가중치(파라미터)다. 작은 신경망도 수천 개, 이미지 모델은 수백만~수억 개, GPT-4급은 수천억~조 단위의 파라미터를 가진다. 학습이란 이 모든 손잡이를 데이터에 맞게 동시에 조정하는 일이고, 그래서 막대한 계산(=GPU, 18장)이 필요하다.
6

학습의 원리

경사하강과 역전파: 손잡이를 맞추는 법

손실을 "골짜기가 있는 지형"이라고 상상하자. 우리는 가장 낮은 곳(손실 최소)을 찾고 싶다. 방법은 단순하다. 지금 서 있는 자리에서 가장 가파르게 내려가는 방향으로 한 걸음 내딛기.이를 반복하면 골짜기 바닥에 도달한다. 이 "내려가는 방향"을 알려주는 게 기울기(gradient)다.

시작(오차 큼)목표(오차 최소)한 걸음씩내려간다

손실 지형에서 가장 가파른 내리막으로 조금씩 이동. "한 걸음 크기"가 학습률(learning rate)이다.

수억 개 손잡이 각각이 "오차에 얼마나 기여했는지" 알려주는 것이 역전파(Backpropagation)다. 출력에서 생긴 오차를 뒤에서 앞으로 거꾸로 전파하며, 각 가중치가 책임져야 할 몫을 계산한다.

➡️순전파입력→예측 계산
→
📏손실 측정예측 vs 정답
→
⬅️역전파오차를 거꾸로
→
🔧가중치 갱신경사하강 조정
→
🔁반복수백만 번
🎯
양궁 비유. 화살을 쏘고(순전파), 과녁에서 얼마나 빗나갔는지 보고(손실), "팔 각도·힘 중 무엇 때문에 빗나갔나"를 거슬러 따져(역전파), 다음엔 그만큼 자세를 고친다(갱신). 이걸 반복하면 명중률이 오른다.
7

과적합과 일반화

"외운 학생"과 "이해한 학생"의 차이

학습이 잘됐는지 판단하는 진짜 기준은 "본 적 없는 새 데이터를 맞히느냐"다. 이것을 일반화(generalization)라 하고, 그 반대 함정이 과적합(overfitting)이다.

과소적합너무 단순적정패턴을 잡음 (좋음)과적합잡음까지 외움

왼쪽은 너무 단순, 오른쪽은 잡음까지 외운 과적합. 가운데처럼 "핵심 패턴만" 잡는 게 목표.

  • ·데이터를 더 많이: 가장 확실. 다양한 예시를 보면 잡음에 덜 휘둘린다.
  • ·정규화(Regularization): 손잡이가 과하게 커지지 않도록 벌점을 줘 모델을 단순하게 유지.
  • ·드롭아웃(Dropout): 학습 중 뉴런 일부를 무작위로 꺼서 특정 경로에 의존하지 못하게.
  • ·조기 종료: 검증 성능이 나빠지기 시작하면 학습을 멈춤.
2부 요약: 뉴런(가중합+활성화, 4장) → 층층이 쌓아 신경망(5장) → 경사하강·역전파로 학습(6장) → 외우지 말고 일반화(7장). 이제 이 신경망을 "용도별로 특화한" 딥러닝 구조들로 넘어간다.
PART 3딥러닝 아키텍처
8

CNN · 이미지를 보는 신경망

컴퓨터가 사진을 "이해하는" 방식

이미지·영상 분야의 혁명을 일으킨 구조가 CNN(합성곱 신경망)이다. 컴퓨터 비전·결함 검출 영역과 가장 직접 맞닿는 장이다.

CNN은 작은 창(필터)을 이미지 위에서 미끄러뜨리며(슬라이딩) 훑는다. 각 필터는 특정 특징, 예컨대 "세로 모서리", "둥근 곡선", "특정 질감"에 반응한다. 같은 필터를 이미지 전체에 쓰기 때문에, 물체가 어디에 있든 같은 특징을 찾아낸다(위치 불변성).

입력 이미지(픽셀)필터(창)→특징 지도→더 추상적→"고양이"

필터로 특징을 뽑고(합성곱), 요약하고(풀링), 깊어질수록 추상적 개념으로. 마지막에 분류 결과.

너의 영역: 반도체 결함 검출은 전형적인 CNN 문제다. "정상 패턴 이미지"를 학습한 모델이 미세한 이상(긁힘·이물질)을 찾아낸다. 3D 비전, KLA/ICOS의 검사 소프트웨어가 모두 이 계열이다. 최근엔 이상 탐지·세그멘테이션·트랜스포머 기반 비전(ViT)도 함께 쓰인다.
▶✅ CNN이 일반 신경망보다 이미지에 강한 이유는?
작은 필터를 이미지 전체에 공유해 훑기 때문에 ① 파라미터가 적어 효율적이고 ② 물체 위치가 바뀌어도 같은 특징을 잡는 위치 불변성을 갖는다. 또 층이 깊어지며 단순→복잡 특징을 계층적으로 학습한다.
9

순차 데이터와 어텐션

문장처럼 "순서가 있는" 데이터 다루기

초기 방식인 RNN은 단어를 하나씩 읽으며 "지금까지의 요약"을 다음 단계로 넘긴다. 하지만 두 가지 한계가 있었다.

  • ·긴 의존성에 약함: 문장이 길어지면 앞부분 기억이 희미해진다(장기 의존성 문제).
  • ·순차 처리라 느림: 한 단어씩 차례로만 처리 가능 → 병렬화가 어려워 대규모 학습에 불리.

돌파구가 어텐션(Attention)이었다. 한 단어를 해석할 때 문장의 모든 단어를 한꺼번에 보되, 관련 깊은 단어에 더 큰 가중치를 둔다.

그 동물은길을못 건넜다피곤때문에강한 주목 (피곤 ↔ 동물)이 단어를 해석할 때

"피곤"을 해석할 때 어텐션은 멀리 떨어진 "동물"에 강하게 주목한다. 거리와 무관하게 관련 단어를 직접 연결.

왜 결정적인가: 어텐션은 ① 멀리 떨어진 단어도 직접 연결해 장기 의존성을 풀고 ② 모든 단어를 동시에 볼 수 있어 병렬 처리가 가능하다. 이 두 장점이 다음 장 트랜스포머의 폭발력을 만든다(그리고 병렬 처리는 GPU와 완벽히 맞는다, 18장).
10

트랜스포머

"Attention Is All You Need" · 현대 AI의 엔진

2017년 등장한 트랜스포머는 RNN을 버리고 오직 어텐션만으로 순차 데이터를 처리했다. ChatGPT의 "GPT"가 바로 Generative Pre-trained Transformer다.

🧬 셀프 어텐션
문장 안의 모든 단어가 모든 단어를 서로 본다. 한 번에 전체를 조망해 길고 복잡한 문맥도 잘 잡는다.
🔢 토큰 임베딩
각 단어(토큰)를 의미를 담은 숫자 벡터로 바꾼다. 비슷한 의미의 단어가 벡터 공간에서 가까이 모인다.
⚡ 완전 병렬 처리
단어를 한꺼번에 처리하므로 GPU로 대규모 병렬 학습이 가능. 이 덕분에 인터넷 전체급 데이터로 거대 모델을 학습할 수 있게 됐다.
✂️토큰화문장→단어조각
→
🔢임베딩토큰→의미 벡터
→
👁️셀프 어텐션단어끼리 문맥
→
🧠여러 층 반복의미를 정교화
→
🎯출력다음 단어 예측
🗣️
회의실 비유. RNN은 한 명씩 차례로 귓속말로 전달하는 릴레이(뒤로 갈수록 내용이 변질). 트랜스포머는 모두가 한 테이블에 앉아 동시에 서로를 보며 누가 핵심인지 가늠하는 원탁회의. 더 정확하고 빠르다.
한 걸음 더 · 멀티헤드 어텐션
트랜스포머는 어텐션을 여러 개(멀티헤드) 병렬로 둬서, 한 헤드는 문법 관계를, 다른 헤드는 의미 관계를 보는 식으로 다양한 관점을 동시에 학습한다. 이런 층(어텐션+피드포워드)을 수십~수백 겹 쌓은 것이 GPT 같은 모델의 실체다.
11

LLM과 생성형 AI

ChatGPT는 결국 "다음 단어 맞히기"다

놀랍게도, 거대 언어모델(LLM)의 핵심 능력은 단 하나에서 나온다. "지금까지의 글 다음에 올 단어를 예측하기." 이 단순한 목표를 어마어마한 규모로 밀어붙였더니 번역·요약·코딩·추론까지 창발했다.

🌐사전학습방대한 텍스트로 다음단어 예측
→
📝지시 미세조정질문-답변 예시 학습
→
👍RLHF사람 선호로 다듬기
→
💬완성대화형 AI

답을 한 번에 쓰는 게 아니라, 토큰을 하나씩 차례로 생성한다. 매 순간 "다음에 올 가장 그럴듯한 토큰"을 확률로 뽑고, 그걸 붙여 또 다음 토큰을 뽑는다. 약간의 무작위성(temperature)을 줘서 매번 조금씩 다른 답이 나온다.

중요한 직관: LLM은 사실을 "검색"하는 게 아니라 그럴듯한 다음 말을 확률로 생성한다. 그래서 모르는 것도 자신 있게 지어내는 환각(hallucination)이 생긴다(19장). 강력하지만 "확률적 글쓰기 기계"라는 본질을 기억하면 한계도 이해된다.
▶✅ ChatGPT가 가끔 틀린 사실을 자신 있게 말하는 근본 이유는?
사실 데이터베이스를 조회하는 게 아니라 "통계적으로 그럴듯한 다음 토큰"을 생성하기 때문. 그럴듯함과 사실 여부는 다르므로, 근거 없이도 매끄러운 거짓(환각)을 만들 수 있다. 그래서 중요한 정보는 항상 검증이 필요하다.
PART 5LLM 실전 · 최신 트렌드
12

컨텍스트 · 프롬프트 · 인컨텍스트 학습

모델의 "작업 기억"을 다루는 법

LLM은 입력을 토큰으로 쪼개 처리한다(10장). 한 번에 읽고 기억할 수 있는 토큰 수의 한계가 컨텍스트 윈도우다. 초기엔 수천 토큰이었지만, 최신 모델은 수십만~수백만 토큰(책 여러 권 분량)까지 본다.

프롬프트 기법

제로샷 (Zero-shot)예시 없이 그냥 지시. "이 문장 감정 분류해줘."
퓨샷 (Few-shot)예시 몇 개를 보여주고 시킴. "좋다→긍정, 싫다→부정. 그럼 '별로다'는?"
시스템 프롬프트대화 전체의 규칙·역할 설정. "너는 친절한 비서다."
🧠
책상 비유. 컨텍스트 윈도우는 펼쳐놓을 수 있는 책상 크기다. 작으면 자료를 조금만, 크면 많이 올려둘 수 있다. 하지만 책상이 너무 넓어도 자료가 흩어지면 못 찾는다. 그래서 "무엇을 책상에 올릴지" 고르는 게 핵심 기술이다.
왜 트렌드의 출발점인가: RAG, 도구 사용, 에이전트, 추론까지 "컨텍스트에 무엇을, 어떻게 넣느냐"의 싸움이다. 모델을 더 똑똑하게 만드는 것에서 그 주변(컨텍스트·도구·루프)을 엔지니어링하는 것으로 무게중심이 옮겨간 것이 2025~2026년 AI 실무의 핵심이다.
13

RAG · 검색 증강 생성

모델에게 "커닝 페이퍼"를 쥐여주기

LLM의 약점은 ① 학습 시점 이후를 모르고 ② 회사 내부 문서가 없으며 ③ 모르면 지어낸다는 것. 이를 한 방에 푸는 대표 기술이 RAG(Retrieval-Augmented Generation, 검색 증강 생성)다. 요즘 기업 AI의 거의 표준.

질문이 오면 모델이 바로 답하는 게 아니라, 먼저 관련 문서를 검색해서 그 내용을 컨텍스트에 넣고, 그걸 근거로 답하게 한다. RAG는 문서와 질문을 모두 임베딩(벡터)으로 바꾸고,벡터 데이터베이스에서 의미가 가까운 조각을 찾는다.

❓질문사용자 입력
→
🔢임베딩질문→의미 벡터
→
🗄️벡터 검색관련 문서 조각
→
📎컨텍스트 첨부근거를 프롬프트에
→
💬근거 기반 생성출처 포함 답변
  • ·청킹(Chunking): 긴 문서를 검색하기 좋은 작은 조각으로 나누는 것. 조각 크기가 품질을 좌우.
  • ·리랭킹(Re-ranking): 검색된 후보를 한 번 더 정밀하게 점수 매겨 정렬.
  • ·하이브리드 검색: 의미 기반(벡터) + 키워드 기반(BM25)을 섞어 정확도↑.
  • ·에이전틱 RAG: 모델이 "검색이 더 필요한가?"를 스스로 판단하며 반복 검색(15장 에이전트와 연결).
RAG vs 파인튜닝 vs 프롬프트: 새 지식을 주입할 땐 보통 RAG(정보가 자주 바뀌거나 출처 필요), 말투·형식을 바꿀 땐 파인튜닝, 간단한 조정은 프롬프트. 셋은 경쟁이 아니라 상황별 도구다.
14

도구 사용 · 함수 호출 · MCP

말만 하던 AI가 "행동"하기 시작하다

LLM은 본래 텍스트만 생성한다. 계산도 틀리고, 오늘 날씨도 모르고, 실제로 실행하지도 못한다. 이 벽을 깬 것이 도구 사용(tool use)이다.

모델이 "내가 직접 답하는 대신 이 도구를 이렇게 써야겠다"고 판단해, 정해진 형식으로 도구를 호출하는 능력이 함수 호출(Function Calling)이다.

🧮 계산기·코드
틀리기 쉬운 계산을 직접 실행해 정확히.
🌐 웹 검색
학습 이후의 최신 정보를 가져옴.
🗂️ 데이터베이스·API
사내 시스템·외부 서비스와 연동.
💾 파일·메모리
읽고 쓰고 기억을 저장.

도구마다 연결 방식이 제각각이면 매번 새로 붙여야 한다. 이를 표준화한 것이 MCP(Model Context Protocol)다. 모델과 도구·데이터를 잇는 공통 규격으로, 비유하면 기기마다 다르던 충전 단자를 USB-C 하나로 통일한 것.

LLMMCP 표준웹 검색데이터베이스코드 실행파일/메모리외부 API

MCP라는 공통 규격 하나로 모델이 수많은 도구·데이터에 표준 방식으로 연결된다.

의미: 도구 사용으로 LLM은 "말하는 기계"에서 "일하는 기계"로 바뀌었다. 이 능력이 다음 장의 "에이전트"를 가능하게 한다.
15

AI 에이전트와 하네스

스스로 계획하고 실행하는 AI

2025~2026년 AI의 최대 키워드는 단연 에이전트(Agent)다. 목표를 받아 스스로 계획을 세우고 도구를 써가며 여러 단계를 실행하는 AI.

계획Plan실행Act(도구)관찰Observe목표 달성까지 반복

에이전트는 이 루프를 자율적으로 돌린다. 계획하고, 도구로 실행하고, 결과를 보고, 다시 조정한다.

똑똑한 모델 하나만으론 신뢰할 수 있는 에이전트가 안 된다. 모델은 실수하고, 무한 루프에 빠지고, 위험한 행동을 할 수 있다. 그래서 모델 바깥에 이를 통제하는 코드 골격을 두는데, 이것을 하네스(harness) 또는 스캐폴딩(scaffolding)이라 한다.

하네스가 맡는 일

실행 제어도구를 안전하게 호출, 권한·한도 관리
재시도·검증결과를 확인하고 틀리면 다시 시도
메모리긴 작업의 진행 상황·과거 결과를 기억
오케스트레이션여러 단계·여러 에이전트를 조율
한 줄 정리: 에이전트 = LLM(두뇌) + 도구(손발) + 하네스(골격·통제) + 루프(반복). "모델을 더 똑똑하게"에서 "모델 주변을 잘 설계해서 실수 없이 일을 끝내게"로 무게중심이 옮겨간 것이 2026년의 큰 흐름이다.
16

추론 모델 · 테스트타임 컴퓨트

"생각할 시간"을 주면 더 똑똑해진다

2025년 AI의 가장 큰 패러다임 전환. 모델을 더 크게 키우는 대신, 답하기 전에 더 오래 "생각"하게 만들어 성능을 끌어올리는 길이 열렸다.

일반 LLM질문→즉답빠르지만 실수 가능추론 모델질문→속으로 단계별 추론(길게)→답느리지만 정확

추론 모델은 답 전에 "생각하는 시간"을 길게 쓴다. 어려운 문제에 강하다.

  • ·OpenAI o1 (2024) → o3: 추론에 특화한 첫 상용 모델 계열. 수학·코딩·과학에서 도약.
  • ·DeepSeek R1 (2025년 1월): 순수 강화학습만으로 o1급 추론을 달성하고 오픈소스로 공개해 충격. 비용도 크게 낮춤.
왜 큰 전환인가: 그동안 발전은 "모델·데이터를 키우는 사전학습 스케일링"이 주도했다. 추론 모델은 "추론 때 계산을 더 쓰는" 새 축을 열었다. 이는 곧 AI가 더 많은 반도체(GPU)를 먹는다는 뜻이라, 반도체 수요를 다시 한번 밀어 올린다.
17

효율 · 아키텍처 · 멀티모달

더 싸게, 더 작게, 더 다양하게

🧩 MoE (Mixture of Experts)
모델 안에 여러 "전문가" 서브네트워크를 두고, 입력마다 관련 있는 일부 전문가만 켠다. 큰 용량의 지능을 작은 비용으로 쓴다.
🎨 멀티모달 (Multimodal)
이제 AI는 이미지·음성·영상·문서를 함께 이해하고 생성한다. 트랜스포머가 "모든 것을 토큰(숫자)으로" 다루기에 가능한 일.
📉 양자화 (Quantization)
가중치 숫자의 정밀도를 낮춰(예: 32비트→4비트) 모델 크기·연산을 확 줄인다. 약간의 정확도 손실로 큰 효율.
🎓 증류 (Distillation)
크고 똑똑한 "선생 모델"의 행동을 작은 "학생 모델"이 따라 배워, 작지만 쓸 만한 모델을 만든다. 폰에서 돌릴 AI의 비결.
5부 요약: 컨텍스트(12) → RAG 검색(13) → 도구·MCP(14) → 에이전트·하네스(15) → 추론 모델(16) → 효율·멀티모달(17). 공통 주제는 "모델 자체보다 그 주변 시스템을 설계하는 시대"다. 이 모든 것이 더 많은 연산, 즉 반도체로 이어진다.
PART 6실제 세계와 산업
18

AI와 반도체

왜 AI 혁명은 곧 반도체 혁명인가

AI의 발전은 알고리즘만의 이야기가 아니다. 그것을 굴릴 하드웨어(반도체)가 없으면 한 줄도 학습 못 한다.

신경망의 "입력×가중치 합산"(4장)은 수학적으로 행렬 곱셈이다. 층마다, 데이터마다 이 곱셈이 수십억 번 일어난다. 즉 딥러닝 = "같은 단순 계산을 천문학적으로 많이, 동시에". 이건 GPU가 가장 잘하는 일 그 자체다.

AI를 돌리는 칩들

GPU단순 코어 수천 개로 병렬 행렬연산. AI 학습의 표준 (엔비디아 지배).
TPU·NPUAI 연산만을 위해 설계한 전용칩(구글 TPU, 스마트폰 NPU 등).
HBMGPU 옆에 쌓아 붙인 초고속 메모리. 데이터를 빠르게 공급 (삼성·SK하이닉스).

반도체의 메모리 월이 AI에서 특히 심각하다. 모델이 거대해 가중치·데이터를 메모리에서 GPU로 끝없이 날라야 하는데, 그 통로가 좁으면 비싼 GPU가 논다. 그래서 HBM(고대역폭 메모리)이 AI 시대의 핵심 부품이 됐다.

AI 수요 폭증더 큰 모델반도체 수요↑GPU·HBM·검사장비더 강한 AI성능 향상선순환

AI가 반도체 수요를 키우고, 더 좋은 반도체가 더 강한 AI를 가능케 하는 선순환. KLA 같은 검사 회사도 이 흐름의 수혜자다.

교차점: AI(특히 컴퓨터 비전)와 반도체 검사가 만나는 자리. KLA/ICOS의 결함 검출은 딥러닝 비전이 실제 산업에 박히는 대표 사례이고, 3D 비전·SW 배경이 정확히 거기에 들어맞는다.
19

AI의 한계와 리스크

강력하지만 만능은 아니다

  • ·환각(Hallucination): 그럴듯하지만 틀린 내용을 자신 있게 생성(11장). 사실 검증이 필수.
  • ·편향(Bias): 학습 데이터에 든 사회적 편향을 그대로 학습·증폭할 수 있다.
  • ·블랙박스: 왜 그런 답을 냈는지 내부를 설명하기 어렵다(설명가능성 문제).
  • ·데이터 의존: 학습에 없던 상황엔 약하다. 데이터 품질이 곧 성능.
  • ·비용·에너지: 거대 모델 학습엔 막대한 전기·GPU·돈이 든다.
균형 잡힌 태도: "AI가 다 한다"도, "AI는 허상이다"도 둘 다 틀렸다. 특정 작업(패턴 인식·생성)에선 초인적이지만, 진짜 이해·상식·책임은 아직 사람의 몫이다. 도구로서 강력하되 맹신은 금물, 이 감각이 준전공자의 시각이다.
20

핵심 용어 사전

이것만 알면 AI 대화가 끊기지 않는다

모르는 게 나오면 여기로 돌아오자.

머신러닝Machine Learning
데이터에서 규칙·패턴을 스스로 학습하는 기법. AI의 한 갈래.
딥러닝Deep Learning
여러 층의 신경망으로 학습하는 머신러닝. 요즘 AI의 주류.
신경망Neural Network
뉴런(가중합+활성화)을 층층이 연결한 모델.
파라미터 / 가중치Parameter / Weight
모델이 학습으로 조정하는 "손잡이". 많을수록 표현력↑(또한 계산량↑).
손실 함수Loss
예측이 정답과 얼마나 다른지 재는 숫자. 줄이는 게 학습 목표.
경사하강법Gradient Descent
손실이 줄어드는 방향으로 가중치를 조금씩 옮기는 방법.
역전파Backpropagation
오차를 뒤에서 앞으로 전파해 각 가중치의 기여(기울기)를 계산.
과적합Overfitting
학습 데이터(잡음까지)를 외워 새 데이터에 약해진 상태.
일반화Generalization
본 적 없는 데이터에도 잘 맞히는 능력. AI의 진짜 목표.
지도/비지도/강화학습
정답 줌 / 정답 없이 구조 발견 / 보상으로 학습.
CNN합성곱 신경망
필터로 이미지 특징을 훑는 구조. 컴퓨터 비전·결함 검출의 핵심.
어텐션Attention
관련 깊은 부분에 더 집중하게 하는 메커니즘. 트랜스포머의 핵심.
트랜스포머Transformer
어텐션 기반 구조. 현대 LLM·생성형 AI의 뼈대.
토큰 / 임베딩Token / Embedding
텍스트를 자른 조각 / 그 의미를 담은 숫자 벡터.
LLM거대 언어모델
방대한 텍스트로 "다음 토큰 예측"을 학습한 대형 트랜스포머. 예: GPT.
사전학습 / 파인튜닝
대규모로 기본기 학습 / 특정 용도·태도로 다듬기.
RLHF
사람 선호 피드백으로 모델을 정렬하는 강화학습. "쓸 만한" 챗봇의 비결.
환각Hallucination
그럴듯하지만 틀린 내용을 생성하는 현상. 검증 필요.
GPU / HBM
병렬 연산 칩 / 그 옆의 초고속 메모리. AI 학습의 하드웨어 양대 축.
컨텍스트 윈도우Context Window
모델이 한 번에 볼 수 있는 토큰의 양. "작업 기억"의 크기.
프롬프트 / 퓨샷Prompt / Few-shot
모델에 주는 지시문 / 예시 몇 개를 보여줘 패턴을 따르게 하는 인컨텍스트 학습.
RAG검색 증강 생성
답 전에 관련 문서를 검색해 근거로 넣어주는 기법. 최신·사내 지식, 환각 완화.
도구 사용 / 함수 호출Tool use / Function calling
모델이 검색·계산·실행 등 외부 도구를 직접 호출하는 능력. AI의 "손발".
MCPModel Context Protocol
모델과 도구·데이터를 잇는 표준 규격. "AI 도구의 USB-C".
에이전트Agent
목표를 받아 스스로 계획·실행·관찰을 반복하는 AI. LLM+도구+하네스+루프.
하네스 / 스캐폴딩Harness / Scaffolding
모델을 감싸 실행·재시도·안전·메모리를 통제하는 코드 골격.
추론 모델Reasoning Model
답 전에 단계적으로 "생각"하는 모델(o1, o3, DeepSeek R1). 어려운 문제에 강함.
MoE전문가 혼합
입력마다 관련 전문가 일부만 켜는 구조. 큰 용량을 적은 비용으로.
양자화 / 증류Quantization / Distillation
정밀도를 낮춰 경량화 / 큰 모델의 지식을 작은 모델로 옮기기.
멀티모달 / 확산모델Multimodal / Diffusion
텍스트+이미지+음성을 함께 처리 / 노이즈에서 그림을 복원하는 이미지 생성 방식.
한 호흡에 외우는 전체 흐름: AI = 데이터로 배우는 기계 → 학습은 손잡이(가중치)를 손실이 줄도록 조정(경사하강·역전파) → 뉴런을 쌓은 신경망, 외우지 말고 일반화 → 이미지는 CNN, 순서는 어텐션 → 어텐션만으로 만든 트랜스포머 → 다음 단어 예측을 키운 LLM → 이 모든 걸 굴리는 건 GPU·HBM(반도체). 그래서 AI와 반도체는 한 몸이다.
June 15, 2026·TSX·kwanho.dev/notes/ai
kwanho.dev

Kwanho Kim. Software for robots, vision, and cars.

Links
GitHubLinkedInInstagramEmailCV

Contact

contact@kwanho.dev

Open to collaborations, freelance, and full-time roles.

© 2026 Kwanho Kim.

kwanho.dev · earprint.kwanho.dev · ai.kwanho.dev