AI란 무엇인가
"규칙을 짜는 것"에서 "스스로 배우는 것"으로
AI를 이해하는 출발점은 딱 하나의 전환이다. 사람이 규칙을 일일이 짜주는 대신, 기계가 예시(데이터)를 보고 규칙을 스스로 찾게 한다. 이 발상의 차이가 전부다.
AI ⊃ 머신러닝 ⊃ 딥러닝 포함 관계
딥러닝은 머신러닝의 한 방법이고, 머신러닝은 AI의 한 갈래. 요즘 화제(ChatGPT)는 가장 안쪽 딥러닝이다.
▶✅ 머신러닝이 규칙 기반과 결정적으로 다른 점은?
머신러닝의 핵심 아이디어
학습이란 결국 "함수의 손잡이를 맞추는 것"
머신러닝의 본질은 의외로 단순하다. 입력을 출력으로 바꾸는 함수를 찾되, 그 함수를 데이터에 맞게 조금씩 조정하는 것.
"집 크기 → 집값"을 예측한다면 가장 단순한 모델은 집값 = a × 크기 + b. 여기서 a와 b가 "손잡이"다. 이걸 학습으로 맞추는 것. GPT 같은 모델은 이 손잡이가 수천억 개일 뿐, 원리는 똑같다.
파란 점은 실제 데이터, 보라 선은 모델. 점들에 가장 잘 맞는 선이 되도록 손잡이(a, b)를 조정하는 게 학습이다.
학습의 세 가지 종류
정답을 주느냐, 안 주느냐, 보상을 주느냐
▶✅ '불량 검출' AI는 보통 어떤 학습일까?
뉴런과 퍼셉트론
뇌를 흉내 낸 가장 작은 계산 단위
인공 뉴런 하나가 하는 일은 단순하다. 여러 입력을 가중치로 섞어 더한 뒤, 일정 기준을 넘으면 신호를 내보낸다.
인공 뉴런의 3단계
입력에 가중치를 곱해 더하고(Σ), 활성화 함수를 통과시켜 출력을 낸다.
활성화 함수가 없으면 아무리 뉴런을 쌓아도 결국 직선(단순 비례)밖에 못 만든다. 활성화 함수(예: ReLU, "음수면 0, 양수면 그대로")가 비선형성(꺾임)을 넣어줘야 곡선·복잡한 패턴을 표현할 수 있다.
신경망의 구조
뉴런을 층층이 쌓으면 "깊은" 신경망
각 층의 뉴런이 다음 층과 연결된다. 정보가 왼쪽(입력)에서 오른쪽(출력)으로 흐른다.
이미지 인식을 예로 들면, 앞쪽 층은 선·모서리를, 중간 층은 눈·코·바퀴를, 뒤쪽 층은 얼굴·자동차를 잡는다. 사람이 특징을 알려주지 않아도 스스로 특징을 발견(feature learning)하는 게 딥러닝의 위력이다.
학습의 원리
경사하강과 역전파: 손잡이를 맞추는 법
손실을 "골짜기가 있는 지형"이라고 상상하자. 우리는 가장 낮은 곳(손실 최소)을 찾고 싶다. 방법은 단순하다. 지금 서 있는 자리에서 가장 가파르게 내려가는 방향으로 한 걸음 내딛기.이를 반복하면 골짜기 바닥에 도달한다. 이 "내려가는 방향"을 알려주는 게 기울기(gradient)다.
손실 지형에서 가장 가파른 내리막으로 조금씩 이동. "한 걸음 크기"가 학습률(learning rate)이다.
수억 개 손잡이 각각이 "오차에 얼마나 기여했는지" 알려주는 것이 역전파(Backpropagation)다. 출력에서 생긴 오차를 뒤에서 앞으로 거꾸로 전파하며, 각 가중치가 책임져야 할 몫을 계산한다.
과적합과 일반화
"외운 학생"과 "이해한 학생"의 차이
학습이 잘됐는지 판단하는 진짜 기준은 "본 적 없는 새 데이터를 맞히느냐"다. 이것을 일반화(generalization)라 하고, 그 반대 함정이 과적합(overfitting)이다.
왼쪽은 너무 단순, 오른쪽은 잡음까지 외운 과적합. 가운데처럼 "핵심 패턴만" 잡는 게 목표.
- ·데이터를 더 많이: 가장 확실. 다양한 예시를 보면 잡음에 덜 휘둘린다.
- ·정규화(Regularization): 손잡이가 과하게 커지지 않도록 벌점을 줘 모델을 단순하게 유지.
- ·드롭아웃(Dropout): 학습 중 뉴런 일부를 무작위로 꺼서 특정 경로에 의존하지 못하게.
- ·조기 종료: 검증 성능이 나빠지기 시작하면 학습을 멈춤.
CNN · 이미지를 보는 신경망
컴퓨터가 사진을 "이해하는" 방식
이미지·영상 분야의 혁명을 일으킨 구조가 CNN(합성곱 신경망)이다. 컴퓨터 비전·결함 검출 영역과 가장 직접 맞닿는 장이다.
CNN은 작은 창(필터)을 이미지 위에서 미끄러뜨리며(슬라이딩) 훑는다. 각 필터는 특정 특징, 예컨대 "세로 모서리", "둥근 곡선", "특정 질감"에 반응한다. 같은 필터를 이미지 전체에 쓰기 때문에, 물체가 어디에 있든 같은 특징을 찾아낸다(위치 불변성).
필터로 특징을 뽑고(합성곱), 요약하고(풀링), 깊어질수록 추상적 개념으로. 마지막에 분류 결과.
▶✅ CNN이 일반 신경망보다 이미지에 강한 이유는?
순차 데이터와 어텐션
문장처럼 "순서가 있는" 데이터 다루기
초기 방식인 RNN은 단어를 하나씩 읽으며 "지금까지의 요약"을 다음 단계로 넘긴다. 하지만 두 가지 한계가 있었다.
- ·긴 의존성에 약함: 문장이 길어지면 앞부분 기억이 희미해진다(장기 의존성 문제).
- ·순차 처리라 느림: 한 단어씩 차례로만 처리 가능 → 병렬화가 어려워 대규모 학습에 불리.
돌파구가 어텐션(Attention)이었다. 한 단어를 해석할 때 문장의 모든 단어를 한꺼번에 보되, 관련 깊은 단어에 더 큰 가중치를 둔다.
"피곤"을 해석할 때 어텐션은 멀리 떨어진 "동물"에 강하게 주목한다. 거리와 무관하게 관련 단어를 직접 연결.
트랜스포머
"Attention Is All You Need" · 현대 AI의 엔진
2017년 등장한 트랜스포머는 RNN을 버리고 오직 어텐션만으로 순차 데이터를 처리했다. ChatGPT의 "GPT"가 바로 Generative Pre-trained Transformer다.
LLM과 생성형 AI
ChatGPT는 결국 "다음 단어 맞히기"다
놀랍게도, 거대 언어모델(LLM)의 핵심 능력은 단 하나에서 나온다. "지금까지의 글 다음에 올 단어를 예측하기." 이 단순한 목표를 어마어마한 규모로 밀어붙였더니 번역·요약·코딩·추론까지 창발했다.
답을 한 번에 쓰는 게 아니라, 토큰을 하나씩 차례로 생성한다. 매 순간 "다음에 올 가장 그럴듯한 토큰"을 확률로 뽑고, 그걸 붙여 또 다음 토큰을 뽑는다. 약간의 무작위성(temperature)을 줘서 매번 조금씩 다른 답이 나온다.
▶✅ ChatGPT가 가끔 틀린 사실을 자신 있게 말하는 근본 이유는?
컨텍스트 · 프롬프트 · 인컨텍스트 학습
모델의 "작업 기억"을 다루는 법
LLM은 입력을 토큰으로 쪼개 처리한다(10장). 한 번에 읽고 기억할 수 있는 토큰 수의 한계가 컨텍스트 윈도우다. 초기엔 수천 토큰이었지만, 최신 모델은 수십만~수백만 토큰(책 여러 권 분량)까지 본다.
프롬프트 기법
RAG · 검색 증강 생성
모델에게 "커닝 페이퍼"를 쥐여주기
LLM의 약점은 ① 학습 시점 이후를 모르고 ② 회사 내부 문서가 없으며 ③ 모르면 지어낸다는 것. 이를 한 방에 푸는 대표 기술이 RAG(Retrieval-Augmented Generation, 검색 증강 생성)다. 요즘 기업 AI의 거의 표준.
질문이 오면 모델이 바로 답하는 게 아니라, 먼저 관련 문서를 검색해서 그 내용을 컨텍스트에 넣고, 그걸 근거로 답하게 한다. RAG는 문서와 질문을 모두 임베딩(벡터)으로 바꾸고,벡터 데이터베이스에서 의미가 가까운 조각을 찾는다.
- ·청킹(Chunking): 긴 문서를 검색하기 좋은 작은 조각으로 나누는 것. 조각 크기가 품질을 좌우.
- ·리랭킹(Re-ranking): 검색된 후보를 한 번 더 정밀하게 점수 매겨 정렬.
- ·하이브리드 검색: 의미 기반(벡터) + 키워드 기반(BM25)을 섞어 정확도↑.
- ·에이전틱 RAG: 모델이 "검색이 더 필요한가?"를 스스로 판단하며 반복 검색(15장 에이전트와 연결).
도구 사용 · 함수 호출 · MCP
말만 하던 AI가 "행동"하기 시작하다
LLM은 본래 텍스트만 생성한다. 계산도 틀리고, 오늘 날씨도 모르고, 실제로 실행하지도 못한다. 이 벽을 깬 것이 도구 사용(tool use)이다.
모델이 "내가 직접 답하는 대신 이 도구를 이렇게 써야겠다"고 판단해, 정해진 형식으로 도구를 호출하는 능력이 함수 호출(Function Calling)이다.
도구마다 연결 방식이 제각각이면 매번 새로 붙여야 한다. 이를 표준화한 것이 MCP(Model Context Protocol)다. 모델과 도구·데이터를 잇는 공통 규격으로, 비유하면 기기마다 다르던 충전 단자를 USB-C 하나로 통일한 것.
MCP라는 공통 규격 하나로 모델이 수많은 도구·데이터에 표준 방식으로 연결된다.
AI 에이전트와 하네스
스스로 계획하고 실행하는 AI
2025~2026년 AI의 최대 키워드는 단연 에이전트(Agent)다. 목표를 받아 스스로 계획을 세우고 도구를 써가며 여러 단계를 실행하는 AI.
에이전트는 이 루프를 자율적으로 돌린다. 계획하고, 도구로 실행하고, 결과를 보고, 다시 조정한다.
똑똑한 모델 하나만으론 신뢰할 수 있는 에이전트가 안 된다. 모델은 실수하고, 무한 루프에 빠지고, 위험한 행동을 할 수 있다. 그래서 모델 바깥에 이를 통제하는 코드 골격을 두는데, 이것을 하네스(harness) 또는 스캐폴딩(scaffolding)이라 한다.
하네스가 맡는 일
추론 모델 · 테스트타임 컴퓨트
"생각할 시간"을 주면 더 똑똑해진다
2025년 AI의 가장 큰 패러다임 전환. 모델을 더 크게 키우는 대신, 답하기 전에 더 오래 "생각"하게 만들어 성능을 끌어올리는 길이 열렸다.
추론 모델은 답 전에 "생각하는 시간"을 길게 쓴다. 어려운 문제에 강하다.
- ·OpenAI o1 (2024) → o3: 추론에 특화한 첫 상용 모델 계열. 수학·코딩·과학에서 도약.
- ·DeepSeek R1 (2025년 1월): 순수 강화학습만으로 o1급 추론을 달성하고 오픈소스로 공개해 충격. 비용도 크게 낮춤.
효율 · 아키텍처 · 멀티모달
더 싸게, 더 작게, 더 다양하게
AI와 반도체
왜 AI 혁명은 곧 반도체 혁명인가
AI의 발전은 알고리즘만의 이야기가 아니다. 그것을 굴릴 하드웨어(반도체)가 없으면 한 줄도 학습 못 한다.
신경망의 "입력×가중치 합산"(4장)은 수학적으로 행렬 곱셈이다. 층마다, 데이터마다 이 곱셈이 수십억 번 일어난다. 즉 딥러닝 = "같은 단순 계산을 천문학적으로 많이, 동시에". 이건 GPU가 가장 잘하는 일 그 자체다.
AI를 돌리는 칩들
반도체의 메모리 월이 AI에서 특히 심각하다. 모델이 거대해 가중치·데이터를 메모리에서 GPU로 끝없이 날라야 하는데, 그 통로가 좁으면 비싼 GPU가 논다. 그래서 HBM(고대역폭 메모리)이 AI 시대의 핵심 부품이 됐다.
AI가 반도체 수요를 키우고, 더 좋은 반도체가 더 강한 AI를 가능케 하는 선순환. KLA 같은 검사 회사도 이 흐름의 수혜자다.
AI의 한계와 리스크
강력하지만 만능은 아니다
- ·환각(Hallucination): 그럴듯하지만 틀린 내용을 자신 있게 생성(11장). 사실 검증이 필수.
- ·편향(Bias): 학습 데이터에 든 사회적 편향을 그대로 학습·증폭할 수 있다.
- ·블랙박스: 왜 그런 답을 냈는지 내부를 설명하기 어렵다(설명가능성 문제).
- ·데이터 의존: 학습에 없던 상황엔 약하다. 데이터 품질이 곧 성능.
- ·비용·에너지: 거대 모델 학습엔 막대한 전기·GPU·돈이 든다.
핵심 용어 사전
이것만 알면 AI 대화가 끊기지 않는다
모르는 게 나오면 여기로 돌아오자.