AI 개념 정리: 인공지능, 머신러닝, 딥러닝, LLM

AI 시대의 핵심 기술 이해: ML, DL, LLM을 넘어 데이터 활용의

by 김동린



output%EF%BC%BF2635408569.jpg?type=w1


AI 시대의 개념 혼돈과 보고서의 필요성

인공지능(AI)은 이제 우리의 일상과 산업 전반에 깊숙이 자리 잡고 있다. 뉴스와 미디어에서는 매일같이 AI의 발전과 잠재력에 대한 소식을 쏟아내고, 수많은 기업들이 AI 기술을 도입하거나 개발하고 있다. 하지만 과연 우리는 AI가 무엇인지 정확하게 알고있을까?

AI에는 머신러닝(Machine Learning, ML), 딥러닝(Deep Learning, DL), 그리고 최근 화제가 되고 있는 LLM(Large Language Model, 대규모 언어 모델)과 같은 다양한 기술들이 존재한다. 이 용어들은 종종 혼용되거나 그 관계가 명확히 기술되지 않아 많은 사람들에게 혼란을 준다. 결국 AI는 산업을 도와주는 '도구'이므로 도메인 지식을 가진 현업 관계자들에게 정확한 AI의 개념, 정의를 설명하지 못한다면 좋은 도구로서 기능하지 못할 것이다. '자동차'라는 큰 개념 안에 '내연기관차'와 '전기차'가 있듯, AI라는 큰 틀 안에 존재하는 여러 하위 기술들에 대한 이해가 필요하다.


output%EF%BC%BF1217261698.jpg?type=w1

인공지능(AI)의 이해

인공지능은 인간의 지능이 수행하는 인지, 학습, 문제 해결, 의사 결정 등의 기능을 컴퓨터가 수행할 수 있도록 만드는 기술 및 시스템을 총칭하는 광범위한 분야이다. 1956년 다트머스 회의에서 '인공지능'이라는 용어가 처음 등장한 이후, AI는 지난 수십 년간 다양한 발전 단계를 거쳐왔는데 초기에는 주로 논리 기반의 규칙 시스템에 초점을 맞췄다. 약 70년 정도 시간이 지난 현재의 AI는 데이터를 기반으로 학습하고 스스로 판단하는 능력에 중점을 둔다.

AI는 크게 두 가지 형태로 구분될 수 있는데, 특정 작업을 수행하는데 특화된 약한 AI(Narrow AI 또는 Weak AI)와 인간처럼 다재다능하게 생각하고 학습하는 강한 AI(General AI 또는 Strong AI)가 바로 그것이다. 앵무새처럼 빅테크에서 이야기하는 AGI 가 강한 AI 에 해당된다. 번역, 이미지 인식, 게임 플레이 등 다양한 영역에서 뛰어난 성능을 보여주고 있어 이제 단순히 기술적인 개념을 넘어 산업 혁신과 사회 변화를 이끄는 동력으로 자리매김했다.



머신러닝(ML)의 이해 - Rule Base 알고리즘에서의 탈출

머신러닝(ML)은 AI의 한 분야이다. AI가 인간처럼 생각하고 행동하는 기술이라면, 머신러닝은 컴퓨터가 명시적인 프로그래밍 없이 데이터로부터 학습하고 경험을 통해 성능을 개선하는 능력을 부여하는 기술이다. 기존의 프로그래밍이 "이렇게 해라"라고 규칙을 정해주는 방식이었다면, 머신러닝은 데이터를 주고 "이 데이터를 보고 스스로 규칙을 찾아라"라고 하는 방식과 같다.

머신러닝의 핵심 원리는 간단하다. 대량의 데이터를 컴퓨터에 입력하면 컴퓨터는 그 데이터에서 패턴을 찾아내고 이를 바탕으로 미래의 데이터를 예측하거나 분류하는 모델(Model, 장치)을 만든다. 새로운 데이터가 들어왔을 때 어떤 행동을 해야 할지 모델이 기준을 만들고 판단을 한다는 뜻이다.


머신러닝은 학습 방식에 따라 크게 3가지 유형으로 나뉜다.

1) 지도학습(Supervised Learning): 정답(레이블)이 있는 데이터를 이용해 학습.

예시 : 스팸 메일 분류 모델(정답 여부를 스팸인지 정상이지 여부로 구분)

2) 비지도학습(Unsupervised Learning): 정답이 없는 데이터를 이용해 데이터 내의 숨겨진 패턴이나 구조를 찾아낸다.

예시 : 고객 그룹 분류, 시장 세분화 등

3) 강화학습(Reinforcement Learning): 환경과 상호작용하며 시행착오를 통해 최적의 행동 전략을 학습한다.

예시 : 이메일 스팸 필터링 / 온라인 쇼핑몰 상품 추천 시스템 / 금융권 사기 거래 탐지 / 로봇 제어 등



ML의 진화된 형태 - 딥러닝(DL)의 이해

딥러닝(DL)은 머신러닝의 특정 분야이자, 특히 복잡한 데이터 속 추상적인 패턴을 학습하는데 특화된 기술이다. 딥러닝은 인간 뇌의 신경망 구조를 모방한 인공신경망(Aritifical Neural Network, ANN)을 기반으로 하며, 이 신경망이 여러 겹(수십, 수백개의 층)으로 깊게 연결되어 있다는 점에서 Deep(깊은) Learning 이라고 한다.

전통적인 머신러닝 모델은 데이터의 특징을 사람이 직접 추출하여 학습시키는 경우가 많았다. 예를들어, 이미지에서 고양이와 개를 구분하려면, 사람이 직접 '귀 모양', '수염 유무'등의 특징을 정의해줘야 했다. 하지만 딥러닝은 이러한 특징 추출 과정까지 스스로 학습한다! 즉, 원본 데이터(예: 고양이 이미지)를 입력하면 신경망의 각 층을 통과하면서 고양이의 특징을 스스로 계층적으로 학습하고 추상화한다는 것이다.


딥러닝은 다음과 같은 점에서 기존 머신러닝과 차별점을 가진다.

1) 특징 학습(Feature Learning): 사람이 수동으로 특징을 정의할 필요 없이, 데이터로부터 고차원적인 특징을 자동으로 추출하고 학습한다.

2) 대규모 데이터 처리 능력 : 방대한 양의 데이터에서 복잡하고 미묘한 패텬을 학습하는데 특히 강력하다.

3) 다양한 분야에서의 혁신 : 이미지 인식, 음성 인식, 자연어 처리 등 복잡한 패턴 인식이 필요한 분야에서 혁명적인 발전을 가져왔다.

스마트폰의 얼굴 인식 잠금 해제, 음성 비서(Siri, 빅스비 등), 자율주행 자동차의 주변 환경 인식 등이 딥러닝 기술의 대표적인 적용 사례이다.



딥러닝의 꽃 - 대규모 언어 모델(LLM)의 이해



SE-A45551B5-ACE1-4FF4-AF43-7BCAF1EEB085.jpg?type=w1 LLM계 1황 ChatGPT
떠오르는 강자 Gemini


LLM(대규모 언어 모델)은 딥러닝의 한 종류이며, 특히 자연어 처리(Natrual Language Processing, NLP)분야에서 혁명적인 발전을 이끈 모델이다. LLM은 이름에서 알 수 있듯이 '대규모'의 '언어' 데이터를 학습하여 인간의 언어를 이해하고 생성하는데 특화되어 있다. LLM은 인터넷에 존재하는 방대한 양의 텍스트 데이터(웹 페이지, 책, 논문, 대화 기록 등)를 학습시켜 언어의 문법, 의미, 문맥, 그리고 세상의 지식까지 함께 학습하게 된다. LLM의 핵심은 '트랜스포머(Transformer)'라는 딥러닝 아키테거에 기반을 두고 있다는 점인데, 이는 문장 내 단어들의 관계와 중요도를 파악하는 '어텐션 메커니즘(Attention Mechanism)'을 통해 언어의 복잡한 맥락을 효과적으로 이해할 수 있게 한다.


LLM의 주요 기능과 활용 분야는 다음과 같다.

- 질의응답 및 정보 검색 : 질문에 대한 답변을 생성하거나 특정 정보를 요약한다.

- 텍스트 생성 : 논문, 이메일,스토리, 시 등 다양한 형태의 창의적인 텍스트를 작성한다.

- 번역 : 문맥(Context)기반의 이해 능력을 가지고 있어 다른 언어로 매우 자연스럽게 번역한다.

- 요약 : 긴 문서를 핵심 내용으로 요약한다.

- 코딩 : 프로그래밍 코드를 작성하거나 디버깅하는데 도움을 준다.


ChatGPT, Gemini, Claude 등과 같은 인공지능 챗봇들이 바로 LLM 기술을 기반으로 작동한다. LLM은 단순한 정보 제공을 넘어 인간과 자연스러운 대화를 나누고, 복잡한 작업을 수행하며, 심지어 새로운 아이디어를 창출하는 수준에까지 도달하여 AI 활용의 새로운 패러다임을 열고있다.



개념 간 관계 및 계층 구조 명확화

이제 각 개념에 대한 이해를 바탕으로, 이들 간 관계를 명확히 살펴보자. AI, 머신러닝, 딥러닝, 그리고 LLM은 서로 독립적인 기술이 아니라, 포함 관계를 갖는 계층적 구조를 이룬다. 아래 다이어그램은 이 관계를 시각적으로 보여준다.


image.png?type=w1 토스뱅크에서 쓰는 자료 줍줍... 사진 찍어왔다.

- AI(Artificial Intelligence) : 가장 큰 개념, 인간의 지능을 모방하는 모든 기술을 포괄

- ML(Machine Learning) : AI의 하위 분야로, 데이터를 통해 학습하여 성능을 개선하는 방식을 지칭. 모든 머신러닝은 인공지능이지만, 모든 인공지능이 머신러닝은 아니다.(예시 : 초기에 만든 규칙 기반의 AI는 ML에 속하지 않는다.)

- DL(Deep Learning) : ML의 하위 분야로, 특히 심층 신경망을 사용하여 데이터에서 복잡한 패턴을 학습하는 방식. 모든 딥러닝은 머신이지만, 모든 머신러닝은 딥러닝이 아니다(예 : 선형 회귀, 서포트 벡터 머신 등은 ML이다. DL이 아님)

- LLM(Large Language Model) : DL의 하위 분야이자 특정 응용 분야. 방대한 텍스트 데이터를 학습하여 언어를 이해하고 생성하는 딥러닝 모델을 특별히 지칭. 모든 LLM은 딥러닝 모델이지만, 모든 딥러닝 모델이 LLM은 아니다. (예: 이미지 인식 딥러닝 모델은 LLM이 아니다)


요약하건데, LLM은 딥러닝 기술을 활용한 머신러닝 모델의 일정이며, 이. 모든 것은 궁극적으로 인공지능이라는 큰 목표를 달성하기 위한 수단이라고 할 수 있다. 마치 '한국인'이라는 큰 집단 안에 '서울 사람'이 있고, 그 서울 사람 중에 '강남 사람'이 있는 것과 유사한 관계이다.



LLM 시대, 데이터의 역할 변화와 새로운 기회

최근 LLM을 활용한 다양한 API 서비스가 등장하면서 많은 사람들이 기존 머신러닝(ML)이나 딥러닝(DL) 시대처럼 여전히 막대한 양의 데이터를 직접 수집하고 가공해야 한다고 오해하는 경우가 많다. 하지만 LLM 시대에는 데이터의 역할과 활용 방식에 근본적인 변화가 일어나고 있다. 기존 ML/DL 프로젝트에서는 특정 문제(예: 이미지 분류, 음성 인식)를 해결하기 위해 해당 문제에 특화된 대규모의 정제된 데이터를 수집하고, 이를 직접 모델에 학습(Train)시키는 것이 필수적이었다. 막대한 시간과 비용, 그리고 전문 인력을 요구되어 "데이터가 곧 경쟁력"이라는 말이 통용될 수 밖에 없는 환경이다.

하지만 LLM은 이미 웹의 방대한 지식을 학습하여 언어 이해 및 생성 능력을 '완성된 지식의 샘'처럼 갖추고 있다.따라서 대부분 LLM 기반 서비스는 새로운 모델을 처음부터 학습시키는(Pre-training)방식이 아니라, 이미 학습된 LLM을 활용하는 방식으로 이루어진다. 이는 마치 거대한 도서관을 이미 지어놓고 필용한 책만 찾아 읽거나, 기존 도서관에 새로운 섹션을 추가하는 것에 비유할 수 있을 것이다.



그렇다면 LLM 시대에 데이터는 더 이상 중요하지 않을까? 그렇지 않다. 오히려 그 중요성은 다른 방향으로 진화하고 있다.

- Fine-tuning (미세 조정)을 위한 소량의 고품질 데이터 : 특정 도메인이나 업무에 LLM을 더 잘 맞추기 위해 소량의 특화된 데이터를 활용하여 모델을 미세 조정할 수 있다. 이는 모델의 성능을 향상시키지만, 기존 ML/DL처럼 수십억 개의 데이터를 직접 학습시키는 것과는 차원이 다르다.

- RAG (Retrieval Augmented Generation)를 위한 데이터 : LLM은 세상의 모든 실시간 정보를 알지는 못한다. 특정 기업의 내부 문서, 최신 뉴스, 전문 지식 등 LLM이 학습하지 못한 정보를 활용하여 답변의 정확성과 신뢰성을 높이기 위해 RAG와 같은 기술이 중요해진다. 이 경우, 데이터를 모델에 직접 학습시키는 것이 아니라, 검색 가능한 형태로 잘 정리하여 LLM이 필요한 시점에 참조하도록 하는 것이다. 즉, LLM이 '지식'을 직접 생성하는 대신 '참조'하여 답변을 '증강'시키는 역할이다.

- Agent (에이전트) 설계를 위한 데이터 및 로직 : LLM을 단순히 텍스트 생성 도구가 아닌, 복잡한 작업을 수행하는 '지능형 에이전트'로 만들기 위해서는 데이터뿐만 아니라, 특정 도구와 상호작용하는 방법, 의사결정 로직, 작업 흐름 등에 대한 설계가 중요해진다. 이는 데이터 자체의 양보다는 데이터의 '활용 방식'과 '구조화'에 더 초점을 맞춘다.


LLM 시대에는 "무조건 많은 데이터를 모아서 모델을 처음부터 학습시켜야 한다"는 부담에서 벗어나, 기존 LLM을 어떻게 우리 서비스와 목적에 맞게 영리하게 활용할 것인가에 대한 고민이 더 중요해졌다. 데이터를 바라보는 관점의 변화이자, 개발자들이 LLM을 활용하여 새로운 가치를 창출할 수 있는 더 많은 기회를 제공한다.



명확한 이해를 통한 AI 시대의 현명한 활용

AI, 머신러닝, 딥러닝, 그리고 LLM 까지, 이 모든 용어들을 명확하게 이해하는 것은 단순히 기술적 지식을 습득하는 것을 넘어 우리가 살고있는 AI 시대를 올바르게 인식하고 대응하는데 있어 필수적이라 생각한다. 자칫 개념의 혼돈은 기술에 대한 과도한 기대 혹은 불필요한 두려움을 낳을 수 있다. LLM의 한계나 오작동을 인공지능 전체의 문제로 오해하거나, 반대로 AI를 맹신하여 현실적인 적용 범위를 벗어나는 기대를 하지 않았으면 좋겠다. 각 기술의 특징과 한계를 명확히 인지하여 더 효율적으로 활용하고 잠재적 위험에 대비하자. AI 기술은 오늘도 진화중이다.

keyword
작가의 이전글지금 당장 AI에게 말을 걸어보자