인공지능의 분야

by 최윤호

인공 지능이 사용하는 데이터의 형태와 이에 따른 인공지능의 분야를 확인해 보겠습니다. 먼저 인공지능에 입력되는 데이터는 형태에 따라서 텍스트, 음성, 이미지, 숫자로 구분해 볼 수 있습니다.


1. 언어 AI - 인간의 글을 이해하고, 잘 쓰는 기술


우리가 일상적으로 사용하는 ChatGPT가 속한 분야입니다. AI가 텍스트를 읽고, 이해하고, 새로 만들어 내는 영역을 NLP(Natural Language Processing)라고 합니다. ChatGPT 기술인 LLM(Large Language Model)은 NLP 기술이 엄청나게 확장된 형태입니다.

언어 AI는 크게 두 가지 일을 합니다. 하나는 이해입니다. 문서를 읽고 요약하거나, 질문에 정확한 답을 찾는 작업입니다. 다른 하나는 생성입니다. 글을 작성하고, 이메일을 대신 써주고, 기획안을 정리하는 등의 작업입니다.

문서 자동화, 검색 고도화, 고객 챗봇, 기획서/기안서/보고서 등 생성 등 가장 폭넓게 활용되고 있습니다.


2. 음성 AI - 듣고, 말하고, 인식하는 기술


음성 AI는 텍스트와 달리, AI가 소리를 이해하거나 생성하는 분야입니다. 우리가 회의 녹음을 업로드하면 자동으로 회의록을 만들어주는 기능은 ASR(Automatic Speech Recognition) 기술을 사용합니다.

반대로 AI가 자연스러운 목소리로 말하는 것은 TTS(Text-to-Speech)입니다. 최근에는 특정 사람의 목소리 지문과 억양까지 따라 하는 ‘클로닝 TTS’, 그리고 기쁨, 슬픔과 같은 지문까지 반영하는 톤까지 빠르게 실용화되고 있습니다.

고객센터 자동화나 디지털 휴먼 제작에 자주 사용됩니다.


3. 시각 AI - 보며 이해하고, 새롭게 만들어내는 기술


시각 AI는 이미지 혹은 영상을 입력으로 받아, 이미지와 영상에 있는 객체를 탐지합니다. 전통적으로는 분류(Classification), 객체 감지(Object Detection), 얼굴 인식 같은 분석 중심 기술이 많이 사용되었습니다. 사진에서 등장인물에 맞게 자동으로 분류해 주는 기능, CCTV 영상에서 특정 행동을 감지하는 기능 등이 대표적입니다.

최근에는 Stable Diffusion, Midjourney 같은 이미지 생성 모델이 등장하면서 AI가 시각적 콘텐츠를 직접 생성할 수 있게 되었습니다. 영상 생성 역시 빠르게 발전하면서, 텍스트 프롬프트로 고품질의 영상을 만드는 Sora, Nano Banana 같은 기술도 등장했습니다.

산업 현장에서는 제조 공정의 불량 탐지, 의료 영상 분석, 마케팅 이미지 생성, 자동 기사 사진 생성 등 다양한 곳에서 활용되고 있습니다.


4. 예측 AI - 숫자의 패턴 속에서 미래를 예측하는 기술


예측 AI는 대부분 테이블 형식의 숫자 기반 데이터를 사용합니다. AI 분야 중에서는 가장 오래된 전통을 가진 영역이고, 기업의 경영과 가장 직접적으로 맞닿아 있습니다.

대표적인 기술로는 수요 예측, 이상 탐지, 추천 시스템, 시계열 예측 등이 있습니다. 여러 가지 복합적인 요소들을 고려할 때 다음 달의 예상 판매량을 예측하는 등에 사용됩니다.

GPT 같은 대형 모델이 나오기 오래전부터 XGBoost, Random Forest 같은 모델이 강력한 성능을 내며 제조, 금융, 리테일 등 전 산업에서 활용되었습니다.


언어, 음성, 시각, 예측이라는 네 가지 측면은 서로 독립적이지만, 최근에는 이들이 융합된 멀티모델 AI가 등장하면서 경계가 흐려지고 있습니다. AI가 텍스트도 보고, 이미지도 보고, 음성도 듣고, 그 모든 정보를 바탕으로 스스로 행동하는 '에이전트' 형태로 진화하고 있습니다.


참고

1) NLP. https://en.wikipedia.org/wiki/Natural_language_processing

2) LLM. https://en.wikipedia.org/wiki/Large_language_model

3) ASR. https://en.wikipedia.org/wiki/Speech_recognition

4) TTS. https://en.wikipedia.org/wiki/Text-to-speech

5) 컴퓨터 비전. https://en.wikipedia.org/wiki/Computer_vision

6) Stable Diffusion. https://en.wikipedia.org/wiki/Stable_Diffusion

7) Midjourney. https://en.wikipedia.org/wiki/Midjourney

8) Sora. https://en.wikipedia.org/wiki/Sora_(text-to-video_model)

9) Nano Banana. https://en.wikipedia.org/wiki/Nano_Banana

10) XGBoost. https://en.wikipedia.org/wiki/XGBoost

11) Random Forest. https://en.wikipedia.org/wiki/Random_forest

12) 멀티모델 AI. https://www.ibm.com/kr-ko/think/topics/multimodal-ai

13) AI 에이전트. https://www.ibm.com/kr-ko/think/topics/ai-agents


작가의 이전글OpenAI, 압도적인 만족도