brunch

자연어처리 공부 시작하기!

chatGPT를 위한 NLP 기초

by 별똥별 shooting star
image.png



1. 인공지능 Task 소개(feat.NLP)

인공지능의 Task에는 크게 세 가지가 있다. CV, NLP, RecSys이다.


CV(Computer Vision)는 컴퓨터 비전으로 이미지, 동영상 등을 처리하는 분야이며 사람의 눈에 해당하는 역할을 한다.

NLP(Natural Language Procssing)는 자연어 처리로 텍스트를 통해서 언어의 의미를 처리하는 분야이며 사람의 뇌에 해당하는 역할을 한다.

RecSys(Recommender System)은 추천 시스템으로 행동 데이터를 통해 사람들의 선호도 처리하는 분야이며 사람의 마음에 해당한다.


필자의 경우는 어릴 적부터 독서와 글쓰기를 좋아했기 때문에 위의 세 가지 분야 중 NLP를 선택해서 먼저 공부하기로 했다. 신기하게도 필자의 형제는 이미지를 다루는 것을 좋아한다. RecSys를 좋아하는 형제까지 한 명 더 있었다면 정말 재미있는 그림이 나왔을 것 같다.

여하튼 NLP를 선택했으니 이제부터 본격적으로 NLP에 대해서 다루고자 한다. NLP에 대해서 조금 더 보충 설명하자면 우리가 평소에 사용하는 말을 자연어(Natural Language)라고 한다. 이러한 자연어를 처리하는 분야를 NLP라고 하며 쉽게 이야기해 컴퓨터가 우리의 말을 알아듣게 만드는 것이다.

이쯤이면 NLP로 무엇을 할 수 있을지, NLP 공부는 어떻게 하는지 궁금증이 생겼을 것 같다. 이 부분에 대해서는 아래에 정리해놓았으니 참고하면 좋을 것 같다.



2. NLP Task

기계번역 : 한 언어의 문장을 다른 언어의 문장으로 변환

자동 요약 : 긴 문장을 짧게 요약된 문장으로 변환

질의응답 : 질문을 응답으로 변환

메일 자동 응답 : 받은 메일의 문장을 답변 글로 변환

챗봇 : 문자로 인간과 대화



3. NLP 커리큘럼

텍스트 데이터 전처리

텍스트 데이터 분포로 벡터화

워드 임베딩

RNN

게이트가 추가된 RNN(LSTM)

seq2seq

Attention

Transformer

Data Augmentation 및 성능 평가

BERT, GPT-3등 NLP 모델

NLP 프레임워크


NLP에 대한 간략한 개념과 NLP로 무엇을 할 수 있을지 Task를 간략하게 알아보았고 마지막으로 NLP를 공부하게 될 커리큘럼을 살펴보았다. 앞으로 커리큘럼을 바탕으로 블로그 포스팅을 펼쳐나갈 생각이다.
keyword