2021.09월
이번 학기는 기계학습, 인공지능 비전 인식 그리고 생체분자융합 강의를 듣고 있다. 세 과목 모두 각기 다른 특징이 있고, 교집합의 영역도 있다. 먼저 공통된 점은 모두 융합이라는 관점에서 세 과목이 하나의 범주 안에 들어올 수 있고, 각각의 연구 영역에서 나온 결과들을 컴퓨터 공학적 방법으로 데이터를 분석하여 색다른 의미를 도출해낼 수 있다는 점이다.
다른 점을 말해보자면 사실 요즘? 최근? 근래 10년? 들어와서 융합, 4차 산업 등을 통해 산업의 경계, 학문의 경계가 사라지고 있다 보니, 예전에는 같은 학과나 학부가 아니라면 전혀 접할 수 없는 영역에 있던 학문이다. 그래서 다른 점은 수도 없이 많다. 그럼에도 본인은 3가지 과목을 동시에 듣고 있고, 약 2주가량을 지내왔기에 다른 점을 하나씩 꼽아서 말해본다면, 기계학습은 코딩을 가장 많이 하고 있고, 직접적으로 딥러닝과 연결이 되고, 본 책의 주제와 가장 밀접하다고 말할 수 있다. 기계학습 과목의 과제를 하면서 많이 참조한 책이다.
인공지능 비전 인식은 제목 자체는 이 책과 관련성이 아주 높아 보이지만 실질적으로 상관도는 많이 떨어진다. 여러 분야의 교수들의 세미나를, 그것도 영어로 들으면서 수업을 진행하고 있으니, 인공지능도 어려운데 비전 인식도 어렵고, 각 교수들의 전문 영역도 어려운 터라 3과목 중 제일 기피하고 싶다. (왜 신청했을까?)
생체분자융합은 바이오 분야/유전체 분야의 논문을 써보기도 하였고, 가장 많이 공부한 분야이기 때문에 친숙하다. 더욱이 임상 의학적 내용을 많이 다루고 있기 때문에 실용적이기도 하고, 재미도 있는 분야이다.
세 과목의 다른 점을 이야기하다 보니 선호도라는 측면에서 글이 써지게 되었다.
결과적으로 이 책을 보면서 가장 많이 활용하고 있는 기계학습과 관련된 내용으로 같이 연결시켜서 소개하고자 한다.
CHAPTER 1 신경망 복습
CHAPTER 2 자연어와 단어의 분산 표현
CHAPTER 3 word2vec
CHAPTER 4 word2vec 속도 개선
CHAPTER 5 순환 신경망(RNN)
CHAPTER 6 게이트가 추가된 RNN
CHAPTER 7 RNN을 사용한 문장 생성
CHAPTER 8 어텐션
일반적으로 인공지능, 기계학습, 프로그램 언어의 첫 페이지의 내용에 나오는 일반적인 형태로 기초 개념에 대해 설명을 해주는 친절함을 볼 수 있다.
첫 장에서는 벡터와 행렬에 대해 기본적인 설명을 해주고 있다. 데이터 프레임을 만들고 각각의 연산을 위해 꼭 필요한 개념이다.
본인 역시도 처음 데이터를 분석할 때 기본 개념인 환경설정, 데이터 로딩, 전처리, 분석, 시각화의 프로세스를 거치고 있고, 책의 내용을 보면서 필요한 내용들을 참조하여 코딩을 하고 있다. 아래의 화면은 쥬피터 환경에서 파이썬을 활용하여 직접 코딩한 내용이다.
다시 본 책에 대한 내용으로 돌아오면, 딥러닝을 위하 우리가 많이 보던 신경망 추론에 대해 기본적인 개념부터 시작한다.
본 챕터에서 이용할 스파이럴 데이터셋의 설명 및 그래프를 확인할 수 있다.
신경망 구현을 위한 간단한 스크립트 예시이고, 파이썬에서 가장 많이 사용하는 pandas를 통해 분석을 한다.
본 책에서 가장 많이 다루는 자연어 처리(NLP) 부분이다. 아직 본인은 해당 내용에 대해 분석을 시작하지 않고 있고, 계획이 없기에 간단하게 소개만 한다.
1. 자연어 처리에 대해 간단한 개념 소개
2. Word2Vec을 활용한 자연어 처리
3. RNN의 기본 설명
5. RNN을 활용한 문장 생성
6. 문장 생성 계층 구성도
본 책은 위와 같은 구성으로 중고급 분석자들이 딥러닝을 활용하고, 실습하기 위해 구성되어 있다. 향후 1년 또는 수개월 내 NLP 분석을 하게 될 날이 올것인데, 그때에 더욱 심도있게 살펴볼 수 있을것 같다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."