머신러닝은 왜 써야 할까?
우리의 일상에서 인공지능은 생각보다 가까운 곳에 있습니다. 특히, 인공지능 중 자주 언급되는 머신러닝, 딥러닝은 어려운 분야에서만 활용되는 것이 아닌 우리의 하루 일과와 계속 함께하고 있다고 해도 과언이 아닌데요. 오늘은 기계가 스스로 판단하고 스스로 결정할 수 있도록 도와주는 인공지능 머신러닝에 대해 알아보겠습니다.
머신러닝 왜 사용하는 걸까?
우리가 자주 사용하는 이메일에서도 머신러닝은 이뤄지고 있습니다. 바로 메일함의 '스팸 메일 자동 분류' 기능인데요. 업무상으로 중요한 메일이 들어왔으나 간혹 스팸메일로 분류되어 난감했던 경험은 한 번쯤 있으셨을 것입니다. 이처럼 내가 수신한 이메일이 스팸메일인지 분류해 주는 기능도 머신러닝의 응용 기술이라 할 수 있는데요. 우리가 만약 스팸 메일을 일일이 분류한다면 아마 그 피로도는 상당할 것입니다.
스팸메일이 하루 한 두통 오는 정도라면 괜찮겠지만 정보의 홍수 속에서 사는 우리는 하루에 수십 통, 한 달에는 수백 통의 스팸 메일을 받고 있어서 이 메일을 분류하는 데만 해도 상당 시간이 투입될 것입니다.
또한 메일 제목만 보고 스팸메일로 분류할 수도 있고 귀찮을 때 스팸메일이 아님에도 불구하고 바로 스팸메일로 분류하게 될 경우도 있는데요. 이처럼 대량의 데이터를 빠른 속도로 최대한 정확하게 처리할 수 있다는 점에서 머신러닝의 활용은 필수입니다. 사람은 지칠 수 있지만 컴퓨터는 지치지 않고 일정한 판정 기준으로 일관된 판단을 내릴 수 있기 때문이죠.
물론 우리의 업무 메일이 스팸메일로 분류된 것처럼 간혹 실수도 있지만 판단 정밀도를 통해 실용적으로 사용할 수 있을지 판단하고 사용하면 정확도는 더 높아질 수 있습니다.
그래서, 머신러닝은 대체 뭘까?
머신러닝은 인간이 규칙을 알려주지 않고 컴퓨터가 스스로 주어진 데이터에서 통해 규칙을 만들어내는 기술입니다. 하지만 그 어떤 데이터도 없는 상태에서 규칙은 만들어낼 수 없는데요. 즉, "사람이" 제공한 불완전한 규칙에 대해 "사람이" 제공한 데이터를 토대로 스스로 더 나은 규칙을 수정해 나는 것이라고 볼 수 있습니다.(인용 : 가장 쉬운 AI 입문서)
아무것도 없는 백지상태에서 데이터를 투입했을 때 규칙을 구축하는 것이 아니며, 주어진 데이터를 바탕으로 더 나은 규칙을 만들어야 하기 때문에, 머신러닝은 반드시 대규모 데이터가 필요합니다. 또, 주어진 데이터는 문제에 맞는 내용이어야만 합니다. 가령 금융과 관련된 데이터를 해석하고 싶은데 의료 관련 데이터를 투입하면 안 되는 것처럼 말이죠. 즉. 머신러닝에 필요한 데이터는 솔루션으로 구축해야 하는 분야에 특화된 데이터여야 합니다.
이처럼 사람이 제공한 불완전한 규칙을, 사람이 제공한 데이터를 컴퓨터가 스스로 더 나은 규칙으로 수정하도록 하는 행위를 머신러닝은 '학습'이라고 표현하고 있습니다.
머신러닝에도 종류가 있을까?
머신러닝도 여러 가지 종류로 나뉘는데요. 크게 세 가지 학습 방법이 있는데요. 지도형/비지도형 /강화형 머신러닝으로 나눌 수 있습니다.
지도형 머신러닝은 머신러닝에서 가장 사용 빈도가 높은 방법인데요. 미리 정답 데이터를 제공하면 규칙과 패턴을 스스로 학습하는 방법입니다. 이를 '학습 훈련 데이터'라고 하며, 컴퓨터는 이 학습 훈련 데이터에서 일정한 규칙과 패턴을 학습합니다. 지도형 머신러닝은 '분류'하는 것이 가장 큰 특징이며, 단계별로 데이터를 분류해야 하는 작업으로는 이 지도형 머신러닝이 적합합니다.
다음은 비지도형 머신러닝인데요. 학습 훈련 데이터를 제공하지 않고 시행하는 방법으로 정의할 수 있습니다. 앞서 지도형 머신러닝에서는 미리 준비해둔 학습 데이터를 토대로 규칙을 만들어 결과를 출력하는 '분류 작업'에 적합한 방식인데요. 비지도형 머신러닝은 정답 데이터를 제공하지 않는 학습 방법으로, 정답을 알 수 없거나 정답이 없는 데이터를 사용할 때 비지도형 머신러닝을 활용할 수 있습니다. 즉, 데이터 자체가 가지고 있는 규칙성을 추출하는 방식이며 이는, 데이터에 명확한 정답만 없을 뿐 주어진 데이터는 모두 학습된 데이터와 같다고 할 수 있습니다.
마지막으로 '강화 학습'이 있습니다. 우선 강화 학습은 특정한 상태에서 다양한 행동을 평가하고 더 좋은 행동이나 결과를 스스로 학습하는 것인데요. 몇 년 전 이세돌과 대결을 펼쳤던 '알파고'를 예로 들 수 있습니다. 강화 학습은 지도형 머신러닝과 같이 학습 훈련 데이터(명확한 정답)을 제공하지 않지만 행동을 선택할 수 있는 선택지를 제공하고, 학습을 통해 선택한 행동이 맞는지/틀린 지를 판정하는 기준을 사람이 제공하게 됩니다. 이럴 경우 컴퓨터는 사람이 지정한 범위 내에서 시행착오를 반복하며 학습하게 되는 것입니다.
각각의 머신러닝 종류를 알기 쉽게 예를 들어보자면 아래와 같습니다.
지도형 머신러닝:
새롭게 입력된 정보가 맞는지/틀린 지 바로 구별할 수 있는 기능 개발
비지도형 머신러닝:
접근 가능한 많은 정보 중 좋은 정보와 나쁜 정보로 나누는 기능
강화 학습: 고객에게 서비스를 제공 후 즉각적인 좋은 반응을 이끌어내는 로봇 개발
머신러닝은 복잡한 것 같지만 알고 보면 우리 생활에서 실제로 널리 적용되고 있고, 학습 형태에 따라 구분할 수 있다는 것을 살펴보았는데요. 인공지능으로 무엇이든 처리할 수 있는 AI 시대에 가까워진 만큼 머신러닝이 우리 생활에 어떻게 적용될지 주목됩니다.
한국딥러닝 자체 Vision - LLM 딥러닝 기술로
AI OCR, 이미지 이해 최고성능 시각지능을 구현합니다.
https://www.koreadeep.com/