brunch

매거진 AI 엔지니어 첫걸음

라이킷 15 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 뭅즤 Aug 13. 2023

AI 엔지니어는 어떤 일을 할까?

AI Researcher & AI/ML Engineer 의 업무

지금까지 경험한 컴퓨터 비전 도메인에서의 AI 엔지니어링 업무에 대해 공유하려 합니다. 다만 AI 엔지니어나 컴퓨터 비전 엔지니어의 경우 산업 및 팀마다 업무 영역이 조금씩 다를 수 있으니 참고 부탁드립니다.

저는 IT 플랫폼 회사에서 특정 서비스의 AI와 컴퓨터 비전 관련 개발을 담당하는 엔지니어입니다. 이로 인해 해당 서비스에서 필요한 기술이 기획 단계에서 요청되기도 하며, 팀 내에서는 '이 기술을 개발할 수 있을까?'라는 질문을 통해 프로젝트가 시작되기도 합니다.

AI 엔지니어의 업무 흐름

프로젝트가 시작된 후, 우선 필요한 기술을 조사하기 시작합니다. 관련 논문을 찾거나 국내외에서 유사한 프로젝트를 조사하는 등의 절차를 거치게 됩니다. 기본적인 계획이 마련되면 필요한 데이터를 수집하여 AI 모델을 학습하고 평가하는 과정을 진행합니다. 실험을 통해 발생하는 문제를 해결하기 위해 AI 모델을 고도화하거나 전후처리 기능을 개발하는 작업을 수행합니다. AI 모델이 일정 수준 완성되면 인퍼런스 속도를 높이거나 경량화하는 인퍼런스 최적화 과정을 거칩니다. 그리고 산업 및 서비스에 적합한 모델 배포 방법을 찾아 AI 모델을 배포하고, 실제 사용 데이터를 분석하여 AI 모델을 재학습하는 유지 보수 과정을 수행합니다.

이 과정에서 프로젝트의 방향이 변경될 수 있거나 예상보다 성능이 나오지 않아 개발 일정이 조정되기도 하며, 때로는 프로젝트가 완전히 중단될 수도 있습니다.

프로젝트 시작

앞서 설명했듯이 프로젝트는 기획의 요청에 따라 시작될 수도 있고, 팀 내에서 필요에 따라 자발적으로 시작되기도 합니다. 프로젝트의 성격에 따라 필요한 기술 스택이 달라지기 때문에 다양한 프로젝트에 참여하거나 빠르게 적응하기 위해서는 개인적으로 다양한 경험을 쌓고 새로운 분야를 신속하게 습득하는 능력이 중요합니다.

기술 서베이

프로젝트가 정해졌다고 해서 필요한 기술이 명확하게 정해지는 것은 아닙니다. 해결해야 할 문제나 제공해야 할 서비스가 정의되었지만, 이를 실제로 구현하기 위해 필요한 기술은 아직 논의되지 않았습니다. 따라서 문제를 명확하게 정의하고 필요한 기술을 상세히 조사하는 과정이 필수적입니다.

이 과정에서는 여러 논문을 조사하고 실제로 개발 가능한 기술인지를 평가합니다. 학습 데이터의 양, 공개된 pre-trained 모델의 유무, 필요한 GPU 리소스, 상업적 라이센스 등 현실적인 문제들을 면밀히 검토해야 합니다.

기술 서베이 단계에서 놓치는 부분이 있다면, 이후 데이터 수집이나 AI 모델 학습 과정에서 되돌아가야 할 수도 있기 때문에 철저한 준비가 필요합니다.

데이터 수집

술 서베이가 일정 수준 완료되면, 학습에 필요한 데이터를 수집해야 합니다. 먼저 공개된 데이터셋을 수집하고, 우리가 해결해야 할 문제에 적합한 데이터를 별도로 모으며 GT(Ground Truth, 정답 정보)를 생성하는 과정도 포함됩니다. 예를 들어 음식 분류기를 개발한다고 가정할 때, 공개 데이터셋은 주로 서양 음식에 대한 정보가 많기 때문에 우리나라 음식을 분류하기에는 부족할 수 있습니다. 이처럼 연구용으로 공개된 데이터셋만으로는 실제 서비스나 제품에 적합한 AI 모델을 개발하기 어려우므로, 데이터를 구축하는 과정이 필수적입니다.

회사 내에서 데이터 구축을 담당하는 인력이 있는 경우도 있고, 외부 인력을 활용하기도 합니다. 단순히 "어떤 데이터를 수집하고 정답 정보를 만들어주세요"라고 요청하고 기다리는 것만으로는 양질의 학습 데이터를 확보하기 어렵습니다. 지속적인 피드백과 관리 감독이 필요합니다. 최근에는 labeling을 쉽게 할 수 있는 도구나 일부 정답 데이터를 사용해 학습하는 방법이 성능 향상에 기여하고 있어, 이러한 접근 방식을 고려할 필요가 있습니다.

특히 AI 모델의 성능은 이미 포화된 상태이기 때문에, Data-centric한 관점에서 양질의 학습 데이터를 수집하는 것이 프로젝트의 성공에 매우 중요합니다.

AI 모델 학습 & 평가

학습 데이터를 구축한 후에는 AI 모델을 학습시키고 다양한 상황에서 정량적 및 정성적으로 평가하는 과정을 거칩니다. 이 과정에서 초기 결과를 바탕으로 추가적인 학습 데이터가 필요한지를 판단해야 합니다. 정량적 평가 뿐만 아니라 다양한 시나리오를 통해 모델 성능이 어떤 경우에 떨어지는지를 분석해야 합니다.

AI 모델 고도화 & 전후처리 기능 개발

모델을 학습하고 평가하면서 프로젝트에서 요구되는 성능까지 모델을 고도화하는 과정도 필요합니다. 이 과정에서는 양질의 학습 데이터를 추가로 수집하거나, 도메인과 태스크에 맞는 적절한 학습 방법을 시도하거나 모델의 구조를 수정하는 방법 등을 고려합니다. 특히 전후처리 기능을 개발하여 AI 모델의 예측을 보완하는 경우도 있습니다. 실제로는 모델 학습보다 전후처리 기능 개발에 더 많은 시간이 소요될 수 있습니다.

컴퓨터 비전이나 자연어 처리와 같은 분야에서는 딥러닝 뿐만 아니라 머신러닝 방법이나 다양한 전통적인 알고리즘이 사용됩니다. 이들은 단독적으로 사용되기보다는 전후처리 과정에서 자주 활용되므로 경험이 중요한 요소가 될 수 있습니다.

모델 인퍼런스 최적화

AI 모델의 학습이 어느 정도 완료되면 인퍼런스 최적화 단계를 진행합니다. 모델이 경량화되고 더 빠르게 작동할수록 비용 효율적입니다. 대다수의 AI 모델은 GPU 서버를 사용하므로 인퍼런스 속도를 개선하는 것은 매우 중요합니다. 특히 엣지 디바이스 등에 AI 모델을 탑재할 때는 모델 경량화가 필수적인 이슈가 될 수 있습니다.

모델 배포

AI 모델이 준비되었다면 이제 어떻게 사용할지 결정하고 적절한 모델 배포 방법을 선택합니다. 프로젝트의 성격과 산업 요구 사항에 따라 다양한 배포 전략을 고려할 수 있습니다.

모델 유지 보수

AI 모델을 배포한 후에도 작업은 끝나지 않습니다. 지속적으로 모델을 유지 보수하며 다양한 유형의 데이터를 기반으로 모델을 개선하고 보완해야 합니다. 새로운 데이터로 인해 발생하는 다양한 오류 케이스를 해결하기 위해 학습 데이터를 업데이트하거나 전후처리 기능에서 예외 처리를 구현하는 등의 작업이 필요합니다.

경험을 토대로 AI 엔지니어의 업무 사이클에 대해 간략하게 살펴보았습니다. 하지만 AI 엔지니어의 업무는 다양하며, 설명한 내용 중 일부 과정을 맡을 수도 있고 다른 업무를 담당할 수도 있음을 참고해 주세요.

AI 엔지니어