brunch

You can make anything
by writing

C.S.Lewis

by 김형복 May 30. 2022

✍ 합성 데이터가 AI에 미치는 영향

 데이터는 빠르게 발전하는 AI 시대의 새로운 석유라고 불린다. 하지만, 정확한 데이터를 수집하고 처리하는 것은 비용과 시간이 많이 소요된다. 따라서 오늘날 많은 사람들이 합성 데이터로 알려진 저렴하고 효과적인 자체 연료를 만들고 있다. 합성 데이터는 실제 세계에서 수집되거나 측정되지 않고 디지털 환경에서 생성된다. 그리고 이 합성 데이터는 수학적으로나 통계적으로 실제 데이터를 반영하여 인위적으로 생성된다. "아니 가짜 데이터가 효과가 있을 리가?"라고 생각할 수 있지만, NVIDIA의 연구[1,2,3]에 따르면 실제 객체, 이벤트 또는 사람을 기반으로 하는 데이터보다 AI 모델을 학습하는데 더 나은 대안이 될 수 있다고 말한다.

Research at NVIDIA: Generating and Editing High-Resolution Synthetic Images with GANs


합성 데이터에 대한 향후 전망

 Forbes는 2022년의 5대 데이터 과학 트렌드로 합성 데이터를 선택했으며, Gartner 또한 2022년 이후의 최고의 전략적 예측(the top strategic predictions) 중 하나로 합성 데이터 선정했다. 시간 절약(time-saving)이 오늘날 AI 개발의 핵심 요소라는 점을 감안할 때, 새로운 합성 데이터는 AI 시스템을 위한 강력한 힘이 될 것으로 보인다. AI 시스템이 인간의 두뇌처럼 세상을 보고 이해하도록 훈련시키기 위해 일반적으로 100,000개의 실제 이미지를 수집, 가공을 하는 20주라는 힘든(laborious) 시간이 소요된다. 이는 머신 러닝 프로젝트 시간의 80%에 달한다. 따라서, 합성 데이터가 이끄는 혁신으로 우리는 몇 년 안에 데이터에 대한 관점과 AI를 훈련하는 방식이 크게 바뀌는 것을 보게 될 것이다.  

Gartner의 합성데이터에 대한 예측 자료


 합성 데이터에 대한 Gartner의 2021년 6월 보고서에 따르면 2030년까지 AI에 사용되는 데이터의 대부분은 규칙, 통계 모델, 시뮬레이션 또는 기타 기술에 의해 인위적으로 생성될 것이라고 말하고 있다. "The fact is you won’t be able to build high-quality, high-value AI models without synthetic data."라고 보고했다. 더 이상 합성 데이터 기술 없이는 고품질의 데이터를 확보할 수 없다는 뜻이다.


합성 데이터가 최고의 AI를 만들 수 있을까?

 오늘날의 급변하는 환경에서는 학습 데이터, 즉 개인 정보 보호 규정을 충족하는 교육 데이터와 더 빠르게 주석을 달 수 있는 데이터에 대한 민주화된 액세스가 필요하다. 합성 데이터는 이러한 요구 사항을 충족하는 데 도움이 될 수 있다. AI 시스템에는 '실제' 또는 '합성'이 없다. AI를 이해시키기 위한 ‘학습’ 데이터만 있을 뿐이다. AI 훈련을 위한 합성 데이터 생성 플랫폼은 몇 달이 아닌 며칠 만에 필요한 수천 개의 고품질 이미지를 생성할 수 있다. 그리고 이 방법을 통해 데이터가 생성되기 때문에 개인 정보 보호 문제가 없다. 동시에 실제 시각적 데이터에 존재하는 편향을 쉽게 해결하고 제거할 수 있다. 또한 이러한 컴퓨터 생성 데이터 세트에는 자동으로 레이블이 지정되며 드물지만 중요한 코너 케이스를 의도적으로 포함할 수 있다.     


1. 개인정보 문제 해결

2. 데이터 편향 문제 해결

3. 자동 레이블

4. 코너 케이스 문제 해결     


요약 

합성 데이터의 모든 이점과 실제 개선 사례를 고려할 때, 합성 데이터가 AI 학습 혁명을 불러올 잠재력이 있음을 부인할 수 없다. 이를 잘 사용하면 AI의 진정한 잠재력을 더 발견하고 탐구할 수 있을 것이다. 또한 합성 데이터가 제공하는 무한한 유연성은 필요한 모든 데이터를 생성함으로써 획기적인 도약을 가능하게 할 것이다.



[1] Tremblay, Jonathan, et al. "Deep object pose estimation for semantic robotic grasping of household objects." arXiv preprint arXiv:1809.10790 (2018).

[2] https://developer.nvidia.com/blog/generating-and-editing-high-resolution-synthetic-images-with-ga ns/

[3] https://developer.nvidia.com/blog/generating-synthetic-datasets-isaac-sim-data-replicator/

[4] https://analyticsindiamag.com/how-synthetic-data-might-impact-ai-in-2022/

매거진의 이전글 ✍ AI 시스템, 구슬이 서 말이라도 꿰어야 보배
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari