AI 시대, 공공데이터 활용 진화 단계

by 마경근

공공데이터와 LLM 기술의 결합이 우리 사회에 가져올 변화는 가히 혁신적이다. 하지만 그 과정은 단순히 기술을 적용하는 것을 넘어, 데이터의 본질을 이해하고 아키텍처를 정교하게 설계하는 인내의 과정을 필요로 한다.

국토교통부가 매일 쏟아내는 부동산 실거래 데이터는 우리 경제의 거울이지만, 정작 일반인들에게는 그림의 떡이다. 공공데이터 포털에서 엑셀 파일 하나 내려받는 것부터가 고난의 시작이기 때문이다. 이제는 이 데이터를 어떻게 다루어야 하는지, 기술적 진화의 단계를 하나씩 짚어본다.


Gemini_Generated_Image_fk4bl6fk4bl6fk4b.png


0단계: 데이터의 범람과 역설적 빈곤

현재 공공데이터 활용의 가장 큰 문제점은 데이터가 넘쳐나는데 정작 '내가 원하는 정보'는 찾기 힘들다는 것이다.

진입 장벽의 고통: 부동산 데이터를 제대로 분석하려면 국토부 실거래가 정보, 행정안전부 주소 체계, 통계청 인구 이동 데이터를 모두 합쳐야 한다. 하지만 스키마(Schema)가 제각각이라 파이썬으로 판다스(Pandas)를 돌려도 데이터 정제에만 하루 꼬박 '삽질'하기 일쑤다.

데이터 민주주의의 실종: SQL을 짜거나 프로그래밍을 할 줄 아는 소수만 이 정보를 독점한다. 공공재인 데이터가 모두를 위해 쓰이지 못하고 하드디스크 속에서 사장되는 현실을 보면 가끔 '현타'가 온다.

활용 실적의 미미함: 수십억 원의 예산이 투입된 데이터가 단순히 '개방'에만 의의를 두고 있다. 활용되지 않는 데이터는 죽은 데이터나 다름없다.


1단계: Text-to-SQL, 데이터와 대화하는 시대의 서막

LLM이 등장하면서 우리는 비로소 데이터와 대화하기 시작했다. 사용자가 자연어로 질문하면 시스템이 이를 SQL 쿼리로 번역해 주는 단계다.

1. DB 저장 및 변환: 공공데이터를 DBMS에 밀어 넣고, LLM이 사용자의 질문("작년 서초구 아파트 최고가는?")을 SQL로 바꾼다.

2. 결과 반환: DB에서 뽑아온 데이터를 다시 LLM이 보기 좋게 가공해 사용자에게 답한다.

하지만 한계는 명확하다. DB에 없는 내용, 예컨대 "최근 금리 인상이 가격에 미친 영향은?" 같은 질문에는 답할 수 없다. LLM이 SQL로 변환할 수 없는 복합적인 맥락을 만나면 입을 꾹 닫거나 엉뚱한 소리를 하는 '환각(Hallucination)' 현상이 발생한다.


2단계: 멀티 에이전트(Multi-Agent) 시스템, 협업의 지성

1단계의 제약을 넘기 위해 '호스트 에이전트'가 여러 명의 전문 '서브 에이전트'를 지휘하는 팀 구조가 등장했다.

1. 역할 분담:

SQL 에이전트: 실거래가 수치를 정확히 뽑아낸다.

RAG 에이전트: 정부의 '부동산 대책' PDF 문서를 뒤져 규제 사항을 요약한다.

검색 에이전트: 최신 뉴스에서 금리 추이를 파악한다.

2. 통합 답변: 호스트 에이전트는 이 정보들을 취합해 "규제와 금리 인상이 맞물려 거래량이 급감했다"는 입체적인 분석을 내놓는다.

오케스트레이션의 난관: 다만 에이전트들이 서로 말을 안 듣거나 정보가 꼬일 때가 많다. 이들을 정교하게 통제하는 오케스트레이션(Orchestration) 설계가 엔지니어의 최대 고민거리가 된다.


3단계: 딥 에이전트(Deep Agent), 자율적 추론의 완성

마지막 3단계는 LangGraph 같은 기술을 활용해 에이전트가 스스로 '사고의 경로'를 설계하고 검증하는 딥 에이전트 단계다.

상태 기반 워크플로우(State Management): 질문의 의도를 파악하고, 수집된 정보가 부족하면 스스로 이전 단계로 돌아가 보완한다. 단순한 호출 구조를 넘어선 '사고의 루프'를 형성한다.

실제 프로덕션의 정교함: 네트워크 지연이나 데이터 정합성 문제까지 스스로 계산하며 최적의 답을 찾아낸다.

본질적인 아키텍처: 이제는 "어떤 모델을 쓰느냐"보다 "비즈니스 로직을 에이전트 아키텍처에 어떻게 녹여내느냐"가 실력이 된다. 부동산 시장의 복잡한 변수들을 자율적으로 추론하며 사용자에게 의사결정의 근거를 제안하는 수준에 도달한다.


공공데이터는 단순한 숫자의 나열이 아니다. 그것은 우리 사회의 흐름을 담고 있는 거대한 거울이다. 딥 에이전트 기술을 통해 이 거울을 투명하게 닦아내고 선명한 통찰을 얻는 과정은, 기술이 인간의 삶을 어떻게 이롭게 할 수 있는지를 보여주는 가장 명확한 증거가 될 것이다. 엑셀의 시대를 지나, 에이전트와 함께 데이터를 탐험하는 새로운 시대로 나아가야 할 때다.

작가의 이전글팩트체크, 서울 아파트 가격 10억?_2