새로운 시스템 통합 (SI : System Integration)
얼마 전, 투자심사역 한분을 만나서 요즘의 산업 트랜드에 대해 이야기를 나눌 수 있었습니다.
그분이 이야기 한 다수의 기업들이 공통적으로 겪고 있는 대표적인 문제점 중 하나는 정보보호였습니다.
그런데, 흥미로운 점 중 하나는 해커들의 시스템 침투 같은 직접적인 정보보호가 아니고 직원들이나 외주업체 등을 통해서 유출되는 정보의 보호였습니다. 의도적이고 직접적인 정보유출이 아닌 일반적이고 항상 잔존하는 그런 부류의 위험성이 해결하기 힘든 문제로 부각되기 시작 했습니다. 다음의 사례처럼 말이죠.
LLM을 도입하고 싶어하지만 내부 기업정보가 외부로 유출되는 것이 우려됨.
노후화된 시스템을 업그레이드 하고 싶지만 고객정보 노출 우려로 실행이 늦어짐
믿을만한 시스템 통합구축(SI) 기업을 찾기 어려움
이와 관련해서 제가 경험한 몇가지 사례들을 소개해 보겠습니다.
국내 대형 금융사의 직원용 챗봇 서비스 구축 프로젝트에서 고객사로부터 요청 받은 사항 :
“고객응대 및 업무 프로세스 매뉴얼은 기업 기밀이므로, 알아서 챗봇 서비스를 구축할것.”
국내 대기업에서 수천명 규모의 임원 인사평가 글을 분석하여 리더십 평가 :
“외부 LLM은 절대 사용 금지.”
국내 대학병원의 EMR 연동 임상기록 자동화 프로젝트에서 요청 받은 사항 :
“의사의 음성 대화내용에서 개인정보만 제거하고 서버에 저장할 것”
세가지 사례 외에도 다양한 기업들의 훨씬 다양한 요구사항들이 있습니다. 이런 요청사항들은 모두가 고객 또는 기업의 정보를 보호하기 위한 최소한의 조치들 입니다.
반면, 솔루션을 개발하는 회사 입장에서는 ‘측정 데이터 없는 건물 설계도’처럼 불가능에 가까운 미션으로 간주되거나, 엉터리 설계도를 놓고 건물을 지을 수 밖에 없는 부실공사 프로젝트가 됩니다. 데이터는 줄 수 없지만, 기능은 동작 하도록 구현해 달라는 요청사항. 대부분의 개발자들은 말이 안되는 요구사항이라며 손사레를 칩니다. 설령, 최대한 데이터 구조를 잘 추정해서 시스템을 설계하고 만들어도, 실제 조금씩 다른 부분들을 맞추는 작업은 새로 사이트를 구축하는 것 만큼 시간이 소요될 수 있습니다.
정확한 측량정보 없는 건축 설계도는 과연 의미가 있을까요?
과거에는 의미가 없었습니다. 공간 정보나 자재가 달라지면 설계도를 다시 그려야 했습니다. 당연한 이야기지만, 공간이 달라지면 건축 기법도 달라지고, 자재가 달라지면 그에 맞게 도면 수정이 필요했습니다.
요즘은, 알고리즘 또는 인공지능에 의해 설계 원칙을 배우고, 그 원칙에 의거해서 스스로 재 설계할 수 있게 되었습니다. 건물 설계 전용 소프트웨어는 건축물 구조나 공간에 맞게 테이블과 의자 개수를 자동으로 배치 하여 시간을 절약해 주기도 합니다.
그렇다면 건축설계가 아닌 웹서비스 구축이나 오래된 데이터베이스 재정비 같은 매우 난해하고 불필요한 데이터가 많이 포함된 프로젝트는 가능할까요?
답변을 먼저 말씀 드리면 “가능하다” 입니다.
이런 프로젝트를 가장 잘 하는 기업 중 하나가 Palantir라는 미국 회사 입니다. Palantir는 미국 정부의 주요 기관 프로젝트를 수주하면서 주가를 끌어 올리고 있습니다. Palantir가 미국 정부로부터 가장 크게 신뢰를 받는 부분은 정보보호에 최적화 되어 있으면서도 기존 레거시 시스템에 문제를 일으키지 않으면서 새로운 시스템으로 자연스러운 전환을 돕는 역량 입니다.
과연, 기존 웹서비스의 데이터베이스 테이블을 열람하지 않고도 시스템 설계 및 연동이 가능할까요?
다음의 기술들이 그런 것을 가능하게 합니다.
Data Lineage & Provenance : 데이터를 보지 않고도 흐름을 추적. 민감한 데이터를 노출하지 않고도 어디서 왔는지, 어떤 처리가 되었는지 추적.
Foundry Ontology : 고객 데이터를 구조화된 의미 체계(Ontology)로만 다루고, 실데이터에 직접 접근하지 않고도 시스템 설계 및 연동이 가능.
Column-level/Row-level Security
Customer-Hosted Deployment/Air-gapped deployment : 고객사 내부 망에 똑똑한 Palantir 시스템을 설치하여, Palantir가 원격에서 실데이터 접근 불가능하도록 함.
Policy-Aware Access Control : 데이터 접근은 자동화된 정책에 의해 통제되고, Palantir 엔지니어도 “Blind” 상태에서 시스템만 구성.
Palantir를 잘 알거나 관련이 있는 것은 아닙니다. 일부러 소개를 해 주고 싶은 마음도 없습니다. 다만 진보된 기술에 대한 철학적 원칙과 그들의 행보가 꽤 매력적으로 느껴지고 그들의 도전으로부터 많은 것들을 배우고 있습니다.
Palantir가 사용하는 기술을 몇마디로 축약해 보면
"Ontology-based, privacy-preserving data integration"
또는
"Secure federated data modeling"
입니다.
Palantir가 접근하는 방식은 고객의 요구사항은 무리라고 설득하기 보다는, 불가능해 보이는 요구사항에 꽤 진지하게 다가서는 것입니다. 데이터 구조에 대한 정보 없이 시스템을 만들려면, 시스템을 사용하는 사람들의 생각과 행동, 의미와 흐름을 분석해야 합니다. 분석된 내용을 통해서 시스템을 재구성하고 분류가 모호한 데이터는 임시 카테고리로 놔 두었다가, 데이터의 의미와 의도가 명확해지는 시점에서 적절한 카테고리의 데이터로 통합을 시도하게 됩니다. 데이터의 여정을 시각적으로 추적하고, 이력과 진위 여부를 판단하고, 최적화를 수행하는 과정에서 불명확한 데이터, 모호한 범주의 컬럼이나 테이블 등이 사라지게 됩니다.
이런 방식은 몇가지 장점이 있습니다.
오래되고 완성도가 떨어지는 시스템의 고도화 과정에서 시스템 장애 및 데이터 오염 최소화.
모호성 때문에 활용하지 못했던 데이터의 카테고리 명확화 및 구체화.
데이터 오너십 및 관리 범위 확대.
이런 장점을 가능하게 하는 핵심적인 기술은 인공지능 입니다. 온톨로지라고 부르는 존재론적 접근법에 기반해서 언어 모델을 활용하고, 실제 지식과 사유적 개념을 컴퓨터가 이해할 수 있는 형태로 표현한 모델 입니다.
인공지능이 단일 데이터, 데이터들간의 관계, 데이터들 사이에서 얻을 수 있는 맥락적이고 본질적인 내용을 기반으로 해서 부가정보에 대한 추론을 수행 합니다.
특정 데이터는 왜 만들어 졌는지, 어떤 의미인지, 어떤 데이터들이 있으면 행동이 더 명확해 지는지 등을 분석한 다음, 지식 그래프 및 다중적인 속성을 갖는 포맷으로 데이터를 저장하여 다루게 됩니다.
RDF(Resource Description Framework)
OWL(Web Ontology Language)
JSON-LD(Linked Data Json)
저장된 데이터는 존재적 의미, 다른 데이터와의 관계적 속성 및 상하 계층적 속성 등을 담고 있습니다. 데이터베이스 설계자가 테이블 용도, 컬럼 이름, 컬럼 용도, 다른 테이블과 연결성등을 고민하면서 설계할 때, 머릿속에 떠올리는 것들을, 인공지능으로 동일하게 끄집어낼 수 있습니다.
인공지능이 개발자가 시스템을 설계하면서 반영했던 지식 정보를 똑같이 가질 수 있다는 점에서 시스템 개발자의 지식정보 구조화라고 부를 수 있습니다.
시스템 개발자의 지식정보는 테이블이나 컬럼의 재설계가 가능하고, 낯선 테이블이나 컬럼을 마주쳐도 용도나 연결성, 동작 순서등을 추론해 볼 수 있습니다.
시스템 또는 데이터베이스를 설계할 수 있는 인공지능을 데이터베이스와 웹서비스 사이에 구축하는 경우, 인공지능은 기존의 구식 데이터베이스를 새로운 웹서비스와 연동 시킬 수 있고, 구식 데이터베이스를 조금씩 새롭게 디자인된 데이터베이스로 옮겨올 수 있습니다.
일반 인공지능이나 수많은 웹 서비스는 핵심적으로 두가지 요소로 이루어 집니다.
데이터
데이터 처리 로직/모델
온톨로지 기반의 데이터베이스 설계 가능한 AI는 데이터를 생성하고 처리할 수 있는 로직을 모두 담고 있기 때문에, 설계문서 없이도 데이터와 웹사이트 인터페이스를 기반으로 해서 데이터 처리 로직을 만들어 낼 수 있습니다. 프로젝트 담당자는 직접 테스트를 진행 하면서 발견되는 오류를 AI에게 전달해 주기만 하면 됩니다.
이런 방식을 통해, 고객정보나 내부정보를 노출시킬 수 없는 기업들은 외부 솔루션을 도입해서 새로운 시스템을 보안 리스크 없이 구축이 가능해 집니다.
제가 작성한 글로 깊이있는 이해를 돕는다는게 욕심이겠지만, 개념적인 내용만이라도 잘 전달 되었으면 좋겠습니다. 기업 내부의 레거시 시스템에 대한 개선, AI 도입 시 발생하는 정보유출 차단 및 개인 정보보호 등, 지금껏 해결하기 어려워 문제를 방치해 두었다면 제가 설명드린 방식을 고려해 보시기 바라고, 기업 차원에서 전문가의 도움이 필요하시면 연락 주세요.