Menu Close

Media

DataStreams의 기사를 한눈에 볼 수 있습니다.

[인터뷰] “데이터 패브릭과 LLM 결합한 ‘신뢰 기반 AI’ 전략 앞세워 AI 기업으로 변모”

인터뷰
작성자
데이터스트림즈
작성일
2025-11-13 13:17
조회
254

데이터스트림즈 이종헌 AI 사업전략본부장(전무)

데이터스트림즈 이종헌 AI 사업전략본부장(전무)
데이터스트림즈 이종헌 AI 사업전략본부장(전무)

[아이티데일리] 생성형 인공지능(AI)은 IT 업계를 넘어 모든 산업에서 ‘메가 트렌드’로 자리 잡았다. 그러나 AI가 제공하는 정보의 신뢰성과 책임성 문제는 여전히 해결해야 할 근본적인 과제로 남아있다.

이러한 상황에서 ‘데이터 패브릭 기반 신뢰 가능한 AI’를 핵심 전략으로 내세우며 AI 시장에 새로운 패러다임을 제시하고 있는 기업이 있다. 바로 국내 1세대 데이터 거버넌스 기업인 데이터스트림즈(대표 이영상)다. 전통적인 데이터 관리 기업이라는 틀을 깨고, AI 기업으로의 전환을 모색하고 있는 데이터스트림즈는 올해 6월 KT에서 빅데이터 사업을 진두지휘했던 이종헌 AI 사업전략본부장(전무)을 영입하며 도약 채비를 마쳤다. 새롭게 데이터스트림즈에 합류한 이종헌 AI 사업전략본부장을 만나 AI 사업 전략과 비전을 들어봤다.


“AI보다 데이터 신뢰성 중요”

데이터스트림즈 이종헌 전무는 27년간 KT에서 AI 및 빅데이터 기반 공공·금융 DX 사업을 총괄한 전문가다. 농림부의 AI 예측 플랫폼, 질병관리청의 메르스 방역 시스템, 서울시의 생활 인구 모델, 한국관광공사의 관광데이터 개발, 해수욕장 혼잡도 신호등 서비스 등 100여 건이 넘는 공공 프로젝트를 수행했고, 이 과정에서 여러 데이터 분석 사업을 통해 데이터가 줄 수 있는 잠재 가치를 알게 됐다.

이종헌 전무는 생성형 AI 시대에 접어들자 ‘데이터 신뢰성’의 가치를 더욱 절감했다. 특히 데이터에 대한 신뢰성이 곧 AI 사업 경쟁력을 좌우할 것으로 내다봤다. 이에 대해 이종헌 전무는 “생성형 AI가 부상함에도 가장 중요한 것은 결국 결과물의 기반이 되는 데이터 신뢰성이다. AI를 활용하기 전에 데이터 거버넌스를 구축하지 않으면 성공적인 AI 활용은 불가능하다고 판단했다”고 설명했다.

또한 이종헌 전무는 AI를 위한 데이터 신뢰성 확보라는 문제를 가장 잘 해결할 수 있는 기업이 데이터스트림즈라고 확신했고, 합류를 결정했다. 이종헌 전무는 데이터스트림즈에서 AI 사업을 진두지휘하는 AI 사업전략본부장(전무)이라는 중책을 맡으며, 사업을 총괄하고 있다.

데이터스트림즈는 단순 AI 기술 제공을 넘어, 신뢰할 수 있는 데이터를 기반으로 AI가 정확하고 책임감 있게 작동하도록 설계·실행하는 데 중점을 두고 있다. 이를 위해 이종헌 전무는 KT 시절 공공과 금융 분야에서 축적한 도메인 특화 데이터 기획 및 활용 경험과 실전 중심의 AI·빅데이터 통합 전략 기획력을 적극 활용한다는 계획이다.

특히 데이터스트림즈가 기존에 보유한 데이터 패브릭(Data Fabric) 플랫폼과 메타데이터, 품질 등 데이터 거버넌스 솔루션을 거대언어모델(LLM)과 결합해 ‘신뢰 기반 생성형 AI 플랫폼 전략’을 제안한다는 방침이다.

이종헌 본부장의 데이터스트림즈 합류 3주 만에 공공기관의 ‘사내 LLM 활용 2차 사업’을 수주하며, AI 사업 성과도 거두었다. 이번 사업 성과를 발판 삼아 공공과 금융 시장의 AI 사업에도 적극적으로 참여한다는 계획이다.

이종헌 본부장은 “데이터스트림즈의 AI 사업 방향은 AI 구축은 물론, 구축된 AI가 신뢰받을 수 있도록 데이터 기반을 함께 제공하는 것이다. LLM은 자체적으로 문장을 생성하는 능력이 있지만, 그 판단의 근거는 결국 데이터에 있다. 데이터 품질 보장과 메타데이터 정보가 없다면 AI가 생성한 결과를 신뢰할 수 없다”며, “데이터스트림즈는 LLM이 신뢰할 수 있는 데이터를 기반으로 작동하도록 만드는 역량에 특화돼 있다. 이는 단순히 생성형 AI를 도입하는 것을 넘어, 그 기반을 신뢰할 수 있도록 설계하는 근본 기술이다”라고 강조하며 데이터스트림즈의 AI 사업 방향을 제시했다.

데이터스트림즈는 AI 사업 강화를 위해 우수한 AI 인재 확보와 R&D 인프라 구축에도 힘쓰며 내실도 다진다. 이종헌 본부장은 “인재 확보를 위해 정부가 추진하는 다양한 AI·디지털 관련 지원사업에 적극적으로 참여하고 있으며 내부 데이터 전문가를 AI·LLM 인력으로 전환하는 교육 체계도 만들었다. 또한 산학 협력을 통한 인턴십 및 실무형 AI 인재 양성에 힘쓰고 있다. 기술 보유 스타트업 및 전문기업과의 전략적 협업을 통해 빠른 기술 내재화도 도모하고 있다”고 부연했다.


데이터 패브릭 기반 ‘신뢰 기반 생성형 AI’ 플랫폼 구축 박차

데이터스트림즈의 핵심 AI 전략은 ‘신뢰 기반 생성형 AI’로 정의할 수 있다. 단순히 AI를 적용하는 것이 아닌 데이터 품질을 진단하고, 메타데이터를 정리하며, 데이터 사용 이력을 추적해 데이터 현행화와 흐름을 파악할 수 있도록 데이터 패브릭 기반 환경을 조성해 AI가 데이터에 쉽게 접근하도록 구현한다는 것이다.

데이터스트림즈가 AI 사업 전면에 배치한 ‘신뢰 기반 AI’ 전략은 데이터 패브릭 아키텍처에 근간을 두고 있다. 이는 AI가 활용하는 데이터의 구조화와 흐름을 체계적으로 통제하는 ‘데이터 패브릭 기반 AI 전략’을 추진한다는 것을 의미한다.

데이터 패브릭은 조직 내·외부의 다양한 데이터 원본에서 데이터를 수집하고 통합해 필요한 시점에 필요한 사용자가 데이터 저장소의 종류와 상관없이 일관된 방식으로 접근하고 활용할 수 있도록 하는 데이터 관리 아키텍처다. 논리적으로 가상화된 레이어를 각 데이터 소스 위에 얹어 데이터를 조회하고 탐색한다.

데이터스트림즈는 이를 기반으로 생성형 AI의 정확성과 신뢰도를 끌어올리고 있다. 청킹(Chunking)된 문서에 메타데이터를 태깅해 RAG 검색에 최적화된 구조를 만들고, 데이터 품질과 사용 이력을 기반으로 신뢰성을 확보하는 전체 데이터 흐름을 설계하고 통제하는 방식이다.

대개 LLM은 학습 데이터를 기반으로 답변에 필요한 데이터를 찾는다. 이때 LLM이 이기종의 다양한 데이터 소스에 쉽게 접근할 수 있는 환경을 구축하며, 데이터 패브릭과 LLM만으로는 부족할 수 있는 데이터 현행화를 위해 RAG 체계를 구현한다는 것이다.

데이터스트림즈 이종헌 본부장은 “대부분의 기업은 정확한 데이터 확보를 위해 RAG를 활용하지만, 기업이 보유한 데이터가 벡터화되지 않고 일반 문서와 같은 사내 비정형 데이터라면, LLM이 활용하기 어렵다. 데이터스트림즈는 기존 고객이 보유한 데이터를 DB로 구조화하고, 메타데이터를 부착하며, 데이터 패브릭을 적용해 LLM과 RAG가 쉽고 정확하게 접근해 신뢰할 수 있는 데이터를 제공하도록 지원한다. 실제로 이러한 ‘데이터 패브릭 및 RAG·LLM 파이프라인’을 성공적으로 국내 한 공공기관에 제안·구축한 바 있다”고 설명했다.

특히 데이터스트림즈는 검색증강생성(RAG)에 메타 필터를 구현해 신뢰성과 데이터 통제가 중요한 공공·금융기관 산업군을 겨냥하는 선택과 집중 전략을 펼칠 계획이다. 이 과정에서 핵심 기술은 ‘문서 청킹’과 ‘메타데이터 필터링 기반 RAG 설계’다. 이를 통해 신뢰 기반 LLM 아키텍처를 구축한다는 설명이다.

문서 데이터를 문단·항목별로 구분하고 메타정보를 부착해 질문과 가장 관련 있는 문서 청크만 정밀하게 검색하는 방식이다. 또한 품질 진단, 메타데이터 정제, RAG 검색, 응답 생성을 모듈화할 계획이다.

이에 대해 이 본부장은 “기업 및 조직 내부에 보유한 문서나 지식 기반 데이터를 분석해 품질과 메타정보 구성 정보를 사전에 진단하고, 문서를 문단 또는 항목 단위로 나눠 작성일·출처·유형 등 메타데이터를 자동 태깅해 AI가 이해 가능한 구조로 변환한다. RAG 기반 검색 구조를 적용하되, 고객 조직 특성에 맞는 메타 필터링 체계를 적용해 정밀 검색이 가능하도록 설계한다. 또한 이 모든 과정을 모듈화해 고객이 단계적으로 개념 증명(PoC), 본사업, 확장 사업 등으로 확대·적용할 수 있도록 지원할 예정”이라면서 “데이터스트림즈가 데이터 패브릭 솔루션을 단일 패키지 형태로 구현 및 제공해 온 기술력이 없었다면 불가능했을 것”이라고 말했다.

아울러 타 시스템과 유연하게 연동이 가능하도록 라마(LLaMA)와 미스트랄(Mistral) 등 오픈소스 LLM을 기반으로 모델 교체가 가능한 구조를 설계하고 있다. 

 데이터스트림즈 이종헌 AI 사업전략본부장은 “데이터스트림즈는 신뢰할 수 있는 데이터를 기반으로 LLM이 구동되도록 만드는 역량을 갖추고 있다. 단순 생성형 AI 도입이 아닌, 그 기반을 신뢰할 수 있도록 설계하는 근본적인 전략이다”라고 강조했다.
데이터스트림즈 이종헌 AI 사업전략본부장은 “데이터스트림즈는 신뢰할 수 있는 데이터를 기반으로 LLM이 구동되도록 만드는 역량을 갖추고 있다. 단순 생성형 AI 도입이 아닌, 그 기반을 신뢰할 수 있도록 설계하는 근본적인 전략이다”라고 강조했다.


“국내 도로관리기관 ‘관내 LLM 시스템 구축 2차 사업’ 수주 쾌거”

이종헌 전무는 데이터스트림즈에 합류한 지 한 달 만에 국내 도로관리기관의 ‘관내 LLM 시스템 구축 2차 사업’을 수주하며 사업 확대 기틀을 마련했다. 도로관리기관의 관내 LLM 시스템 구축 2차 사업은 문서 기반 질의응답 시스템 구축을 목표로 추진됐다. 기존 구축된 LLM 한계를 극복하고자 1차에 이어 2차 사업을 추진했다.

이번 2차 사업의 배경에는 1차 사업으로 구축된 LLM의 성능 부족이라는 문제가 있었다. 도로관리기관은 국내 유명 챗봇·AI 기업이 구축한 LLM 시스템이 국정감사 질의답변 준비와 같은 핵심 업무에 활용되기에는 정확도가 크게 떨어진다는 한계를 경험했다. ‘작년에 특정 예산이 늘었고 그 이유가 무엇인지’와 같은 질문에도 세부 항목을 정확히 특정하지 못했다. 또한 모호한 답변을 내놓거나, 근거를 제공하지 않아 실질적인 업무 활용이 어려웠다. 직원들은 밤샘 작업을 통해 방대한 문서에서 수동으로 답변을 찾아야 하는 비효율을 겪었다.

이러한 문제 해결하고자 도로관리기관은 데이터스트림즈와 손을 잡았다. 데이터스트림즈는 이번 2차 사업에서 자체적으로 보유한 데이터 관리 역량을 결집한 ‘데이터 패브릭 및 RAG·메타 LLM 파이프라인’으로 LLM의 신뢰도를 높이는 전략을 제시했다. 1차 사업에서 정확하지 않은 답변과 부족한 성능이 문제로 제기됐기에 정확하고 일관성 있는 정보를 제공하는 것에 초점을 맞췄다. 2차 사업에서는 대국민 서비스와 내부 업무 지원에 LLM을 활용하기 위해 단순히 유사한 답변이 아닌, 완벽에 가까운 정확성과 신뢰성 확보가 필수적이다.

데이터스트림즈는 1차 사업 당시 낮은 정확도를 보였던 질의응답 케이스를 대상으로 ‘데이터 패브릭 및 RAG·메타 기반 LLM 파이프라인’을 적용해 테스트했다. 그 결과 업무 활용이 가능한 수준의 응답 정확도를 입증했다.

데이터스트림즈는 2차 사업 테스트에서 데이터 패브릭과 및 RAG·LLM 파이프라인’을 적용했다. LLM이 방대한 학습 데이터에만 의존하는 것이 아닌 보유한 정형·비정형 데이터를 정확히 찾아 학습하도록 유도하는 아키텍처를 설계했다. 기존 레거시 DB와 사내 문서를 정형 DB로 구조화하고 메타 정보를 꼼꼼하게 부착해 LLM이 더 정확한 검색을 수행하도록 지원했다. 단순히 LLM 파인튜닝을 넘어, 데이터의 품질과 거버넌스를 결합한 방식이다.

데이터스트림즈 이종헌 본부장은 “LLM은 기본적으로 질문에 유사한 답변을 내놓는 경향이 있다. 사내 업무용처럼 신뢰도가 중요할 경우 부족한 부분이 많다”면서 “우리는 데이터 패브릭을 통해 여러 DB에 흩어진 데이터를 가상화로 단일 플랫폼에 통합하고, RAG 기술을 접목해 메타 필터링과 품질 검증을 강화해 정확도를 획기적으로 높였다”고 부연했다.

도로관리기관 측으로부터 긍정적인 평가도 받았다. 개념 증명(PoC)을 통해 완벽에 가까운 정확도를 구현했다. 1차 사업을 통해 구축된 모델이 엉뚱한 답변을 내놓았던 질문에 데이터스트림즈의 솔루션은 높은 정확도의 답변과 함께 명확한 출처까지 제공했다. 도로관리기관 측은 만족감을 표했고, 오는 9월 국정감사에 실제 활용될 수 있도록 요청하기도 했다.

데이터스트림즈 이종헌 본부장은 “이번 도로관리기관 사업이 성공적으로 완수될 경우, ‘신뢰 기반 AI’ 전략이 공공부문에서 통할 수 있음을 보여주는 계기가 될 것”이라면서 “공공기관 및 금융기관과 같이 내부 규제가 엄격한 환경에서는 AI가 생성한 결과의 정확도뿐 아니라 그 근거를 추적할 수 있어야 한다. 이러한 요구사항에 데이터스트림즈가 내세우는 LLM의 신뢰성과 추론 근거를 보장하는 아키텍처 설계 역량이 핵심 차별점이 되고 있다”고 강조했다.

한편, 데이터스트림즈는 한 공공기관의 ‘정책문서 자동 요약·응답 PoC’를 수행하고 있으며, 금융권에서는 ‘보고서 분석용 RAG 구조 컨설팅’을 진행 중이다.


“공공기관 KPI, 빅데이터에서 생성형 AI로…AI 신뢰 파트너 될 것”

최근 우리 정부는 5년 동안 AI에 16조 원을 투입할 것이라고 발표했다. 2024년 기준으로 공공·금융부문을 포함한 국내 LLM 구축 시장은 1,200억 원으로 전체 LLM 시장의 약 50%인 600억~800억 원 규모를 형성한 것으로 알려지고 있다. 정부의 AI 투자 확대와 기업들의 AI 수요 증가로 5년 후인 2029년에는 3,000억~4,000억 원 규모로 확대될 것으로 전망된다.

지자체를 포함한 공공기관의 AI 도입이 가속화되고 있으며, 이는 공공기관의 핵심성과지표(KPI)가 빅데이터에서 생성형 AI로 변화하고 있음을 보여주고 있다. 가성비 높은 LLM을 구축해 대국민 서비스 강화는 물론, 내부 업무 효율화까지 달성할 수 있어 공공기관에서는 LLM 구축에 많은 관심을 보이고 있다.

데이터스트림즈는 ‘데이터 패브릭 및 RAG·LLM 파이프라인’ 설계 역량을 앞세워 AI 활용의 사전 준비부터 사후 검증까지 통합적으로 대응한다는 계획이다. 특히 AI 거버넌스 시대, 신뢰할 수 있는 파트너로 자리매김한다는 목표다.

데이터스트림즈는 그간 축적해 온 데이터 거버넌스 역량을 토대로 AI 기술력과 사업력을 앞세워 국내 AI 시장에서 입지를 굳힌다는 계획이다. 이종헌 본부장은 “단기적인 실적 향상이 목표가 아니다. 장기적인 AI 사업 로드맵도 수립한 상황이다. 우선 3년 내 공공·금융 중심 RAG 기반 AI 시스템 구축 사례를 50건 이상 확보해 AI 사업만으로 매출 100억 원을 달성할 계획이다. 이를 위해 AI 사업 모델을 구독 서비스 형태로 제공해 정부가 제도화한 수의계약이 가능하도록 구성할 예정이다. 고객은 GPU 서버 구매 없이 ID와 패스워드만으로 AI를 활용할 수 있게 된다”며, “기술적으로는 AI 에이전트를 개발하는 것이 목표다. 50개 고객사를 확보한 후 AI 에이전트와 관련된 부가서비스를 지속적으로 고도화할 계획이며, 이는 3~5년 내 달성 가능한 현실적인 목표다”라고 설명했다.

데이터스트림즈는 고객사가 많은 공공, 금융, 에너지, 통신 산업을 중심으로 각 도메인의 문서 흐름, 용어 체계, 검색 패턴을 반영하고 특화해 ‘데이터 패브릭 및 RAG·LLM 파이프라인’ 적용을 확대할 방침이다.

데이터스트림즈 이종헌 전무는 “데이터스트림즈는 단순히 AI 기술을 제공하는 것이 아닌 신뢰할 수 있는 데이터 위에서 동작하는 AI를 만드는 ‘신뢰 중심 파트너’로서의 정체성을 강화하고자 한다. 국내 AI 업계에 새로운 가치를 선사하도록 노력하겠다”고 강조했다.


기사 보러 가기[인터뷰] “데이터 패브릭과 LLM 결합한 ‘신뢰 기반 AI’ 전략 앞세워 AI 기업으로 변모” < 인터뷰 < 기사본문 - 아이티데일리