Menu Close

Media

DataStreams의 기사를 한눈에 볼 수 있습니다.

[인터뷰] “‘테라원 이데아’로 새로운 도약에 나선다”

기사
작성자
admin
작성일
2023-07-04 17:04
조회
768

데이터스트림즈 천승태 기술연구소장


 

[아이티데일리] 데이터스트림즈는 우수한 자체 기술들을 바탕으로 국내 데이터 산업계에서 탄탄한 입지를 다져온 데이터 비즈니스 전문기업이다. 특히 창립 당시부터 데이터 통합 기술 개발에 매진해 선도적으로 시장을 개척하면서, 데이터의 양과 종류가 폭발적으로 늘어난 오늘날 많은 주목을 받고 있는 기업이기도 하다.

 

한편 데이터스트림즈는 지난해 빅데이터 분석 플랫폼 ‘테라원 이데아(TeraOne IDEA)’를 출시하며 데이터 분석 시장에 출사표를 던졌다. 20여 년 간 축적한 데이터 기술력과 미래 시장에 대한 예측을 바탕으로 데이터 분야의 선구자 역할을 이어가겠다는 목표다.

 

‘테라원 이데아’로 비즈니스 영역 확장

 

20여년 전, 데이터스트림즈가 설립되던 당시에는 아직 데이터 관련 기술에 대한 인식이 DB에 데이터를 빠르고 정확하게 저장하고 불러오는 정도에 그쳤다. 대다수 기업들의 IT 수요는 ERP나 CRM과 같은 업무용 시스템들을 도입하는 데에 집중돼 있었다.

 

그러나 데이터스트림즈는 언젠가 데이터의 양과 종류가 폭발적으로 증가해 DB만으로는 감당할 수 없게 될 것임을 예상하고, 방대하고 다양한 DB와 데이터들을 연결해 원하는 정보를 얻을 수 있도록 지원하는 데이터 통합 플랫폼의 필요성을 주장했다. 오라클을 위시한 개별 DB 중심 전략은 언젠가 한계를 맞이하고, 데이터 통합과 메타데이터 관리를 통해 하나의 플랫폼에서 모든 데이터를 아우를 수 있는 전략이 필요할 것으로 내다본 것이다.

 

지난 20여년 간 데이터스트림즈는 기존의 DB 중심 전략을 깨트릴 수 있는 다양한 데이터 통합 제품들을 출시해왔다. 데이터 통합 솔루션 ‘테라스트림(TeraStream)’을 시작으로 ‘델타스트림(DeltaStream)’, ‘메타스트림(MetaStream)’ 등을 잇달아 내놓으며 국내 데이터 시장의 인식과 저변을 확대하는 데에 혁혁한 공로를 세웠다. 특히 지난 2016년에는 데이터스트림즈가 보유한 14개 핵심 솔루션들을 결합해 데이터 관리를 위한 전 과정을 통합 지원하는 ‘테라원(TeraONE)’을 출시하며 국내 데이터 시장의 강자임을 다시 한 번 입증했다.

 

그리고 2022년, 데이터스트림즈는 ‘테라원 이데아(TeraONE IDEA)’를 출시하며 자사의 비즈니스 영역을 한 단계 확장할 것임을 선언했다. 그동안 테라원을 포함한 데이터스트림즈의 주요 제품들은 방대하고 다양한 데이터들을 빠르게 통합하는 기술에 집중해왔다. ‘테라원 슈퍼쿼리(TeraONE Super Query)’와 같이 비교적 최근에 출시된 제품 역시, 데이터 가상화(virtualization) 기술을 활용해 분산된 DB 간의 물리적인 데이터 이동 없이 논리적인 통합을 실현함으로써 빠르게 원하는 데이터를 찾는 데에 초점을 맞췄다.

 

반면 새롭게 출시된 ‘테라원 이데아’는 수집‧저장‧통합된 데이터들을 빠르게 분석하고 필요한 인사이트를 확보하는 AI 기반 빅데이터 분석 플랫폼이다. ‘테라원’이나 ‘슈퍼쿼리’ 등으로 통합한 데이터들을 편리하고 빠르게 분석할 수 있는 환경을 제공한다. 특히 대다수 데이터 분석 기술과 제품들이 우수한 분석 알고리즘들을 제공하는 데에 집중하는 것과 달리, ‘테라원 이데아’는 다양한 분석 도구들을 지원해 데이터의 특성과 사용자의 요구에 맞춰 최선의 분석 프로세스를 수행할 수 있도록 돕는 것에 초점을 맞췄다. ‘테라원 이데아’의 분석 플랫폼 상에서 알려져 있는 대부분의 분석 알고리즘을 지원 가능하기 때문에, 사용자는 기존 분석 환경의 변화를 최소화하면서 새로운 분석 기술들을 빠르게 접목하고 활용할 수 있다.

 

‘테라원 이데아’ 개발을 주도한 데이터스트림즈 천승태 기술연구소장을 만나 자세한 이야기를 들어봤다.

 

데이터 분석 환경 효율화‧최적화 지원

 

Q. ‘테라원 이데아’를 개발하게 된 이유는?

데이터스트림즈는 ‘테라스트림’이나 ‘메타스트림’과 같은 데이터 통합 솔루션들이었다. 국내에서 데이터 통합이라는 기술이 분리되기 전부터 선제적으로 기술을 개발하고 고도화하면서 발빠르게 시장을 공략해왔다. 이후 출시한 ‘테라원’ 역시 국내 빅데이터 시장의 대두와 인식 변화에 따라 가파른 매출 성장이 이뤄졌다. 방대한 데이터들을 빠르게 통합하고 정리하는 데에는 선도적인 기술력을 갖춰, 이미 국내 시장에서는 약 70% 이상의 점유율을 확보하고 있다.

 

그런데 고객들을 살펴보니 자사의 주요 데이터 통합 제품들을 도입해 데이터를 잘 준비해놓고도 실제 분석 환경을 구축하는 단계에서 어려움을 겪는 경우가 많았다. 데이터 분석 기술에 대한 이해가 부족해 관련 솔루션을 도입하고서도 제대로 사용하지 못하거나, 다양한 분석 도구를 사용하려다 분석 환경의 복잡성이 과도하게 높아지기도 했다. 상당한 기업들이 분석 환경을 구축하고 유지하는 데에 많은 비용과 시간을 낭비하고 있었다. 이러한 고객들의 어려움을 해결하기 위해 ‘테라원 이데아’를 개발하게 됐다.

 

Q. ‘테라원 이데아’의 차별화되는 장점은?

‘테라원 이데아’는 데이터 분석 환경을 효율적으로 구축하고 운영할 수 있는 환경을 제공하는 AI 데이터 분석 플랫폼이다. 개별 사용자의 요구에 맞춰 최적화된 샌드박스를 구성해 독립된 데이터 분석 환경을 제공하기 때문에, 항상 최선의 분석 환경과 도구들을 활용해 높은 성과를 거둘 수 있다. 데이터스트림즈는 데이터 통합에 강점을 가지고 있는 기업이기 때문에, 각 사용자들에게 분석에 사용할 데이터를 빠르게 제공(provisioning)하는 데에도 탁월한 성능을 자랑한다.

 

기존의 데이터 분석 플랫폼들은 분석 프로세스 그 자체에만 집중했다. 다시 말해 어떤 알고리즘을 제공하고, 어떤 분석을 수행할 수 있느냐가 핵심이었다. 하지만 이는 사용자들이 복잡한 분석 환경과 도구들을 활용하는 데에 어려움을 느끼게 만들었다.

 

‘테라원 이데아’는 다양한 분석 환경과 도구를 지원할 수 있는 분석 플랫폼이다. 이론적으로는 현존하는 어떠한 분석 도구도 ‘테라원 이데아’에 올려서 사용 가능하다. 이미 ‘테라원 이데아’에는 범용적인 오토ML(AutoML)이나 파이썬(Python) 기반의 분석도구들이 많이 올라가 있고, 앞으로도 지원 가능한 분석 도구들을 지속적으로 확대해 나갈 계획이다. 특히 어떤 분석 도구들은 한 번 특정 인프라에 설치해서 최적화하게 되면 해당 인프라에서만 사용해야 하는데, 이런 도구들을 ‘테라원 이데아’에 올려서 사용하게 되면 차별적인 장점을 누릴 수 있다.

 

특히 최근에는 분석을 통해 새로운 인사이트를 찾는 것뿐만 아니라, 머신러닝이나 딥러닝 학습모델을 만드는 데에도 데이터를 많이 사용한다. 이러한 수요를 고려해 ‘테라원 이데아’에는 머신러닝의 여러 가지 운영 과정을 자동화해주는 ML옵스(MLOps) 관련 기능들을 탑재했다. 학습된 모델을 바탕으로 운영과 서비스를 자동화하거나, 모델 학습을 반복적으로 수행해 지속적으로 성능을 고도화하는 등이다. 향후에는 학습하는 데이터와 서비스될 모델만 지정하면, ‘테라원 이데아’가 자동으로 학습 과정을 수행해 정확도를 높여가는 것을 계획하고 있다.

 

Q. 데이터스트림즈의 기존 주력 분야와 다른 것 같은데.

기존 제품들과 수행하는 역할은 조금 다르지만 근본적으로 큰 차이가 있는 것은 아니다. 데이터 분석 환경을 제공하는 플랫폼이기 때문에 얼마나 인프라를 잘 컨트롤하고 시스템 자원을 효율적으로 할당하느냐가 가장 중요한 포인트다. 이는 데이터스트림즈가 주력해오던 데이터 통합 기술과 같은 맥락을 공유한다.

 

데이터 분석이라는 프로세스는 좋은 솔루션을 도입한다고 해결되는 것이 아니다. 그 앞단에서 양질의 데이터를 빠르게 제공할 수 있는 파이프라인을 구축하는 것 역시 중요하다. 데이터스트림즈는 ‘테라원’을 중심으로 우수한 데이터 통합 제품들을 갖추고 있으며, 이를 분석 프로세스로 제공해주는 과정에서 방대한 노하우를 축적하고 있다. 특히 이러한 장점은 ‘테라원 이데아’를 데이터스트림즈의 ‘테라원’이나 ‘슈퍼쿼리’와 같은 데이터 통합 제품들과 함께 시너지를 내어 성과를 극대화한다. ‘테라원 이데아’ 상에서 다른 제품들이 제공하는 편리한 기능들을 연동해 사용할 수 있기 때문이다.

 

다만 글로벌 시장으로 진출하게 되면, ‘테라원’이나 ‘슈퍼쿼리’가 충분히 깔려있는 국내 시장에 비해 장점이 줄어드는 것은 사실이다. 그럼에도 불구하고 아직 전 세계적으로 클라우드 기반으로 ML옵스 프로세스 전 과정을 통합 지원하는 제품이 없기 때문에, ML옵스를 전략적으로 활용하려는 기업들에게는 충분히 장점을 어필할 수 있을 것이라고 생각한다.

 

ML옵스 기능 고도화로 글로벌 시장 ‘정조준’


Q. 향후 ‘테라원 이데아’의 업데이트 로드맵은?

지난해 출시한 ‘테라원 이데아’는 분석 환경의 구축과 다양한 도구 지원, 그리고 분석 도구에 데이터를 제공하는 프로비저닝 기능에 집중했다. ‘테라원 이데아’를 통해 분석 플랫폼의 중요성과 가치를 증명하는 단계였다.

 

현재 데이터스트림즈 기술연구소는 ‘테라원 이데아’의 ML옵스 기능을 확장하는 것에 집중하고 있다. 지금은 머신러닝 모델을 개발자들이 직접 연구하고 구축해야 하지만, ‘테라원 이데아’를 통해 플랫폼 차원에서 자동화해 제공하는 것이 목표다. 사용자는 알고리즘에만 집중하고 나머지 기능들은 ‘테라원 이데아’가 지원한다. 올해 상반기 중에는 학습된 모델을 자동으로 서비스해 사용자가 손쉽게 분석 결과를 사용할 수 있는 ML옵스 고도화 1단계를 진행한다. 그리고 하반기에는 머신러닝 모델이 스스로 데이터를 학습하며 서비스를 개선해나가는 2단계를 진행할 계획이다.

 

구글이나 AWS 같은 선도적인 기업들이 ML옵스의 일부 기능들을 제공하고 있지만, ML옵스의 전 단계를 제공하는 제품은 아직 전 세계적으로도 찾아보기 어렵다. 그러므로 올해 ‘테라원 이데아’의 고도화가 목표대로 달성된다면 글로벌 시장에서도 경쟁할 수 있는 제품이 될 것으로 자신한다.

 

Q. 연구개발을 진행하면서 SW 개발 인력이 부족하지는 않은지?

지금은 SW 기업 어디를 가나 개발자 부족에 가장 큰 어려움을 겪고 있을 것이라고 생각한다. 데이터스트림즈 역시 우수한 개발자들을 확보하는 데에 많은 노력을 기울이고 있지만, 만족할 만한 수준은 아니다. 최근 2년 사이에 데이터스트림즈 기술연구소 인원은 약 10~15% 증가에 그쳤다. 한정적인 인원을 효율적으로 활용해 제품 개발과 고도화에 집중하고 있다.

 

한편 데이터스트림즈는 내부적인 개발자 육성에도 많은 노력을 기울이고 있다. 우리나라의 IT 교육 환경은 개발자의 수를 늘리기 위한 기초 교육에 집중돼있고, 상대적으로 전문가 육성을 위한 교육은 부족하다고 생각한다. 특히 데이터나 머신러닝, AI 등의 분야에서는 전문가 레벨의 개발자가 지극히 부족하다.

 

그래서 데이터스트림즈는 DS아카데미라고 하는 내부 직원용 커리큘럼을 만들어 초급 개발자가 전문가 레벨로 성장할 수 있는 교육 기회를 제공하고 있다. 또한 기술연구소에서 최신 기술을 학습하고 노하우를 축적한 인원들이 사업팀이나 구축팀 등에 지식을 전파할 수 있는 기회를 많이 만들고, 새롭게 합류하는 직원들에게도 단계적인 교육 프로그램을 제공한다. 장기적으로는 주요 대학교 등과도 협력해 개발자 육성과 확보를 위해 노력하고자 한다.

 

Q. 기술연구소가 새롭게 관심을 가지는 분야가 있다면?

그동안 데이터스트림즈는 데이터 통합과 빅데이터 처리에 집중해왔다. 20년 이상 관련 기술 개발에 집중하면서 이제 데이터 통합 시장에서는 충분한 기술력과 인지도를 갖췄다고 생각한다. 그래서 우리 기술연구소는 올해 AI 기술에 대한 연구개발에 투자하고자 한다. 이미 상반기에 AI 연구개발에 주력하는 전문가 팀을 구성했고, 다양한 아이디어를 실험하고 있다.

 

우선 주력하고 있는 아이디어는 ‘AI를 개발하기 위한 AI’다. 가장 대표적인 것은 학습 모델의 고도화다. AI를 개발하기 위해서는 먼저 데이터를 준비하고 분석하는 과정을 수행해야 하는데, 여기에는 많은 시간과 역량이 투자돼야 한다. 이것을 피처 엔지니어링(Feature Engineering)과 같은 기술을 활용해 더 간단하고 빠르게 수행할 수 있는 방법을 찾고 있다. 학습 결과에 데이터의 어떤 부분이 어느 정도의 영향을 미치는지 분석하거나, 언어모델을 활용해 데이터와 데이터 간의 관계를 자동으로 생성할 수 있다면 AI 개발 과정을 크게 가속화시킬 수 있을 것이다.

 

기사보러가기▶