[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.] 머니투데이와 인터뷰하는 김현태 그레타 공동대표·연세대 교수/사진= 김성휘 "수도권에 사는 A씨" vs "경기 수원시 40대 남성 자영업자 홍길동씨"
두 가지 정보 중 어느 쪽이 데이터로 가치가 높을지는 분명하다. 더 구체적인 후자이다. 하지만 '홍길동'이라는 실제 인물의 정보를 무작정 사용할 수는 없다. 이름 주소 등은 중요한 개인정보이고 질병이력 등 의료 정보라면 극히 민감한 프라이버시 사안이다. 데이터 생성·분석이 AI(인공지능) 시대 핵심분야으로 떠올랐지만 데이터산업이 빨리 성장하기 어려운 배경에 이 같은 한계가 있다.
이를 극복하는 대안이 합성데이터이다. 합성데이터는 시뮬레이션이나 알고리즘을 통해 만들어낸 가상의 데이터다. 새로 창조하는 생성형, 실제 데이터와 흡사한 구조를 갖도록 만든 재현형으로 나눌 수 있는데 '그레타'는 특히 재현형 데이터에 강점이 있는 스타트업이다.
김현태 그레타 대표는 최근 머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리'와 만나 "합성데이터는 실제와 비슷하게 신뢰도가 높고 개인정보 우려에서 안전하다"며 "금융, 헬스케어 등에 활용하면 AI 모델을 개발하거나 성능을 향상하는 데 시간과 비용을 획기적으로 개선할 것"라고 말했다.
━
금융·의료 AI 모델 학습에 필수, 합성데이터
━
그레타는 2021년 연세대 응용통계학과 동료교수 사이인 김현태 임종호 공동대표가 창업했다. 두 사람의 전공인 데이터와 통계 전문기술이 연구실을 넘어 실생활과 산업에 쓰이길 바랐다. 그레타는 KISA(한국인터넷진흥원) 스타트업 대회 수상, NICE 오픈이노베이션 선정 등 기술력을 인정 받았다. 올해 중소벤처기업부 창업도약패키지의 대기업 협업 프로그램에 선발돼 이와 연계한 교보생명의 오픈이노베이션 '든든 프로그램' 지원을 받고 있다.
세계 합성데이터 시장전망/사진=프리시던스리서치, 그레타 자율주행차이든 가정용 휴머노이드이든 미리 데이터로 할 일을 학습해야 제 역할을 한다. 처음엔 실제 데이터를 일일이 수작업으로 수집가공했다. 자율주행의 경우 도로 사진에서 자동차를 구분, 표시한 후 '이것이 자동차'라는 이름표(라벨)를 붙여 AI 모델에 반복해서 알려줬다. 데이터에 라벨을 붙인다는 데이터 라벨링 과정이다. 합성데이터 기술은 사람이 할 때 시간·비용이 많이 드는 데이터 라벨링을 효과적으로 대체할 수 있다. 잘 만들어진 합성데이터는 실제 데이터를 썼을 때와 비슷하게 AI 모델의 학습효과를 낸다.
그레타는 현재 합성데이터 솔루션 '신테그라', 가상의 인물(페르소나)을 설정할 수 있는 '신페르소나'를 핵심 서비스로 제공한다. 신테그라는 의료분야 임상기관이 사용중이다. 일정기간이 지나면 파기해야 하는 원데이터와 달리 이를 기반으로 합성데이터를 만들면 이후 비슷한 임상이나 연구개발에 계속 쓸 수 있다.
금융업계는 예전부터 여러 명의 가상고객 즉 '페르소나'를 설정해 상품이나 서비스 적합도를 평가했다. 합성데이터를 쓰면 수만, 수십만명에 해당하는 페르소나를 활용할 수 있다. 김 대표는 "AI 학습에 데이터가 꼭 필요한데 실재하는 정보의 대안이 합성데이터"라며 "그레타는 AI, DL(딥러닝)을 이용한 데이터 기반 서비스를 제공한다"며 "특히 정형(실제 데이터를 모방) 합성데이터 기술력은 국내 최고로, 글로벌 기준에서도 뒤처지지 않는다"고 말했다. 그레타 기업 개요/그래픽=김지영
그레타는 기업과 주식시장 정보를 바탕으로 기업가치를 분석할 수 있는 '엘도'를 개발, 세번째 핵심 비즈니스모델로 키운다는 목표다. 내년 1월 CES 2026에 참가, 상용모델 출시를 앞둔 '엘도' 기술을 글로벌 고객 앞에서 시연한다. 김 대표는 "일부 투자사로부터 관심과 투자 의향을 확인했다"며 "비전을 공유하며 글로벌 성장을 도모할 투자자와 함께하고 싶다"고 말했다.
엔비디아는 올 3월 합성데이터 스타트업 그레텔을 전격 인수했다. 스위스·독일 등의 보험회사는 고객이탈 가능성을 예측하거나 맞춤 상품 추천을 위해 합성데이터를 활용한다. 국내는 아직 데이터 시장이 무르익지 않았다. 정부주도로 관련 기술과 산업을 육성하는 단계다. 그럼에도 데이터산업의 성장성은 명확하다. 가트너는 2030년 세계 합성 데이터 생성 시장을 약 22억2616만달러(3조2800억원) 규모로 전망했다.