[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
이동인 와탭랩스 대표 /사진=와탭랩스 제공"GPU(그래픽처리장치)는 단순한 컴퓨팅 리소스를 넘어 이제는 기업 경쟁력의 기반이 되는 전략적 자산이다. 하지만 많은 기업들이 GPU 상태를 제대로 관측하지 못해 큰 손실을 겪고 있다."
이동인 와탭랩스 대표는 17일 서울 강남에서 열린 미디어 데이에서 "와탭랩스는 고객사들과 협업해 현장에서 발생하는 GPU 운영 문제를 파악하고, 고객의 수요에 맞춰 전체 인프라 안에서 GPU까지 통합 관측이 가능한 환경을 구축했다"며 이같이 말했다.
2015년 7월 설립된 와탭랩스는 국내 최초로 SaaS(서비스형 소프트웨어) 기반의 '옵저버빌리티'(Observability) 서비스를 운영하고 있다.
기존 IT 모니터링이 서버와 앱, 데이터베이스(DB) 등 IT 운영환경의 전반적인 성능과 장애 상황을 파악하고 대응하기 위한 서비스라면 옵저버빌리티는 여기서 더 나아가 모든 하드웨어와 서비스 환경에서 발생하는 데이터를 중앙집중화해 통합 관리하는 것을 뜻한다.
와탭랩스는 AI 시대의 핵심 비전으로 'AI 네이티브 옵저버빌리티'를 선언하고, 이의 일환으로 AI 인프라의 핵심 자산인 GPU 자원을 실시간 모니터링할 수 있는 '와탭 GPU 모니터링' 솔루션을 출시했다.
이 솔루션은 기업의 GPU 활용률, 메모리 사용량, 온도, 전력 소비 등 주요 지표를 통합 관측해 자원 낭비 없이 최적화된 운영을 가능하게 한다. SaaS와 온프레미스(내부 구축형)를 아우르는 하이브리드 환경에서도 안정적으로 작동한다.
특히 단순한 사용률 수치 기반의 모니터링을 넘어 장애 알림부터 근본 원인 진단, 자원 최적화, IT 인프라 운영팀과 개발팀 간 통합 정보 공유를 통한 협업 최적화까지 전방위적으로 인사이트를 제공해 운영 개선을 돕는 것이 특징이다.
━
"고가의 자원 GPU, 효율 못내면 낭비이자 손실"
━
최진식 와탭랩스 그룹장(개발총괄)은 "분산도가 높은 AI 인프라 환경에서 서비스 장애 발생 시 영향 범위가 기하급수적으로 커진다"며 " GPU의 수명도 짧기 때문에 자원을 얼마나 효율적으로 활용하느냐가 기업의 중요한 과제"라고 지적했다.
최진식 그룹장은 "MIG(Multi-Instance GPU) 및 쿠버네티스(Kubernetes) 연동이 미흡한 일반적인 솔루션과 달리 와탭랩스의 솔루션은 MIG·파드(Pod)·노드(Node)의 연결 관계를 시각화해 자원 추적을 용이하게 한다"고 말했다.
데이터 처리·분석을 위한 고유의 아키텍처를 보유하고 있으며, 최적화된 데이터 수집과 저장 구조를 통해 오픈소스나 타사 대비 적은 양으로도 양질의 데이터를 제공하는 장점이 있다는 설명이다.
그는 "GPU는 매우 고가의 자원이다. 효율을 내지 못하면 낭비이자 손실이 된다"며 "GPU 수명은 고부하 사용으로 인해 CPU(중앙처리장치) 대비 고장률이 월등히 높다. GPU 고장을 얼마나 빨리 감지하고 대처할 수 있는가가 중요하다"고 강조했다.
이어 "GPU를 제대로 운영하기 위해서는 자원 수명 예측과 운영 계획 수립을 위한 데이터 활용이 필요하다. 우리는 실시간 옵저버빌리티 기술을 GPU에 접목해 안정적인 GPU 운영과 가용성 향상을 지원하고 고장 발생 감지를 통해 신속한 대응을 돕는다"고 덧붙였다.
와탭랩스는 GPU 모니터링 솔루션을 시작으로 AI 기술이 내재된 다양한 제품군을 선보이며 새로운 IT 운영 환경의 표준을 제시하고, 기업의 비즈니스 성장 지원을 더욱 강화해 나간다는 목표다. 특히 글로벌 시장 확장에도 속도를 낸다.
이 대표는 "북미 기반 글로벌 서비스들은 가격이 비싸지만 우리는 아시아에서 경쟁력 있는 가격으로 고품질의 서비스를 제공한다. 일본과 인도네시아에 리전(데이터센터를 클러스터링하는 지리적 위치)을 보유하고 있으며, 다음달에는 태국에도 리전을 구축할 것"이라고 했다.