[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
우주 AI(인공지능) 종합 솔루션 기업 텔레픽스가 글로벌 오픈소스 AI 플랫폼 '허깅페이스'에서 항공우주 도메인 특화 검색 모델 '픽시1.0'(PIXIE-v1.0)로 글로벌 2위를 차지했다고 3일 밝혔다.
허깅페이스는 전세계 AI 개발자가 활동하는 오픈소스 AI 플랫폼이자 세계 최대 AI 커뮤니티다. 개발자들은 연일 다양한 AI 모델을 올리며 뜨거운 기술 경쟁을 펼친다.
픽시1.0은 항공우주·위성·국방 등 고도의 전문 기술 문서를 검색하는 AI 모델이다. 위성 설계 문서, 기술 규격서, 운용 매뉴얼 등 방대한 항공우주 기술 문서를 자연어 질의로 보다 수월하게 검색할 수 있도록 설계됐다.
텔레픽스가 운영하는 위성용 에이전트 AI 솔루션 '샛챗'(SatCHAT)의 성능 고도화를 위해 개발됐으며, 앞서 공개한 픽시 프리뷰(PIXIE-Preview)에 이어 이번 1.0 버전에서는 도메인 특화 검색 성능을 정량적으로 검증하는 데 중점을 뒀다.
픽시1.0은 허깅페이스를 통해 공개된 글로벌 검색 벤치마크 'RTEB'(Retrieval Embedding Benchmark, 검색 임베딩 성능 평가 지표)의 매개변수 10억(1B)개 이하 모델 부문에서 세계 2위를 기록했다.
RTEB는 기존 임베딩 모델 평가 표준으로 활용돼 온 'MTEB'(Massive Text Embedding Benchmark, 대량 텍스트 임베딩 벤치마크 리더보드)를 확장한 차세대 검색 벤치마크다.
테스트 데이터 위주의 점수 경쟁이 아닌 실제 산업 환경에서의 AI 모델 정보 검색 성능을 평가하는 데 초점을 맞췄다. 법률·금융·의료·코드 등 고난도 도메인을 기반으로 모델의 실질적인 산업 활용 가능성을 검증할 수 있다.
대부분은 법률·금융·의료·코드 등 여러 도메인을 포괄하는 범용 모델인 반면, 텔레픽스의 픽시1.0은 항공우주 도메인과 한·영 기술 문서에 집중했음에도 글로벌에서 상위권의 성과를 냈다는 설명이다.
텔레픽스 관계자는 "모델 규모 확장이 아닌 도메인 특화 데이터 정제와 학습 품질 개선만으로도 높은 성능을 달성할 수 있음을 보여줬다"며 "전문 용어와 약어가 많은 항공우주 문서 환경에서도 의미 기반 검색이 안정적으로 작동해 산업현장 적용 가능성을 확인했다"고 부연했다.
아울러 텔레픽스는 RTEB에서 직접적으로 다루지 않는 한국어를 포함한 다국어 항공우주 도메인 검색 성능을 검증하기 위해 자체 구축한 검색 벤치마크 '스텔라'(STELLA)를 활용한 추가 평가를 진행했다.
스텔라는 항공우주 전문 문서를 기반으로 구성된 다국어 정보 검색 벤치마크다. 항공우주 도메인에 특화된 공개 검색 평가 기준이 거의 없는 현실적 한계를 보완하기 위해 설계됐다.
픽시1.0은 파라미터 규모 대비 우수한 검색 정확도를 보였으며, 언어·도메인 특화 검색 역량을 안정적으로 확보한 것으로 확인됐다. 텔레픽스는 픽시1.0이 RAG(검색증강생성) 기반 AI 시스템에서 전문 기술 문서 검색을 위한 핵심 모델로 활용될 수 있을 것으로 기대하고 있다.
권다롱새 텔레픽스 데이터사이언스 부문장은 "픽시와 스텔라가 향후 도메인 특화 정보 검색 연구와 실제 응용을 위한 기초 자료로 활용되기를 기대한다"며 "앞으로도 실제 위성 산업에서 유용하게 활용 가능한 AI 모델과 솔루션 고도화에 집중할 것"이라고 했다.