[스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
원라인에이아이 연구진 /사진=원라인에이아이
AI(인공지능) 금융 솔루션 기업 원라인에이아이가 세계적 권위의 자연어 처리 학회 'ACL'(Association for Computational Linguistics)의 메인 컨퍼런스에 논문을 등재했다고 4일 밝혔다.
ACL은 전산 언어학 및 자연어 처리 연구에 종사하는 사람들을 위한 학회로, 구글 학술 검색(Google Scholar)에서 컴퓨터 언어학 분야의 색인 및 인용 지수가 1위인 학회다. 올해 컨퍼런스는 오는 7월 오스트리아 비엔나에서 개최될 예정이다.
원라인에이아이는 카이스트 AI 연구진과 공동 연구해 '수학적 추론에서 테스트 시 스케일링의 언어적 일반화 가능성'(Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning) 논문을 발표했다.
이 논문은 AI 언어 모델의 테스트 타임 스케일링(Test-Time Scaling) 추론 능력이 다양한 언어 환경에서도 유지되는지를 분석했다.
테스트 타임 스케일링은 모델을 훈련한 후 테스트(추론) 단계에서 입력 데이터나 모델 내부 처리 과정을 조절(스케일링)해 성능을 향상시키는 기법을 뜻한다. 즉 훈련을 다시 하지 않고도 모델이 더욱 잘 추론하도록 돕는 방법이다.
원라인에이아이는 올해 초에도 테스트 타임 스케일링을 이용한 모델을 발표한 바 있다. 이번 연구에서는 테스트 타임 스케일링 기법들이 여러 언어 환경에서 균일하게 효과를 낼 수 있는지 검증했다.
원라인에이아이 연구팀은 이를 위해 다국어 수학 추론 평가를 위한 벤치마크 MCLM(Multilingual Competition Level Math)을 개발했다. 이 벤치마크는 55개 언어로 번역된 고난이도 수학 문제들로 구성됐다.
연구팀은 이 데이터셋을 기반으로 △Outcome Reward Modeling(ORM) △Process Reward Modeling(PRM) △Budget Forcing(BF) 등 세 가지 주요한 테스트 타임 스케일링 방식을 실험하고 비교 분석했다.
논문에서 제안한 모델인 MR1-1.5B는 상대적으로 적은 1.5B의 파라미터를 가진 모델임에도 불구하고 벤치마크에서 동사이즈의 Qwen2.5-Math-1.5B-Instruct(23.98)와 DeepSeek-R1-1.5B(28.83) 보다 높은 30.93점을 기록했다.
원라인에이아이 관계자는 "이번 논문 발표와 함께 연구에 사용된 벤치마크 데이터셋인 MCLM을 오픈 소스 모델 및 데이터셋 공유 사이트인 허깅페이스에 공개했다. 앞으로 관련 연구에 널리 활용돼 글로벌 연구진들의 다양한 후속 연구에 도움을 줄 것"이라고 했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

ACL은 전산 언어학 및 자연어 처리 연구에 종사하는 사람들을 위한 학회로, 구글 학술 검색(Google Scholar)에서 컴퓨터 언어학 분야의 색인 및 인용 지수가 1위인 학회다. 올해 컨퍼런스는 오는 7월 오스트리아 비엔나에서 개최될 예정이다.
원라인에이아이는 카이스트 AI 연구진과 공동 연구해 '수학적 추론에서 테스트 시 스케일링의 언어적 일반화 가능성'(Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning) 논문을 발표했다.
이 논문은 AI 언어 모델의 테스트 타임 스케일링(Test-Time Scaling) 추론 능력이 다양한 언어 환경에서도 유지되는지를 분석했다.
테스트 타임 스케일링은 모델을 훈련한 후 테스트(추론) 단계에서 입력 데이터나 모델 내부 처리 과정을 조절(스케일링)해 성능을 향상시키는 기법을 뜻한다. 즉 훈련을 다시 하지 않고도 모델이 더욱 잘 추론하도록 돕는 방법이다.
원라인에이아이는 올해 초에도 테스트 타임 스케일링을 이용한 모델을 발표한 바 있다. 이번 연구에서는 테스트 타임 스케일링 기법들이 여러 언어 환경에서 균일하게 효과를 낼 수 있는지 검증했다.
원라인에이아이 연구팀은 이를 위해 다국어 수학 추론 평가를 위한 벤치마크 MCLM(Multilingual Competition Level Math)을 개발했다. 이 벤치마크는 55개 언어로 번역된 고난이도 수학 문제들로 구성됐다.
연구팀은 이 데이터셋을 기반으로 △Outcome Reward Modeling(ORM) △Process Reward Modeling(PRM) △Budget Forcing(BF) 등 세 가지 주요한 테스트 타임 스케일링 방식을 실험하고 비교 분석했다.
논문에서 제안한 모델인 MR1-1.5B는 상대적으로 적은 1.5B의 파라미터를 가진 모델임에도 불구하고 벤치마크에서 동사이즈의 Qwen2.5-Math-1.5B-Instruct(23.98)와 DeepSeek-R1-1.5B(28.83) 보다 높은 30.93점을 기록했다.
원라인에이아이 관계자는 "이번 논문 발표와 함께 연구에 사용된 벤치마크 데이터셋인 MCLM을 오픈 소스 모델 및 데이터셋 공유 사이트인 허깅페이스에 공개했다. 앞으로 관련 연구에 널리 활용돼 글로벌 연구진들의 다양한 후속 연구에 도움을 줄 것"이라고 했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
관련기사
- TK 지역 스타트업 제조역량 키운다…삼광-대구혁신센터 맞손
- 엔비디아가 성장 돕는 韓 기술 스타트업…"AI로 뇌 건강 챙긴다"
- 초격차 스타트업 손잡고 혁신 만든다…'이노웨이브' 수요기업 모집
- 쿠팡·삼성전자 출신 CTO 영입 부릉, 'AI 네이티브' 승부수
- 기자 사진 최태범 기자 bum_t@mt.co.kr 다른 기사 보기
<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>