LLM 성능 간편히 자가진단…업스테이지, 평가 플랫폼 무료 공개

최태범 기자 기사 입력 2024.04.03 16:30

URL이 복사되었습니다. 원하는 곳에 붙여넣기 해주세요.

공유하기
글자크기
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

인공지능(AI) 기술 스타트업 업스테이지가 노코드(No-code) 기반 거대언어모델(LLM) 종합 평가 플랫폼 '이벨버스(Evalverse)'를 오픈소스 형태로 무료 공개한다고 3일 밝혔다.

통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 벤치마크 지표를 활용한다.

모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 'H6' 지표를 포함해 대화 능력 지표 'MT-bench', 감성 평가 지표 'EQ-bench', 지시 이행 능력 지표 'IFEval' 등이 주요 벤치마크로 꼽힌다.

이벨버스는 주요 벤치마크를 한 곳에 통합해 언어모델 성능을 종합 테스트할 수 있는 평가 플랫폼이다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야 하는 번거로움이 있었지만 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다.

이벨버스는 업무용 메신저 '슬랙'에 챗봇 형태로 연동해 사용성을 확대했다. 슬랙 안에서 이벨버스 챗봇과 일대일 대화를 통해 모든 평가 과정을 간소화한 것이 특징이다. 이용자들은 '호출', '평가' 등 2개의 명령어만 입력하면 바로 원하는 모델을 호출해 테스트할 수 있다.

벤치마크별 점수에 대한 종합 리포트까지 확인할 수 있어 모델 간 비교 평가도 용이하다. 업스테이지는 생성 AI 생태계의 발전과 상생을 위해 이벨버스를 무료로 공개했다.

김성훈 업스테이지 대표는 "이벨버스는 누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 플랫폼"이라며 "앞으로도 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속하고 글로벌 생성 AI 시장의 선두 주자가 되겠다"고 했다.

업스테이지  
  • 사업분야IT∙정보통신
  • 활용기술인공지능
  • 업력***
  • 투자단계***
  • 대표상품***


[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

'업스테이지' 기업 주요 기사

관련기사

이 기사 어땠나요?

이 시각 많이 보는 기사