셀렉트스타, 한국형 LLM 신뢰성 높인다…데이터셋 'KorNAT' 공개

한국 사회가치관·공통지식 LLM 평가 최초 데이터셋
카이스트 AI대학원과 LLM 신뢰성 연구 새기준 수립

등록 2024-04-12 오후 12:00:00

수정 2024-04-12 오후 12:00:00
가 가

[이데일리 한광범 기자] 데이터-센트릭(Data-centric) AI 전문 기업 셀렉트스타가 12일 한국의 AI 신뢰성 연구 발전에 중요한 이정표가 될 수 있는 연구논문을 공개했다.

김세엽 셀렉트스타 대표. (사진=셀렉트스타)

김세엽 셀렉트스타 대표는 이날 서울 삼성동 코엑스에서 열린 과학기술정보통신부 주최 ‘글로벌 AI 안전 컨퍼런스’에서 한국의 사회적 가치관과 공통 지식에 대해 거대언어모델(LLM)을 평가하는 최초의 데이터셋을 고도화한 KorNAT‘(LLM Alignment Benchmark for Korean Social Values and Common Knowledge)을 공개했다.

잎서 셀렉트스타는 지난해 한국지능정보사회진흥원(NIA)의 AI 학습용 데이터 구축 사업의 일환으로 네이버· SK텔레콤, KT, LG와 함께한 초거대 언어모델(LLM) 신뢰성 벤치마크 데이터를 구축한 바 있다.

LLM 신뢰성 벤치마크 데이터는 LLM의 신뢰성을 △무해성(Harmless) △정보정확성(Honesty) △도움적정성(Helpfulness) 등 다양한 방면으로 평가할 수 있는 데이터셋을 일컫는다. 이 벤치마크 데이터셋을 바탕으로 카이스트 김재철AI대학원과 협력해 보다 연구를 고도화해 이번 KorNAT 논문을 작성했다.

연구에 참여한 셀렉트스타 관계자에 따르면 KorNAT 연구의 핵심은 특정 국가(본 논문에서는 한국)의 맞춤형 LLM이 해당 국가 구성원의 사회적 가치관 및 기본 지식과 얼마나 일치(alignment)하는가를 평가하는 것이다.

기존 벤치마크 데이터는 LLM이 얼마나 문제를 잘 푸는지 윤리적인 문제가 없는지 등의 영역만을 다루었으나 이번 데이터에서는 의견이 갈릴 수 있는 ‘사회적 가치관’과 국가 공통 교육 과정의 ‘기본 지식’에 초점을 맞춰 LLM이 해당 국가 구성원들의 생각과 지식수준이 얼마나 일치하는지를 평가하는 것이다.

1만개의 평가 데이터로 면밀히 구축한 데이터셋은 설문 조사 이론에 기반해 수차례 인간의 검토를 거쳐 그 품질과 신뢰성을 더욱 개선됐다. 이 논문은 현재 아카이브에 등재됐으며 국제 학술대회 ACL 2024의 심사 결과를 기다리고 있다. 셀렉트스타는 이번 연구가 국내 AI LLM 연구의 퀄리티와 신뢰성을 한 단계 더 높이는 데 중대한 역할을 할 것으로 기대된다고 밝혔다.

올해 하반기에는 KorNAT 데이터셋 등 LLM 신뢰성 벤치마크 데이터를 기반으로 온라인 평가가 가능한 공개 리더보드의 론칭도 예정돼 있어 국내 연구자들에게 더 큰 발전과 교류의 장을 제공할 것으로 보인다.

정송 KAIST 김재철AI대학원장은 “KorNAT 논문 발표는 한국에서 요구하는 기본상식과 가치관을 전 세계 LLM에 반영할 수 있는 중요한 연구결과”라고 밝혔다. 김세엽 셀렉트스타 대표는 “AI 상용화 시대 다가오고 있다. 기존 서비스 시너지 위한 툴로서 LLM을 사용하기 때문에 LLM 신뢰성 확보해야 한다”며 “KorNAT 논문발표는 AI 신뢰성의 중요성에 대한 공감대를 형성하고 우리의 기술력을 널리 알릴 수 있는 좋은 기회였다”고 말했다.