네이버·인텔 ‘가우디2’, A100 성능 추월…가성비 AI칩 시대 열다

스퀴즈비츠 측정 결과 발표
인텔 가우디2, 엔비디아 A100 성능 추월
처리량과 토큰 하나당 처리시간 앞서
네이버, 가우디2 최적화 도와
가성비 AI칩 시대...네이버 내부 적용은 아직

등록 2025-01-08 오후 3:41:48

수정 2025-01-08 오후 7:10:02
가 가

[이데일리 김현아 기자] 네이버(NAVER(035420))와 인텔이 협력하여 개발한 ‘가우디2’가 엔비디아(NVIDIA) A100 성능을 능가하며 AI 칩의 새로운 전환점을 맞이한 것으로 나타났다. 네이버와 인텔은 지난해 5월부터 인텔의 AI 반도체 가우디 칩을 네이버 하이퍼클로바X에 최적화하기 위해 소프트웨어 라이브러리(vLLM)작업에 착수했으며 결실을 맺은 셈이다.

가우디2, A100 성능 추월

8일 AI 경량화·가속화 기술업체인 스퀴즈비츠가 진행한 측정 결과에 따르면 인텔 가우디2(SynapseAI v1.19 버전)는 엔비디아 A100의 성능을 추월했다.

[이데일리 김일환 기자]

출처=스퀴즈비츠 블로그. 세로축은 처리량(Throughput), 가로축은 토큰 하나당 처리시간(TPOT)을 의미한다.

이번 측정에 따르면, 가우디2는 처리량(Throughput)과 토큰 하나당 처리시간(TPOT) 모두에서 A100을 능가하는 성과를 기록했다. 한마디로 목표 처리시간이 같다면 가우디2가 A100보다 처리량이 높고, 혹은 같은 처리량을 가정하면 토큰 생성시간이 짧다는 의미다. 토큰은 생성형AI에서 입력문서 처리 단위로, 1토큰은 천단어 짜리 문서 정도다.

1000개(1K) 토큰을 기준으로, 가우디2는 3600 tokens/s와 28ms를 기록하며 A100의 3400 tokens/s와 33ms를 초과했다. 또한, 2000개(2K) 토큰을 기준으로도 가우디2는 2900 tokens/s와 38ms를 기록했고, A100은 2750 tokens/s와 42ms로 뒤처졌다.

가우디2는 인공지능(AI) 모델의 학습과 추론 작업을 최적화하기 위해 설계된 인텔의 차세대 칩이다. 이 칩은 뛰어난 메모리 용량과 효율적인 대역폭 활용이 특징이다. 이전에는 엔비디아의 A100이 AI 모델 학습뿐 아니라 추론에서도 높은 성능을 자랑했지만, 최신 인텔의 ‘SynapseAI v1.19’ 버전과 함께 가우디2는 다양한 최적화를 통해 추론에서 A100을 능가하는 성과를 달성했다.

특히 짧은 입력 시퀀스에서 가우디2가 최대 30~40% 향상된 처리량을 기록했으며, 동적 데이터셋에서도 우수한 성능을 보였다. 가우디2는 입력 토큰 수가 적을수록 최적화된 성능을 발휘하며, AI 워크로드에서 동적 작업 처리에 강점을 보였다.

스퀴즈비츠는 측정 결과를 자사 블로그에서 밝히면서 ‘인텔의 입력이나 영향 없이 독립적으로 작성되고 있다’고 언급했다.

네이버, 가우디2 최적화 도와…가성비 AI칩 시대 열다

이러한 결과는 네이버가 인텔과 스퀴즈비츠 사이에서 인텔 향 소프트웨어 최적화 작업, 평가 방법, 그리고 거대언어모델(LLM) 서비스 요구사항 등을 전달하며 최적의 연구가 진행될 수 있도록 지원한 덕분이다.

이동수 네이버클라우드 하이퍼스케일AI 이사(네이버AI 반도체 연구소장)는 페이스북에서 “인텔 가우디2의 ‘SynapseAI v1.19’에서 제시된 Contiguous PagedAttention(메모리 블록 또는 데이터 페이지 간의 연속적인 관계를 고려한 주의 메커니즘)은 반도체 아키텍처의 특성에 맞춘 최적화 방안을 잘 보여준다”며, “가성비 좋은 서비스를 제공하는 능력을 중시해야 하는 상황에서 SynapseAI는 효과적인 해결책을 제시했다”고 평가했다.

다만, 네이버가 ‘가우디2’를 자사 데이터센터에 적용할지 여부는 아직 결정되지 않았다. 네이버 관계자는 “현재 테스트 중이며, 정해진 사항은 없다”고 밝혔다.