가우디2, A100 성능 추월
8일 AI 경량화·가속화 기술업체인 스퀴즈비츠가 진행한 측정 결과에 따르면 인텔 가우디2(SynapseAI v1.19 버전)는 엔비디아 A100의 성능을 추월했다.
|
|
이번 측정에 따르면, 가우디2는 처리량(Throughput)과 토큰 하나당 처리시간(TPOT) 모두에서 A100을 능가하는 성과를 기록했다. 한마디로 목표 처리시간이 같다면 가우디2가 A100보다 처리량이 높고, 혹은 같은 처리량을 가정하면 토큰 생성시간이 짧다는 의미다. 토큰은 생성형AI에서 입력문서 처리 단위로, 1토큰은 천단어 짜리 문서 정도다.
가우디2는 인공지능(AI) 모델의 학습과 추론 작업을 최적화하기 위해 설계된 인텔의 차세대 칩이다. 이 칩은 뛰어난 메모리 용량과 효율적인 대역폭 활용이 특징이다. 이전에는 엔비디아의 A100이 AI 모델 학습뿐 아니라 추론에서도 높은 성능을 자랑했지만, 최신 인텔의 ‘SynapseAI v1.19’ 버전과 함께 가우디2는 다양한 최적화를 통해 추론에서 A100을 능가하는 성과를 달성했다.
특히 짧은 입력 시퀀스에서 가우디2가 최대 30~40% 향상된 처리량을 기록했으며, 동적 데이터셋에서도 우수한 성능을 보였다. 가우디2는 입력 토큰 수가 적을수록 최적화된 성능을 발휘하며, AI 워크로드에서 동적 작업 처리에 강점을 보였다.
스퀴즈비츠는 측정 결과를 자사 블로그에서 밝히면서 ‘인텔의 입력이나 영향 없이 독립적으로 작성되고 있다’고 언급했다.
이러한 결과는 네이버가 인텔과 스퀴즈비츠 사이에서 인텔 향 소프트웨어 최적화 작업, 평가 방법, 그리고 거대언어모델(LLM) 서비스 요구사항 등을 전달하며 최적의 연구가 진행될 수 있도록 지원한 덕분이다.
이동수 네이버클라우드 하이퍼스케일AI 이사(네이버AI 반도체 연구소장)는 페이스북에서 “인텔 가우디2의 ‘SynapseAI v1.19’에서 제시된 Contiguous PagedAttention(메모리 블록 또는 데이터 페이지 간의 연속적인 관계를 고려한 주의 메커니즘)은 반도체 아키텍처의 특성에 맞춘 최적화 방안을 잘 보여준다”며, “가성비 좋은 서비스를 제공하는 능력을 중시해야 하는 상황에서 SynapseAI는 효과적인 해결책을 제시했다”고 평가했다.
다만, 네이버가 ‘가우디2’를 자사 데이터센터에 적용할지 여부는 아직 결정되지 않았다. 네이버 관계자는 “현재 테스트 중이며, 정해진 사항은 없다”고 밝혔다.