엔비디아 A100 GPU 2000개 이상을 넣은 엔비디아의 DGX 슈퍼POD./사진=엔비디아

엔비디아는 최근 발표된 인공지능(AI) 벤치마크 테스트 'MLPerf' 결과에서 자사의 텐서 코어 그래픽처리장치(GPU) 'A100'와 이를 기반으로 한 'DGX 슈퍼POD' 등이 전세계 상용 제품 중 가장 빠른 AI 훈련 성능을 기록했다고 30일 밝혔다. 

MLperf의 훈련 테스트는 지난 2018년부터 실시됐다. 엔비디아는 그 해부터 올해까지 3회 연속으로 가장 좋은 성과를 냈다. 지난 2018년 12월 첫 번째 MLperf 훈련 벤치마크에서 처음으로 6개의 기록을 세우고, 2019년 7월에는 8개의 기록을 경신했다. 

 올해 이 회사가 테스트에 제출한 건 암페어(Ampere) 아키텍처 기반의 A100 GPU와 볼타(Volta) 아키텍처 기반 GPU다. 테스트 참여 기업 중 모든 테스트에 상 용 제품을 제출한 건 엔비디아 뿐이었다.   

이번 벤치마크는 두 가지 새로운 테스트와 대대적인 수정을 거친 한 가지 테스트로 구성됐다. 

 첫 번째는 지속적인 인기를 얻고 있는 AI 과제인 추천 시스템 관련 테스트고, 두 번째는 가장 복잡한 신경망 모델 중 하나인 버트(BERT)를 이용한 대화형 AI 테스트였다. 또 19x19 풀사이즈 바둑판이 사용된 미니 바둑을 기반으로 한 강화 학습 테스트가 진행돼 게임 플레이부터 훈련까지 다양한 운영방식을 이용한 최고 난이도의 테스트가 진행됐다.

엔비디아의 A100 GPU는  8개의 모든 MLPerf 벤치마크에서 가속기 중 가장 빠른 성능을 보여줬다. 하이다이나믹레인지(HDR) 인피니밴드(InfiniBand)로 연결된 DGX A100 시스템의 대규모 클러스터 'DGX 슈퍼POD(DGX SuperPOD)' 시스템 역시 가장 빠른 시간 기록을 달성, 8개의 신기록을 세웠다.   

회사는 이 결과가 프로세서·네트워킹·소프트웨어·시스템이 결합된 AI 플랫폼을 지속적으로 개발하는데 주력해왔다는 사실을 보여준다고 자평했다. DGX A100 시스템은 V100 GPU기반 시스템 대상으로 진행됐던 1차 MLperf 테스트 대비 최대 4배 높은 성능을 제공했다. 또 소프트웨어 최적화 덕분에 엔비디아 V100 기반 DGX-1 시스템 성능은 최대 2배 향상됐다. 

엔비디아 A100 GPU는 쿠다-X(CUDA-X) 라이브 러리 소프트웨어 업데이트와 함께 멜라녹스(Mellanox) HDR 200Gb/s 인피니밴드 네트워크를 통해 확장되고 있는 클러스터 를 구동하고 있다. HDR 인피니밴드는 매우 낮은 지연시간(레이턴시)과 높은 수준의 데이터 처리량을 제공하는 동시에 샤프(SHARP) 기술을 통한 스마트 딥 러닝 컴퓨팅 가속 엔진을 제공한다.

  엔비디아는 단 몇 주  만에 구축이 가능한 대규모 GPU  클러스트용 퍼블릭 레퍼런스 아키텍처인 DGX 슈퍼POD 기반 내부 클러스터  셀린(Selene) 시스템으  로도 MLperf 테스트를 진행했다. 이 아키텍처에는 DGX POD에 사용된 설계 원칙과 레퍼런스가 그대로 적용됐다. 셀린은 1엑사플롭 이상의 AI 성능을 선보이며 최근 전세계 상위 500대 슈퍼컴퓨터를 선정하는 톱500(TOP500)에 이름을 올린 바 있다.

     아마존웹서비스(AWS), 바이두 클라우드(Baidu Cloud), 마이크로소프트 애저(Microsoft Azure), 텐센트 클라우드(Tencent Cloud) 등 글로벌 클라우드 기업들을 비롯해 델 테크놀로지스(Dell Technologies), 휴렛패커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 슈퍼마이크로(Supermicro) 등 수십 개의 주요 서버 제조업체들도 A100를 적극 도입하고 있다.

 DGX 슈퍼POD는 자동차 산업에서는  콘티넨탈(Continental), 항공우주 분야에서는 록히드마틴(Lockheed Martin), 클라우드 컴퓨팅 서비스에서는 마이크로소프트와 같은 글로벌 대기업들의 매출을 높이는데 주도적인 역할을 하고 있다. 이런 시스템들은 일정 부분 엔비디아 GPU와 DGX 시스템을 지원하는 대규모 생태계를 통해 성공적으로 구동되고 있다. 

MLperf 결과를 제출한 9곳의 기업 중 클라우드 서비스 공급업체인 알리바바 클라우드, 구글 클라우드, 텐센트 클라우드와 서버 제 조업체인 델, 후지쯔(Fujitsu), 인스퍼(Inspur) 등도 엔비디아 GPU를 사용했다.  

저작권자 © 파이브에코(FIVE ECOs) 무단전재 및 재배포 금지