지금까지 인공지능(AI)과 고성능컴퓨팅(HPC)를 위해 슈퍼컴퓨터를 이용할 수 있는 기회는 대기업 및 기관에 국한됐다. 이같은 한계를 타파하기 위해 엔비디아가 나섰다.

 

세계에서 가장 빠른 슈퍼컴퓨터, 애저 인스턴스로 제공

엔비디아는 19일 마이크로소프트(Microsoft)의 클라우드 컴퓨팅 플랫폼 애저(Azure)에서 구동되는 NDv2 인스턴스를 공개했다.

NDv2 인스턴스의 백엔드 네트워크에는 엔비디아 V100 텐서코어 그래픽처리장치(GPU) 최대 800개가 단일 멜라녹스 인피니밴드(Mellanox InfiniBand)를 통해 상호 연결돼있다. 이를 통해 세계에서 가장 빠른 슈퍼컴퓨터급의 성능을 자랑한다. 

 

엔비디아 V100 텐서코어 그래픽처리장치(GPU)./엔비디아
엔비디아 V100 텐서코어 그래픽처리장치(GPU)./엔비디아

특히 복잡한 AI, 머신러닝 및 HPC 워크로드에 이상적이다. 기존 CPU 기반 컴퓨팅과 비교하면 성능·비용에서 모두 이점을 얻을 수 있다. 8개의 GPU를 사용하는 하나의 인스턴스를 클러스터링해 다양한 워크로드에 맞게 확장 가능해 복잡한 대화형 AI 모델도 단 몇 시간만에 학습시킬 수 있다.

실제 마이크로소프트와 엔비디아 엔지니어들은 시험판 버전의 클러스터에서 64개의 NDv2 인스턴스를 사용, 구글의 AI 언어모델인 버트(BERT)를 약 3시간 만에 훈련시켰다. 여기에는 NCCL, 엔비디아 쿠다 X(CUDA X) 라이브러리, 그리고 고속 멜라녹스 인터커넥트에서 제공되는 다중 GPU 최적화가 활용됐다.

원자 규모로 물질을 시뮬레이션하는데 사용되는 분자 역학 애플리케이션 LAMMPS처럼 복잡한 HPC 워크로드도 문제 없다. 단일 NDv2 인스턴스는 딥 러닝과 같은 특정 유형의 애플리케이션에 GPU 가속없이 기존 HPC 노드보다 훨씬 빠른 결과를 제공한다. 

모든 NDv2 인스턴스는 GPU에 최적화된 HPC 애플리케이션, 머신러닝 소프트웨어, 그리고 엔비디아 NGC 컨테이너 레지스트리 및 애저 마켓플레이스에서 이용가능한 텐서플로우(TensorFlow), 파이토치(PyTorch), MxNet 등과 같은 딥 러닝 프레임워크의 지원을 받는다. 이 레지스트리는 또한 쿠버네티스(Kubernetes) 클러스터에 AI 소프트웨어를 쉽게 배포할 수 있는 헬름(Helm) 차트를 제공한다.

기리시 바블라니(Girish Bablani) 마이크로소프트의 애저 컴퓨트 담당 부사장은 “클라우드 컴퓨팅이 전세계 모든 업계에 걸쳐 도입이 가속화되면서 고객들은 보다 강력한 서비스를 요구하고 있다"며 "엔비디아와 협력해 고객들로 하여금 이전에는 상상할 수 없었던 수준의 슈퍼컴퓨팅 파워에 즉각적으로 액세스할 수 있도록 해 새로운 혁신의 시대를 열고 있다”고 말했다.

 

슈퍼컴퓨터용 GPU 가속 Arm 서버 레퍼런스 발표

엔비디아 Arm 서버 레퍼런스 디자인 플랫폼./엔비디아
엔비디아 Arm 서버 레퍼런스 디자인 플랫폼./엔비디아

여전히 슈퍼컴퓨터용 중앙처리장치(CPU) 시장의 제왕은 인텔이다. 엔비디아의 GPU도 인텔 CPU 기반 서버에 최적화됐었다. 하지만 Arm과 AMD, IBM 서버의 비중도 10%에 가깝다. 결코 이들을 무시할 수 없다는 얘기다.

엔비디아는 이날 슈퍼컴퓨팅 컨퍼런스(SC19)에서 GPU 가속 Arm 기반 서버를 빠르게 구축할 수 있도록 하는 레퍼런스 설계 플랫폼을 발표했다. 이 플랫폼은 하드웨어 및 소프트웨어 빌딩블록으로 구성됐다.

앞서 엔비디아는 올해 초 쿠다-X(CUDA-X) 소프트웨어 플랫폼을 Arm 기반 서버에서 활용할 수 있도록 지원한다고 밝힌 바 있다. 

이를 위해 엔비디아는 Arm을 비롯, 암페어 후지쯔 마벨 등 Arm 생태계 협력사들과 힘을 모았다. 일찍부터 Arm 기반 서버를 제공해온 업체로 휴렛팩커드엔터프라이즈(HPE)가 최근 인수한 크레이(Cray), 그리고 HPE와도 긴밀하게 협력했다.

이외 여러 HPC 소프트웨어 기업들이 엔비디아 CUDA-X 라이브러리로 Arm 기반 서버에서 실행되는 GPU 기반 모니터링 및 관리 툴을 구축하는 한편 HPC 생태계 업체들은 Arm 플랫폼에서 구동되는 자사 애플리케이션에 GPU 가속화를 적용하기 위해 광범위한 코드를 컴파일해왔다.

미국의 오크 리지(Oak Ridge) 및 샌디아 국립연구소(Sandia National Laboratory), 영국의 브리스톨 대학교(University of Bristol), 일본의 이화학연구소(Riken) 등 세계적인 슈퍼컴퓨팅 센터들은 GPU 가속기능이 적용된 Arm 기반 컴퓨팅 시스템을 테스트하기 시작했다.

젠슨 황 CEO는 “HPC의 르네상스가 도래했다"며 "엔비디아 GPU와 Arm의 만남은 하이퍼스케일-클라우드에서 엑사스케일 슈퍼컴퓨팅을 넘어 그 이상의 새로운 애플리케이션을 위한 시스템을 개발할 수 있는 엄청난 기회를 가져다줄 것”이라고 설명했다.

 

HPC 데이터 처리 속도 20배 개선하는 소프트웨어

엔비디아 DGX 슈퍼POD./엔비디아
엔비디아 DGX 슈퍼POD./엔비디아

초고성능의 컴퓨팅에는 마찬가지로 초고성능의 입출력(I/O) 성능이 필요하다. 아무리 데이터 처리 속도가 빨라도 데이터를 주고 받는 I/O의 속도가 뒷받침되지 않는다면 서버를 더 많이 구축할 수밖에 없다. 

엔비디아는 이와 함께 HPC 업계가 엄청난 양의 데이터를 수 분 내 처리할 수 있도록 지원하는 소프트웨어 제품군 '매그넘(Magnum) IO'를 출시한다고 밝혔다.

'매그넘 IO'는 스토리지 및 인풋·아웃풋(I/O) 병목현상 제거에 최적화됐다. 복잡한 금융 분석, 기후 모델링 및 기타 HPC 워크로드를 수행하기 위해 엄청난 양의 데이터 세트로 작업할 시 멀티 서버, 멀티 GPU 컴퓨팅 노드의 데이터 처리 속도를 최대 20배 개선한다.

매그넘 IO의 핵심은 GPU다이렉트(GPUDirect)다. GPU다이렉트는 데이터가 CPU를 우회해 GPU, 스토리지 및 네트워킹 디바이스가 제공하는 ‘개방형 고속도로’로 이동할 수 있는 경로를 제공한다. 

GPU다이렉트는 엔비디아 NV링크(NVLink) 및 NCCL은 물론이고 OpenMPI 및 UCX를 비롯한 다양한 통신 인터커넥트 및 API와 호환되며, P2P 및 RDMA(Remote Direct Memory Access) 엘리먼트로 구성된다.

GPU다이렉트 스토리지를 제외하고, 엔비디아 매그넘 IO 소프트웨어는 현재 구매 가능하며, GPU다이렉트 스토리지 경우는 현재는 얼리 액세스(early access) 대상 일부 고객들에게만 제공되고 있다. GPU다이렉트 스토리지의 일반 출시는 내년 상반기다. 

젠슨 CEO는 “데이터의 규모와 속도가 기하급수적으로 증가하면서, 데이터 처리는 데이터센터의 주요 도전과제이자 비용 문제 중 하나로 떠올랐다”며 "매그넘 IO는 컴퓨팅을 혁신한 엔비디아의 GPU 가속을 I/O 및 스토리지에 제공한 기술"이라고 말했다.

 

저작권자 © 파이브에코(FIVE ECOs) 무단전재 및 재배포 금지