아르곤 국립 연구소가 도입한 엔비디아 DGX-A100./엔비디아

엔비디아는 전세계 슈퍼컴퓨터 센터 6곳에 자사의 암페어(Ampere) 아키텍처 기반 그래픽처리장치(GPU) 'A100'이 도입됐다고 21일 밝혔다.

이들 슈퍼컴퓨터 센터들은 미국과 독일에 위치한다. 총 1만3000여개의 A100 GPU를 사용해 천체 물리학에서 바이러스 미생물학에 이르는 다양한 분야에서 엑사스케일 시대를 열 예정이다.

A100 GPU는 64비트 부동소수점 연산을 사용하는 시뮬레이션을 위해 최대 250페타플롭(PF) 이상의 성능을 제공한다. 혼합정밀수학을 사용하고 희소성(sparsity) 지원을 위해 인공지능(AI) 추론 작업에는 무려 8.07엑사플롭스급의 성능을 제공한다. 연구원들은 이러한 컴퓨팅 성능을 통해 과학을 다각도로 발전시키고, 더 방대한 모델을 시뮬레이션하고, 고도화된 딥 네트워크를 훈련·배포하며, AI 지원 시뮬레이션이라는 새로운 하이브리드 분야를 주도할 수 있게 됐다.

일례로 미국 아르곤 국립 연구소(Argonne National Laboratory)의 연구원들은 150만 개의 원자로 구성된 코로나 바이러스 표면에 있는 단백질 스파크의 핵심 부위를 시뮬레이션 하며 코로나19 백신을 개발하고 있다. 아르곤 국립 연구소는 이를 위해 24개의 엔비디아 DGX A100 시스템 클러스터를 활용할 예정이다.

또 미국 에너지부 버클리 국립 연구소의 국립에너지연구소 과학컴퓨팅센터(NERSC)는 프리-엑사스케일 슈퍼컴퓨터인 펄머터(Perlmutter)에 6,200개의 GPU를 구축하기 위해 HPE와 협력하고 있다. 

NERSC의 엑사스케일 컴퓨팅 전담팀은 대규모 시뮬레이션, 데이터 애널리틱스, 딥 러닝을 활용하는 약 30개의 펄머터 프로젝트를 계획하고 있다. 이 중에는 강화 학습을 통해 광원 실험을 제어하는 프로젝트 등 고성능컴퓨팅(HPC)과 AI를 결합해 사용하는 프로젝트와 고에너지 물리 탐지기에서 많은 비용이 드는 시뮬레이션을 재현하기 위해 생성 모델을 사용하는 프로젝트도 있다.

이미 A100 GPU의 배정밀도 텐서 코어(Tensor Cores)를 탑재해 NERSC의 HPC 애플리케이션 중 두 개의 프로토타입이 제작됐으며, 이는 이전 세대 볼타(Volta) GPU 대비 성능이 대폭 개선됐다.

도프 도산지(Sudip Dosanjh) NERSC 디렉터는 “NERSC의 과학 및 알고리즘 분야에서 현재 사용중인 코리(Cori) 시스템의 KNL CPU 노드를 V100 GPU 한 개로 대체했을 때 성능이 최대 5배 빨라졌다"며 "슈퍼컴퓨터 펄머터에 A100를 탑재할 경우 성능이 훨씬 향상될 것으로 기대된다”고 전했다.

A100은 프랑스 슈퍼컴퓨터 제조기업 아토스(Atos)가 제작한 독일 율리히(Jülich) 슈퍼컴퓨팅 센터의 새로운 70PF 시스템에도 적용됐다. 여러 프로젝트 중 비교적으로 느린 대규모 대기 시뮬레이션을 사용하는 기존 시스템을 보완하면서 단기간에 빠른 기상 예측을 제공하는 것을 목표로 하는 딥 레인(Deep Rain) 프로젝트에 도입된다. 

이 외에도 수천 개의 고해상도 2D 뇌 이미지를 딥 러닝으로 조합해 인간 두뇌의 섬유 지도(atlas)를 구축하는 프로젝트에도 활용될 예정이다. 또 율리히 센터가 도입한 새로운 A100 시스템은 물질을 구성하는 아원자 단위 쿼크(quark)의 응집력을 연구하고, 기후 과학 프로젝트를 통해 지표면과 지하수 흐름을 모델링하는데 기여하게 된다.

막스 플랑크 연구소(Max Planck Institute) 컴퓨터센터는 레노버와 합작해 768개의 엔비디아 A100 GPU로 구동되는 레이븐-GPU(Raven-GPU)라는 슈퍼컴퓨터 시스템을 구축하고 있다. 레이븐-GPU는 천체 물리학, 생물학, 이론 화학, 고급 재료학과 같은 분야에 사용된다. 막스 플랑크 연구소는 연말까지 레이븐-GPU를 설치하는 것을 목표로 하고 있으며 현재 A100에 최적화된 애플리케이션 지원 요청을 받고 있다.

저작권자 © 파이브에코(FIVE ECOs) 무단전재 및 재배포 금지