Computer engineers at ORNL pioneer approaches to energy-efficient supercomputing
왼쪽부터 ORNL의 Analytics and AI Methods at Scale 그룹의 Sedrick Bouknight와 Matthias Maiterth가 Frontier 디지털 트윈 프로젝트의 ExaDIGIT 프레임워크의 VR 기능을 시연하고 있습니다.VR을 사용하면 Frontier의 운영자는 보다 대화형이고 직관적인 방식으로 시스템의 원격 측정을 검사할 수 있습니다.출처: Wes Brewer/ORNL, 미국 에너지부

첨단 기술 기업들이 인공 지능 분야의 비즈니스 호황을 충족하기 위해 대규모 데이터 센터 건설을 늘리면서 한 가지 구성 요소인 전기는 점점 더 희귀한 상품이 되고 있습니다.

미국 에너지정보청(U.S. Energy Information Administration)에 따르면 상업용 전기 수요는 최근 몇 년간 급격히 증가해 2024년에만 3% 증가할 것으로 예상됩니다.하지만 그건성장은 단지 몇몇 주에 의해 주도되었습니다.버지니아, 텍사스 등 대규모 컴퓨팅 시설의 허브로 빠르게 자리잡고 있는 곳입니다.

부동산 서비스 회사 CBRE가 '글로벌 데이터 센터 동향 2024' 연구에서 보고한 대로 북미 데이터 센터의 재고는 2024년 1분기에 전년 대비 24.4% 증가했습니다.이러한 새로운 센터는 100~1,000메가와트의 용량, 즉 80,000~800,000가구에 전력을 공급할 수 있는 부하로 건설되고 있다고 전력연구소(Electric Power Research Institute)는 밝혔습니다.2024년 백서.

본 논문에서 EPRI는 AI와 데이터센터의 에너지 소비를 분석하고, 연간 10%의 높은 성장률이 지속된다면 데이터센터는 추정치 대비 2030년까지 미국 총 발전량의 최대 6.8%를 연간 소비할 것으로 예측하고 있다.오늘은 4%.

급증하는 수요를 충족시키기 위해 Goldman Sachs Research는 미국 전력회사가 새로운 발전 용량에 약 500억 달러를 투자해야 할 것으로 추정합니다.한편, 풀뿌리 단체들이 점점 더 많은 데이터 센터의 잠재적인 지역적 영향과 AI용 전기 및 냉각용 물 수요 증가에 항의하면서 일부 지역에서 데이터 센터 건설에 대한 지역 사회의 반대도 커지고 있습니다.

국가의 민간 기업이 AI "혁명"을 주도하는 어려운 도전을 해낼 수 있는지 여부는 돈보다는 독창성에 더 많이 의존할 수 있습니다.CBRE 연구는 다음과 같은 도움이 되거나 아마도 희망적인 권장 사항으로 마무리됩니다. "고성능 컴퓨팅(또는 HPC)은 데이터 센터 설계 및 기술의 급속한 혁신을 통해필요해."

Oak Ridge 국립 연구소에 위치한 에너지부 과학 사용자 시설인 Oak Ridge Leadership Computing Facility에서는 에너지 효율적인 슈퍼컴퓨팅에 대한 새로운 접근 방식을 조사하는 것이 항상 임무의 일부였습니다.

OLCF는 2004년 설립 이후 5세대에 걸쳐 초당 부동 소수점 연산(플롭)당 에너지 효율을 거의 2,000배 증가시킨 세계적 수준의 슈퍼컴퓨팅 시스템을 개발해 왔습니다.OLCF의 최신 슈퍼컴퓨터인 Frontier는 현재TOP500 목록에서 1위를 차지했습니다.세계에서 가장, 그리고 2022년에 데뷔했습니다.Green500 목록의 상위권세계에서 가장 에너지 효율적인 컴퓨터 중 하나입니다.

전기 요금을 저렴하게 유지하는 것은 정부 지원 시설이 되는 것과 밀접한 관련이 있습니다.그러나 리더십 슈퍼컴퓨터를 구축하고 유지하는 것은 더 이상 정부만의 영역이 아닙니다.주요 기술 기업들이 HPC에 대대적으로 진출했지만 이제 막 이러한 대형 시스템이 얼마나 많은 전력을 소비하는지 걱정하기 시작했습니다.

"우리 기계는 항상 지구상에서 가장 큰 기계였지만 이제는 더 이상 사실이 아닙니다. 민간 ​​기업은 이제 Frontier보다 몇 배 더 큰 기계를 배포하고 있습니다. 오늘날 그들은 본질적으로 깊은 주머니가 무제한이므로 일어서는 것이 쉽습니다.효율성에 대한 우려가 없는 데이터 센터입니다."라고 ORNL 산하 국립 계산 과학 센터(NCCS)의 최고 기술 책임자인 Scott Atchley는 말했습니다."전력이 더욱 제한되면 상황이 바뀔 것이며 비용 대비 최대한의 효과를 얻고 싶어할 것입니다."

HPC의 에너지 효율성을 높이는 데 수십 년간의 경험을 바탕으로 OLCF는 갑자기 급성장하는 업계에서 최고의 "비용 대비 효과"를 제공하는 리소스 역할을 할 수 있습니다.

OLCF 프로그램 디렉터인 Ashley Barker는 "우리는 애플리케이션부터 하드웨어, 시설에 이르기까지 HPC의 전체 에너지 효율성 생태계에 영향을 미칠 수 있는 독보적인 위치에 있습니다. 그리고 문제를 해결하려면 이 세 가지 영역 모두에서 효율성 향상이 필요합니다."라고 말했습니다..

"에너지 효율성 향상을 위한 노력은 우리 시설의 모든 측면에서 작용합니다. 우리가 구입할 수 있는 가장 에너지 효율적인 하드웨어는 무엇입니까? 해당 하드웨어를 실행할 수 있는 가장 에너지 효율적인 방법은 무엇입니까? 그리고 가장 에너지를 많이 소모하는 것은 무엇입니까?하드웨어에서 실행되는 애플리케이션을 조정할 수 있는 효율적인 방법은 무엇입니까?"

OLCF가 Discovery라고 불리는 Frontier의 후속 제품을 계획함에 따라 여러 팀이 함께 협력하여 2028년까지 HPC의 차세대 에너지 효율성을 입증할 새로운 슈퍼컴퓨터를 제공할 때 이러한 질문이 매일 제기됩니다.

시스템 하드웨어

지난 30년 동안 가장 중요한 컴퓨팅 효율성 향상 중 하나는 예상치 못한 출처인 비디오 게임에서 비롯되었습니다.

보다 구체적으로 말하면, 점점 더 정교해지는 게임 내 그래픽에 대한 비디오 게임 업계의 요구를 충족시키기 위해 경쟁하는 칩 제조업체에서 혁신이 이루어졌습니다.게이머의 관심을 끄는 사실적인 비주얼을 구현하기 위해 개인용 컴퓨터와 게임 콘솔에는 상세한 동영상을 렌더링하는 전용 칩(그래픽 처리 장치, GPU라고도 함)이 필요했습니다.

오늘날 GPU는 대부분의 슈퍼컴퓨터, 특히 인공 지능 모델 훈련에 사용되는 슈퍼컴퓨터에서 없어서는 안 될 부분입니다.2012년 OLCF가 Titan 슈퍼컴퓨터를 통해 리더십 규모의 HPC에서 GPU 사용을 개척했을 때 이 설계는 중앙 처리 장치, 즉 CPU에만 의존하는 기존 시스템에서 과감하게 벗어난 것으로 간주되었습니다.

계산 과학자들은 간단한 계산을 통해 전환하고 솔루션 시간을 단축하는 GPU의 기능을 완전히 활용하기 위해 코드를 조정해야 했습니다.컴퓨터가 특정 문제를 해결하는 데 걸리는 시간이 짧을수록 주어진 시간 내에 해결할 수 있는 문제는 더 많아집니다.

"GPU는 설계상 CPU보다 에너지 효율적입니다. 왜 더 효율적인가요? 컴퓨터에 전기를 공급하고 계산을 매우 효율적으로 수행하려면 거의 모든 전력을 공급해야 합니다.부동 소수점 연산. 모든 CPU 칩에 있는 다른 모든 항목이 아닌 부동 소수점 단위만큼 많은 실리콘 영역을 원합니다.

ORNL의 Frontier 프로젝트 이사인 Al Geist는 "GPU는 거의 순수한 부동 소수점 단위입니다. GPU가 있는 기계에 전기를 공급할 때 CPU만 있는 기계에 비해 대략 10분의 1의 에너지가 필요합니다"라고 말했습니다.

2012년 GPU에 대한 OLCF의 도박은 다음 10년 동안 OLCF 슈퍼컴퓨터의 각 세대가 더 빠른 GPU 수를 늘리면서 점점 더 에너지 효율적인 시스템으로 결실을 맺었습니다.이러한 발전은 2022년 세계 최초의 엑사급 슈퍼컴퓨터로 출시된 Frontier 아키텍처에서 최고조에 이르렀습니다. 이 슈퍼컴퓨터는 초당 100경 이상의 계산이 가능하고 9,408개의 컴퓨팅 노드로 구성됩니다.

그러나 2008년에 엑사스케일 논의가 시작되었을 때 엑사스케일 연구 그룹(Exascale Study Group)은 다음과 같은 내용을 요약한 보고서를 발표했습니다.네 가지 가장 큰 과제, 그 중 가장 중요한 것은 전력 소비였습니다.연간 전기 요금이 5억 달러에 달할 것으로 예상했습니다.보고서는 2015년 예상되는 기술 발전을 고려하더라도 간단한 1엑사플롭 시스템이 150메가와트의 전력을 사용할 것으로 예측했습니다.

"DOE는 '그건 시작이 아닙니다.'라고 말했습니다.글쎄, 우리는 무엇이 허용될 수 있는지 물었고 돌아온 대답은 '기계 비용보다 전기에 더 많은 돈을 지출하는 것을 원하지 않습니다'라고 Geist는 말했습니다."2009년 기준으로 슈퍼컴퓨터의 가격은 약 1억 달러입니다. 수명은 약 5년입니다.

"결국 우리가 전기에 쓸 수 있는 금액은 연간 약 2천만 달러입니다. 2천만 달러에서 얼마나 많은 메가와트를 얻을 수 있습니까? 여기 테네시 동부의 1메가와트는 대략 연간 100만 달러에 해당합니다. 그래서우리가 목표로 설정한 숫자는 엑사플롭당 20메가와트 시스템입니다."

에너지 소비 목표를 달성하기 위한 명확한 경로는 없었습니다.따라서 2012년에 DOE Office of Science는 공급업체와 협력하여 신기술을 발전시키기 위해 FastForward 및 DesignForward 프로그램을 시작했습니다.

FastForward는 처음에 성능, 전력 소비 및 탄력성 문제를 해결하기 위해 프로세서, 메모리 및 스토리지 공급업체에 중점을 두었습니다.나중에는 노드 설계(즉, 개별 컴퓨팅 서버)로 초점을 옮겼습니다.DesignForward는 처음에는 네트워크를 예상되는 시스템 크기로 확장하는 데 중점을 두었고 나중에는 전체 시스템 패키징, 통합 및 엔지니어링에 중점을 두었습니다.

FastForward 투자의 결과로, 반도체 칩 공급업체인 AMD는 64코어 3세대 EPYC CPU와 4개의 Instinct MI250X GPU로 구성된 Frontier용 더 빠르고 강력한 컴퓨팅 노드를 개발했으며 GPU를 만드는 방법을 알아냈습니다.사용되지 않는 칩 부분을 껐다가 필요할 때 단 몇 밀리초 만에 다시 켜면 더욱 효율적입니다.

"과거에는 전체 시스템이 켜지고 유휴 상태로 앉아 여전히 전기를 소모했습니다. 이제는 전체 GPU뿐만 아니라 사용되지 않는 모든 것을 끌 수 있습니다. Frontier에서는 각 GPU의 약 50개 영역이 있습니다.사용하지 않을 경우 개별적으로 끌 수 있습니다. 이제 실리콘 영역은 주로 부동 소수점 연산에 사용될 뿐만 아니라 실제로 사용하지 않는 것에 에너지를 낭비하지 않을 것입니다."말했다.

그러나 차세대 슈퍼컴퓨터에서는 단순히 더 많은 GPU를 추가하여 와트당 더 많은 계산을 수행하는 것은 더 새롭고 발전된 아키텍처를 사용하더라도 수익이 감소하는 지점에 도달했을 수 있습니다.

"프로세서 공급업체는 실제로 작고 점진적인 개선을 제공할 수 있는 기술을 찾기 위해 많은 노력을 기울여야 할 것입니다. 이는 에너지 효율성뿐만 아니라 성능에도 해당됩니다. 그들은 점점 더 노력하고 있습니다.실리콘에서 가능한 한 많은 성능을 발휘할 수 있습니다."라고 Atchley는 말했습니다.

"우리는 무어의 법칙의 혜택을 누려 왔습니다. 트랜지스터는 더 작아지고, 더 저렴해지고, 더 빨라졌습니다. 우리의 애플리케이션은 더 빠르게 실행되었고 가격은 동일하거나 그 이하였습니다. 그런 세상은 끝났습니다. 거기에는 몇 가지 가능한 기술이 있습니다.하지만 우리에게 도움이 될 가장 큰 것은 에너지 효율성에 대한 보다 통합적이고 전체적인 접근 방식입니다."

시스템 운영

OLCF의 규모에 따른 분석 및 AI 방법(AAIMS) 그룹의 리더인 페이이 왕(Feiyi Wang)은 어려운 목표, 즉 슈퍼컴퓨터를 운영하여 에너지를 덜 사용하는 방법을 고민하는 데 많은 시간을 보냈습니다.이 문제를 해결하려면 먼저 엄청난 양의 HPC 운영 데이터를 수집해야 했습니다.

Frontier가 구축되기 오래 전에 그와 AAIMS 그룹은 2018년에 출시된 OLCF의 200페타플롭 슈퍼컴퓨터인 Summit에서 1년 이상의 전력 프로파일링 데이터를 수집했습니다. Summit의 4,608개 노드 각각에는 1Hz로 측정항목을 보고하는 100개 이상의 센서가 있습니다.매초마다 시스템은 460,000개 이상의 측정항목을 보고합니다.

Wang의 팀은 이 10테라바이트 데이터 세트를 사용하여 모든 냉각 기계가 포함된 중앙 에너지 플랜트를 포함하여 Summit의 전체 시스템을 처음부터 끝까지 분석했습니다.그들은 시스템의 작업 할당 기록을 원격 측정 데이터에 겹쳐서 840,000개가 넘는 작업에 대한 작업별 세분화된 전력 소비 프로필을 구성했습니다.이 작업으로 그들은최우수 논문상2021 고성능 컴퓨팅, 네트워킹, 스토리지 및 분석을 위한 국제 컨퍼런스(SC21)에서.

또한 이러한 노력을 통해 Wang은 이러한 데이터를 사용하여 더 나은 에너지 효율성을 위한 정보에 입각한 운영 결정을 내릴 수 있는 방법에 대한 몇 가지 아이디어를 생각해 냈습니다.

Wang과 그의 팀은 Summit의 에너지 프로필 데이터 세트를 사용하여 Smart Facility for Science 프로젝트를 시작하여 HPC 시스템에 대한 지속적인 생산 통찰력을 제공하고 시스템 운영자에게 Wang의 표현대로 "데이터 기반 운영 인텔리전스"를 제공했습니다.

"저는 이 지속적인 모니터링을 '지속적인 통합'으로 한 단계 더 발전시키고 싶습니다. 즉, 컴퓨터의 지속적인 측정치를 가져와 시스템에 통합하여 사용자가 특정 분야의 에너지 사용량을 관찰할 수 있도록 하고 싶습니다.이를 더 발전시켜 우리는 단순한 모니터링과 통합에서 실제로 작업을 최적화하는 것까지 '지속적인 최적화'를 구현하고 싶습니다."라고 Wang은 말했습니다.

Wang의 또 다른 아이디어 중 하나가 그 목표에 도움이 될 수 있습니다.SC23에서 Wang과 AAIMS 그룹의 수석 연구 과학자인 수석 저자인 Wes Brewer는 "엑사스케일 슈퍼컴퓨터의 포괄적인 디지털 트윈 개발을 향하여"라는 프레젠테이션을 발표했습니다.그들은 증강 현실(AG)과 가상 현실(VR)을 사용하여 시설 운영 방식에 대한 전체적인 통찰력을 제공하여 전반적인 에너지 효율성을 향상시키는 ExaDIGIT라는 프레임워크를 제안했습니다.

이제 ExaDIGIT는 10개의 국제 및 업계 파트너의 공동 프로젝트로 발전했으며 Brewer는 팀의최신 종이~에SC24조지아 주 애틀랜타에서.

ORNL에서 AAIMS 그룹은 Frontier 슈퍼컴퓨터의 시뮬레이션을 구축하기 위해 Digital Twin for Frontier 프로젝트를 시작했습니다.이 가상 프론티어를 통해 운영자는 "이것을 시도하면 어떨까요?"라는 실험을 할 수 있습니다.실제 Frontier 머신에서 시도하기 전에 에너지 절약 시나리오를 살펴보세요.프론티어 냉각 시스템의 유입수 온도를 높이면 효율성이 높아질까요?아니면 시스템을 충분히 냉각시키지 않아 고장률이 높아질 위험에 처하게 됩니까?

Wang은 "프론티어는 너무 가치가 높아서 '시험해 보자. 시스템을 실험해 보자'고만 말할 수 없습니다. 잘못하면 그 결과가 파괴적일 수 있기 때문입니다"라고 Wang은 말했습니다."그러나 이 디지털 트윈 아이디어를 사용하면 모든 원격 측정 데이터를 시스템으로 가져와 시스템의 전력 및 냉각 측면에 대해 충분한 충실도가 모델링된 경우 실험할 수 있습니다. 이 설정을 변경하면 어떻게 될까요?시스템에 긍정적인 영향을 미칠까요, 없을까요?"

Frontier의 디지털 트윈은 데스크톱 컴퓨터에서 실행할 수 있으며, VR 및 AR을 사용하면 운영자는 매개변수를 조정하면서 보다 대화형이고 직관적인 방식으로 시스템 원격 측정을 검사할 수 있습니다.AAIMS 그룹은 또한 디지털 트윈의 전력 소비와 작업을 실행할 때 시간이 지남에 따라 어떻게 진행되는지 조사하기 위해 가상 일정 시스템을 만들었습니다.

가상 프론티어는 아직 개발 중이지만 워크로드가 냉각 시스템에 어떤 영향을 미칠 수 있는지, 교류를 직류로 변환하는 과정인 정류 ​​중에 발생하는 전력 손실에 어떤 일이 발생하는지에 대한 통찰력을 이미 제공하고 있습니다.이 시스템은 Discovery의 향후 전력 및 냉각 요구 사항을 예측하는 데에도 사용되고 있습니다.

Wang은 "우리는 OLCF가 직면한 현재와 미래의 긴급한 문제를 해결하기 위해 개발과 시스템을 맞춤화할 수 있으며 앞으로도 조정할 것"이라고 말했습니다.

시설 인프라

슈퍼컴퓨터에 전원을 공급한다는 것은 단순히 켜는 것을 의미하는 것이 아니라 이를 지원하는 전체 시설에 전원을 공급하는 것을 의미합니다.가장 중요한 것은 데이터 센터의 모든 컴퓨터 캐비닛에서 발생하는 열을 제거해야 하는 냉각 시스템입니다.

"10,000피트 높이에서 보면 슈퍼컴퓨터는 정말 거대한 히터에 불과합니다. 전력망에서 전기를 가져와 이 큰 상자에 넣으면 전기를 사용하기 때문에 뜨거워집니다. 이제 더 많은 전력을 공급해야 합니다.녹지 않고 계속 작동할 수 있도록 다시 식힐 수 있는 에어컨이 필요합니다."라고 Geist는 말했습니다.

"데이터 센터 내부에는 이러한 대형 기계를 보다 효율적으로 냉각하기 위한 많은 작업이 있습니다. 2009년부터 2022년까지 우리는 냉각에 필요한 에너지를 10배로 줄였으며 우리 팀은 앞으로도 냉각 최적화를 계속할 것입니다."

이러한 냉각 최적화 계획의 대부분은 ORNL 실험실 현대화 부서의 수석 HPC 기계 엔지니어인 David Grant가 주도합니다.Grant는 새로운 기계 시설의 설계 및 건설을 감독하며 OLCF에 설치된 모든 새로운 슈퍼컴퓨터 시스템이 연중무휴 24시간 안정적으로 작동하는 데 필요한 냉각 기능을 갖추고 있는지 확인하는 일을 주로 담당합니다.

그는 2009년에 ORNL에 입사하여 Jaguar 슈퍼컴퓨터 운영 업무를 담당했습니다.그 후 그는 2012년 Titan으로의 전환에 참여했고, 2018년 출시를 위한 Summit의 인프라 설계를 이끌었으며, 가장 최근에는 Frontier를 지원하기 위한 모든 엔지니어링을 감독했습니다.

그 기간 동안 OLCF의 냉각 시스템은 Jaguar의 시끄러운 팬과 냉각기 기반 에어컨에서 Frontier의 팬 없는 액체 냉각에 이르기까지 칩 기술과 함께 실질적으로 발전했습니다.

또한 컴퓨팅 노드를 냉각시키는 데 필요한 수온은 Titan의 42°F에서 FastForward 프로그램에서 설정한 Frontier의 90°F 목표까지 상승했습니다.순환하는 물은 더 이상 냉장 보관할 필요가 없고 대신 증발탑을 통해 충분히 냉각될 수 있기 때문에 이러한 추가적인 따뜻함은 막대한 에너지 절약을 촉진합니다.

Grant는 "우리는 가장 따뜻한 물 공급 온도를 제공하면서 캐비닛에서 가능한 가장 따뜻한 물을 다시 얻으려고 노력하고 있습니다. 공급 온도가 높을수록 좋습니다."라고 Grant는 말했습니다.

"더 따뜻한 물이 우리에게 돌아오면 시스템의 시설 측에서 순환해야 하는 흐름을 최소화할 수 있어 펌핑 에너지가 절약됩니다. 그리고 더 따뜻한 온도로 인해 냉각탑의 효율성이 더욱 높아집니다.우리 환경에 그 열기를 거부하세요."

Frontier의 전력 사용 효율성(PUE)은 컴퓨터 데이터 센터 시설에서 사용하는 총 전력과 컴퓨팅 장비에 전달되는 전력의 비율로 최고 사용량 시 1.03을 나타냅니다.이는 기본적으로 1,000와트의 열마다 시스템의 적절한 열 포락선을 유지하는 데 30와트의 추가 전력만 필요하다는 것을 의미합니다.

데이터 센터의 전 세계 산업 평균은 약 1.47 PUE입니다.업타임 연구소에 따르면.

Discovery와 같은 더 빠른 시스템을 위해 전력 사용량을 더욱 줄이려면 Grant가 조사하고 있는 훨씬 더 혁신적인 접근 방식이 필요합니다.

첫째, Discovery의 과도한 열 중 일부를 회수(또는 사용)하는 개념은 어느 정도 가능성을 가질 수 있습니다.이 시설은 냉각 시스템에서 난방 시스템으로 폐열을 이동할 수 있는 경우 폐열을 재사용하기에 좋은 위치에 있습니다.그러나 이 작업은 난방 시스템의 온도 상승, 냉각 시스템의 열 등급이 낮고 HPC 시스템에서 생성되는 열의 매우 동적인 특성으로 인해 어렵습니다.

둘째, 들어오는 Discovery 시스템은 Frontier의 냉각 시스템을 공유합니다.이 복합 사용 구성을 통해 추가적인 운영 효율성이 기대됩니다.

"현재 Frontier는 자체 냉각 시스템을 보유하고 있으며 해당 유형의 작업에 맞게 최적화했습니다. 하지만 Frontier가 최대 30MW를 요구하고 다른 시스템이 다시 그 정도를 요구한다면 어떻게 될까요?우리 냉각 시스템에?

"그것은 그렇게 할 수 있도록 설계되었지만 우리는 이전에 본 적이 없는 운영 범위의 다른 장소에서 운영하게 될 것입니다. 따라서 일단 거기에 도달하면 새로운 기회가 나타날 것입니다."라고 그랜트는 말했다.

셋째, Grant는 건설 및 장비 선택이 시설의 전반적인 에너지 효율성에 어떻게 도움이 될 수 있는지 조사하고 있습니다.예를 들어, Frontier의 냉각 시스템에는 내부 금속 표면을 보호하기 위해 진정이라는 프로세스가 필요한 20개의 개별 냉각탑이 있으며, 이 프로세스에는 시간이 지남에 따라 많은 펌핑이 필요합니다.더 이상 진정 프로세스가 필요하지 않은 최신 타워에서는 해당 단계를 제거할 수 있습니다.

넷째, 슈퍼컴퓨터의 유휴 시간은 상당한 양의 전력을 소모할 수 있습니다. Frontier의 유휴 부하량은 7~8메가와트입니다.유휴 부하를 크게 줄이거나 없앨 수 있다면 어떨까요?

"우리는 소프트웨어 측면에 영향을 미치는 고객과 상호 작용할 때 고객의 결정이 냉각 시스템과 시설 에너지 사용을 통해 어떻게 해석될지 전달하려고 노력합니다"라고 Grant는 말했습니다.

"소프트웨어 측면에서는 유휴 로드 요구 사항을 줄이고 모델을 최대한 효율적으로 실행하며 시스템 활용도를 높이려는 많은 잠재력이 있다고 생각합니다. 그 대가로 그들은 더 높은 생산량을 얻을 수 있을 것입니다.그들이 생산하려고 하는 데이터입니다."

응용

OLCF의 슈퍼컴퓨터에서 보다 효율적으로 실행되도록 과학 응용 프로그램을 최적화하는 것은 NCCS의 과학 참여 부문 책임자인 Tom Beck과 NCCS의 알고리즘 및 성능 분석 그룹의 뛰어난 연구 과학자인 Trey White의 영역입니다.결과를 더 빠르게 반환하는 코드를 얻는 것은 완전히 새로운 개념은 아니지만 이제 목표는 단순한 속도에서 벗어나고 있습니다.

"오랫동안 사람들은 코드가 더 빠르게 실행되기를 원했고, 그것이 바로 우리가 집중해 온 것입니다. 더 빠른 애플리케이션을 실행하려는 단 하나의 목표는 에너지 사용도 줄이는 결과를 가져왔습니다."라고 White는 말했습니다.

"하드웨어의 속도는 여전히 증가하고 있지만 예전만큼 빠르지는 않습니다. 따라서 이제 우리는 시간과 에너지 효율성 측면에서 애플리케이션을 살펴봐야 합니다. 대부분의 경우 더 빠르게 실행된다는 것은 에너지가 적다는 것을 의미하지만 완벽하지는 않습니다.그래서 우리는 이제 둘 사이의 장단점을 살펴보기 시작했습니다."

팀이 조사하고 있는 영역 중 하나는 GPU의 작동 주파수가 에너지 소비에 어떤 영향을 미칠 수 있는지입니다.가장 빠른 처리량을 달성하기 위한 GPU의 최대 주파수는 반드시 가장 에너지 효율적인 주파수가 아닐 수도 있습니다.

"그러나 최대 주파수에서 시작하여 5%에서 10%로 되돌리면 20% 또는 25%의 에너지 절감 효과를 얻을 수 있다는 몇 가지 징후가 있습니다. 그러면 약간 포기할 의향이 있는지에 대한 차익거래가 됩니다.큰 에너지 절약을 얻으려면 약간의 성능만 필요합니까?"벡이 말했다.

"이전에는 컴퓨터가 사용하는 최대 클럭 주파수가 일반적으로 모든 프로젝트에 대해 단일 숫자로 설정되었습니다. 그러나 이제는 이를 응용 프로그램별로, 심지어 단일 실행 내에서도 적용하는 방법을 모색하고 있습니다"라고 White는 말했습니다."저 '주파수 조절기'는 시간과 에너지 효율성 사이에 상충 관계가 있는 것의 한 예이며 우리는 사용자에게 그러한 선택권을 제공하는 방법을 조사하고 있습니다."

팀이 탐구하고 있는 또 다른 영역은 혼합 정밀도 산술을 사용하는 것입니다.역사적으로 64비트의 완전 정밀도 부동 소수점 연산은 과학 응용 분야의 계산 정확도 표준으로 간주되었습니다.2000년대 초반 이후 점점 더 강력해진 슈퍼컴퓨터는 32비트의 단정밀도 산술만큼 빠른 완전 정밀도를 구현했습니다.

이제 AI 시장이 성장하면서 16비트 이하의 낮은 정밀도의 연산이 신경망 및 기타 데이터 과학 애플리케이션을 훈련하는 데 충분히 정확하다는 것이 입증되었습니다.GPU에 의해 구동되는 정밀도가 낮은 계산은 상당한 속도 향상과 에너지 절약을 제공할 수 있습니다.

Beck은 "낮은 정밀도를 사용하는 것은 사용자에게 무서운 환경입니다. 모든 사람이 전체 정밀도의 64비트를 가정하는 데 익숙하고 부분적으로는 그것이 이미 존재하고 액세스할 수 있기 때문입니다."라고 Beck은 말했습니다.

"그리고 64비트에서 벗어나기 시작하면 코드 전체에 비선형 방식으로 영향을 미칠 수 있어 무슨 일이 일어나고 있는지 추적하기가 정말 어렵습니다. 따라서 이것이 우리 연구 전략의 일부입니다.일부 응용 프로그램에서는 혼합 정밀도 산술을 사용하게 됩니다."

에너지 효율성을 높일 수 있는 또 다른 영역은 데이터 전송입니다. 데이터 이동이 적을수록 필요한 전력도 줄어듭니다.이 작업은 데이터 이동을 줄이는 소프트웨어 알고리즘을 구축하여 수행할 수 있습니다.Beck은 알고리즘의 각기 다른 작업에 사용되는 전력의 비율을 보여주는 원형 차트를 사용자에게 제공하여 잠재적인 감소를 목표로 삼고자 합니다.

"급격한 하드웨어 변경이나 아키텍처 혁명이 없다면 애플리케이션은 실제로 사람들이 점점 더 찾고 싶어하는 곳입니다.벡은 “아마도 코딩을 통해 300% 실력이 향상되는 게임은 아닐 것이다.

"우리가 개선할 수 있는 부분은 분명 있지만 아마도 여기에서는 3%, 저기에서는 5%의 더 점진적인 프로세스가 될 것입니다. 그러나 여러 가지 변경 사항을 통해 이를 축적하여 20%에 도달할 수 있다면 그것은 큰 것입니다.완수."

소환:컴퓨터 엔지니어는 에너지 효율적인 슈퍼컴퓨팅에 대한 접근 방식을 개척합니다(2024년 9월 11일)2024년 9월 11일에 확인함https://techxplore.com/news/2024-09-approaches-energy-efficient-supercomputing.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.