Възходът на решенията за течно охлаждане в AI сървъри: анализ на TrendForce

Oct 03, 2024

Остави съобщение

 

Ⅰ Въведение

 

Според последното проучване на TrendForce се очаква степента на навлизане на решенията за течно охлаждане да нарасне, водена от очакваното доставяне на платформата NVIDIA Blackwell през четвъртото тримесечие на 2024 г. Предвижда се тази скорост да нарасне от около 10% през 2024 г. до над 20% през 2025 г. Нарастващата глобална осведоменост относно екологичните, социалните и управленските фактори (ESG), съчетана с ускореното изграждане на AI сървъри от доставчиците на облачни услуги (CSP), проправя пътя за значителна промяна от традиционното въздушно охлаждане до усъвършенствани решения за течно охлаждане.

 

Течното охлаждане предлага няколко предимства пред въздушното, включително подобрено термично управление, намалени нива на шум и повишена енергийна ефективност. Тъй като търсенето на възможности за AI нараства, особено в приложения с интензивно използване на данни, преходът към системи за течно охлаждане става все по-критичен за поддържане на оптимална производителност на сървъра.

 

A liquid cooling system installed in an AI server environment, showcasing the advanced cooling technology

▲ Система за течно охлаждане, използвана в среди на AI сървъри

 

 

Ⅱ Доминирането на NVIDIA на пазара на AI сървъри

 

В глобалния пазар на AI сървъри, NVIDIA продължава да царува, като държи пазарен дял близо 90% в сегмента на GPU AI сървъри към 2024 г. AMD изостава значително с приблизително 8% пазарен дял. Тази доминация до голяма степен се дължи на авангардната технология на NVIDIA и нейната стабилна екосистема, която поддържа широк набор от приложения в AI, машинно обучение и анализ на данни.

 

TrendForce отбелязва, че мащабът на доставките на NVIDIA Blackwell тази година е относително малък. Това е основно защото платформата е подложена на финални процеси на тестване и валидиране в рамките на веригата за доставки, които изискват непрекъсната оптимизация в области като високоскоростно предаване на данни и дизайн на охлаждане. Повишеното потребление на енергия на платформата Blackwell, особено в решението за багажник GB200, изисква превъзходна ефективност на охлаждане, което допълнително ускорява приемането на решения за течно охлаждане.

 

NVIDIA Blackwell platform designed for high-performance AI server applications

▲ Платформа NVIDIA Blackwell за AI сървъри

 

Въпреки предимствата на течното охлаждане, настоящата сървърна екосистема все още показва ниска степен на приемане на тази технология. Производителите на оригинален дизайн (ODM) трябва да се ориентират в кривата на обучение, за да се справят с предизвикателствата, свързани с изтичането и ефективността на охлаждане. Тъй като делът на графичните процесори от висок клас на платформата Blackwell се очаква да надхвърли 80% до 2025 г., това ще разпали конкуренцията между производителите на захранвания и индустрията за охлаждане в нововъзникващия пазар на течно охлаждане с изкуствен интелект, което ще доведе до нова конкурентна среда.

 

 

 

Ⅲ Ускорено внедряване от големи CSP

 

Основните доставчици на облачни услуги, включително Google, AWS и Microsoft, бързо ускориха внедряването на своите AI сървъри през последните години, използвайки предимно NVIDIA GPU и самостоятелно разработени ASIC. Термалната проектна мощност (TDP) на GB200 NVL72 шкафа на NVIDIA е приблизително 140 kW, което подчертава спешната нужда от решения за течно охлаждане за ефективно управление на разсейването на топлината. Очаква се методите за охлаждане от течност към въздух (L2A) да се превърнат в основен подход в този контекст.

 

AI server deployment in modern data centers, highlighting the use of advanced cooling solutions

▲ Внедряване на AI сървър в центрове за данни

 

Докато графичните процесори на NVIDIA доминират, Google също е проактивен в проучването на решения за течно охлаждане за своите тензорни процесори (TPU). Ангажиментът на Google към тази технология я позиционира като най-напредничавата американска компания в приемането на течно охлаждане. BOYD и Cooler Master са основните доставчици на студените плочи на Google, които са критични за поддържане на оптимални температури във високопроизводителни компютърни среди.

 

В континентален Китай Alibaba агресивно разширява своите центрове за данни с течно охлаждане, като допълнително подчертава глобалното преминаване към тази усъвършенствана технология за охлаждане. Други доставчици на облачни услуги основно продължават да разчитат на решения за въздушно охлаждане за техните самостоятелно разработени AI ASIC, което може да попречи на производителността в сравнение със системите с течно охлаждане.

 

 

Ⅳ Ключови доставчици и обозначение на компоненти

 

Тъй като преминаването към течно охлаждане набира скорост, доставчиците на облачни услуги определят ключови доставчици на компоненти за решенията за течно охлаждане на шкафа GB200. В момента Qihong и Cooler Master са водещи доставчици на студени плочи, докато компонентите на колектора се доставят от Cooler Master и Shuanghong. Устройствата за разпределение на охлаждащата течност (CDU) се предоставят от лидери в индустрията като Vertiv и Delta.

 

За ключови компоненти за предотвратяване на течове, като бързи прекъсвачи (QD), производители като CPC, Parker Hannifin, Danfoss и Staubli са силно ангажирани в доставките. Тъй като допълнителни доставчици като Jiazhe и Fushida навлизат в етапа на валидиране, те ще имат възможности да доставят компоненти за бързо изключване през първата половина на 2025 г., помагайки за смекчаване на текущия дисбаланс между предлагане и търсене.

 

Various suppliers involved in the liquid cooling component supply chain for AI servers.

▲ Ключови доставчици на компоненти за течно охлаждане

 

 

Ⅴ Предимствата на течното охлаждане

 

Подобрена охлаждаща ефективност

Системите за течно охлаждане са проектирани да отвеждат топлината по-ефективно от системите за въздушно охлаждане. Това е особено важно в приложения с изкуствен интелект, където процесорите могат да генерират значителна топлина поради високи изчислителни изисквания. Чрез използване на течност за абсорбиране и пренасяне на топлина от компонентите, сървърите могат да работят при по-ниски температури, намалявайки риска от термично дроселиране и подобрявайки производителността.

 

Оптимизация на пространството

Системите за течно охлаждане често заемат по-малко място от традиционните решения за въздушно охлаждане, което позволява по-ефективен дизайн на центрове за данни. Този спестяващ пространство атрибут е особено полезен за организации, които искат да увеличат максимално капацитета на своя сървър, без да разширяват физическия си отпечатък.

 

Енергийна ефективност

С увеличаване на фокуса върху устойчивостта и енергийната ефективност, решенията за течно охлаждане могат да помогнат за намаляване на общото потребление на енергия на центровете за данни. Чрез минимизиране на зависимостта от вентилатори и климатични модули, течното охлаждане може да намали разходите за енергия и въглеродните отпечатъци, привеждайки се в съответствие с целите на ESG, които много компании се стремят да постигнат.

 

Намаляване на шума

Системите за течно охлаждане работят по-тихо от традиционните системи с въздушно охлаждане, което води до по-приятна работна среда в центровете за данни. Това намаляване на шума е важно съображение за съоръжения, разположени в близост до населени места или в офис сгради.

 

 

Ⅵ Справяне с общи предизвикателства

 

Въпреки предимствата, преходът към течно охлаждане идва с предизвикателства. Те включват:

 

Първоначални разходи

Първоначалната инвестиция за системи за течно охлаждане може да бъде по-висока от традиционните решения за въздушно охлаждане. Организациите трябва да претеглят тези разходи спрямо дългосрочните ползи и спестявания в енергийната ефективност и поддръжката.

 

Притеснения за течове

Едно от най-значимите предизвикателства, свързани с течното охлаждане, е рискът от течове. Правилният дизайн, изборът на материали и протоколите за поддръжка са от съществено значение за намаляване на този риск и гарантиране на надеждността на системата.

 

Сложност на поддръжката

Системите за течно охлаждане изискват по-сложна поддръжка в сравнение със системите с въздушно охлаждане. Организациите трябва да обучат своя персонал или да ангажират специализирани доставчици на услуги, за да гарантират, че решенията за течно охлаждане остават ефективни и без проблеми.

 

 

Ⅶ Бъдещи тенденции в течното охлаждане

 

Тъй като търсенето на AI компютри продължава да расте, няколко бъдещи тенденции се очаква да оформят пейзажа на течното охлаждане:

 

Приемане на хибридни решения

Хибридните системи за охлаждане, които съчетават технологии за въздушно и течно охлаждане, вероятно ще получат сцепление. Тези системи могат да осигурят гъвкавост и ефективност, като се адаптират към различни натоварвания и оперативни нужди.

 

Разширени материали

Разработването на модерни материали за компоненти за течно охлаждане може да подобри производителността и надеждността. Иновациите в науката за материалите могат да доведат до по-леки, по-издръжливи и по-ефективни решения за охлаждане.

 

Интеграция с AI и IoT

Интегрирането на AI и IoT технологиите в системите за охлаждане може да оптимизира производителността, като позволява наблюдение в реално време и автоматизирани настройки въз основа на условията на околната среда и натоварването на сървъра.

 

Фокус върху устойчивостта

Тъй като компаниите все повече дават приоритет на устойчивостта, решенията за течно охлаждане, използващи екологични охладители и материали, ще станат все по-разпространени. Индустрията може да види преминаване към системи със затворен цикъл, за да минимизира отпадъците и въздействието върху околната среда.

 

 Future trends in liquid cooling technology

▲ Бъдещи тенденции в технологията за течно охлаждане

 

 

 

Ⅷ Заключение

 

Преходът от решения за въздушно към течно охлаждане в AI сървъри представлява значителна еволюция в индустрията, водена от напредъка в технологиите и нарастващото търсене на ефективно управление на топлината. Тъй като NVIDIA е лидер на пазара на AI сървъри и големи доставчици на облачни услуги като Google, които активно проучват опциите за течно охлаждане, пейзажът се променя бързо.

 

Като разбират предимствата и предизвикателствата на течното охлаждане, както и ключовите играчи, участващи в неговото прилагане, организациите могат да се позиционират по-добре, за да използват тази технология за подобрена производителност, устойчивост и конкурентоспособност в AI пейзажа. Докато индустрията се движи напред, решенията за течно охлаждане ще играят решаваща роля в оформянето на бъдещето на центровете за данни, гарантирайки, че те могат да отговорят на изискванията на следващото поколение AI приложения.

 

 

 

 

Изпрати запитване