Така наречените „горещи чипове“ на NVIDIA всъщност са „горещи платформи“

Sep 03, 2024

Остави съобщение

NVIDIA се фокусира върху инженерни проекти на ниво система и център за данни, насочени към създаване на усъвършенствани системи и платформи, способни да се справят със сложни генериращи AI предизвикателства.

По-рано този месец NVIDIA се натъкна на рядко срещани лоши новини, когато се появиха съобщения, че дългоочакваните GPU ускорители "Blackwell" на компанията може да бъдат отложени с цели три месеца поради дефекти в дизайна. Въпреки това, говорител на NVIDIA заяви, че всичко върви по план. Някои доставчици посочиха, че нищо не се е променило, докато други отбелязаха някои нормални забавяния.

Инсайдери в индустрията очакват, че когато NVIDIA отчете своите финансови резултати за второто тримесечие на 2025 г. следващата сряда, потребителите ще получат повече информация за състоянието на Blackwell.

Съобщава се, че чиповете Blackwell-B100, B200 и GB200-ще бъдат връхната точка на тазгодишната конференция Hot Chips, която ще се проведе следващата седмица в Станфордския университет в Калифорния. NVIDIA ще представи своята архитектура, описвайки някои нови иновации, очертавайки използването на AI в дизайна на чипове и обсъждайки изследванията на течното охлаждане в центровете за данни, използвани за изпълнение на тези нарастващи натоварвания на AI. Според директора на продуктите за ускорени изчисления на NVIDIA, Дейв Салватор, компанията също така ще покаже чипове Blackwell, които вече работят в един от нейните центрове за данни.

Blackwell chips

▲ Чипове Blackwell

Голяма част от това, което NVIDIA обсъжда за Blackwell, вече е известно, като Blackwell Ultra GPU, който ще бъде пуснат през следващата година и следващото поколение Rubin GPU и Vera CPU, които ще започнат да се разпространяват през 2026 г. Салватор обаче подчерта, че когато говорим за Blackwell, от решаващо значение е да го разглеждаме като платформа, а не като единичен чип. Salvator направи това на брифинг за журналисти и анализатори тази седмица като част от подготовката за Hot Chips.

„Когато мислите за NVIDIA и платформите, които изграждаме, графичният процесор, мрежите и дори нашият процесор са само началото“, каза той. „Правим инженеринг на системно ниво и на ниво център за данни, за да изградим тези системи и платформи, които наистина могат да излязат и да се справят с тези наистина трудни генеративни AI предизвикателства. Видяхме, че мащабът на моделите расте с течение на времето и повечето генеративни AI приложения трябва да се изпълнява в реално време, като изискванията за изводи нарастват драстично през последните няколко години. Изводът за модел на голям език в реално време изисква множество графични процесори и в близко бъдеще ще изисква множество сървърни възли.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Това включва не само графични процесори Blackwell и процесори Grace, но и чипове NVLink Switch, Bluefield-3 DPU, ConnextX-7 и ConnectX-8 NIC, Spectrum-4 Ethernet комутатори и Quantum -3 InfiniBand превключватели. Salvator също предостави различни прозрения за NVLink Switch (по-долу), compute, Spectrum-X800 и Quantum-X800.

NVIDIA представи дългоочакваната архитектура Blackwell на конференцията си GTC 2024 през март тази година, като хипермащабните доставчици и OEM производители бързо се присъединиха към нея. Компанията е насочена към бързо разрастващото се генеративно поле на ИИ, където големите езикови модели (LLM) стават още по-масови. Llama 3.1 на Meta, пуснат през юни, е доказателство за тази тенденция, като включва модел с 4,05 трилиона параметри. Салватор отбеляза, че с нарастването на LLM, търсенето на изводи в реално време продължава, което налага повече изчисления и по-ниска латентност, което изисква платформен подход.

„Както при повечето други LLMs, услугите, захранвани от този модел, се очаква да работят в реално време. За да постигнете това, имате нужда от няколко графични процесора. Предизвикателството е как да се постигне огромен баланс между високата производителност на графичните процесори, високото използване на графичните процесори и осигуряването на добро потребителско изживяване за крайните потребители, които използват тези услуги, управлявани от изкуствен интелект“, каза той.

Необходимостта от скорост

С Blackwell NVIDIA удвои честотната лента на всеки превключвател, увеличавайки я от 900 GB/s на 1,8 TB/s. Технологията на Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) на компанията внася повече изчисления в системите, които всъщност се намират в комутаторите. Позволява ни да разтоварим някои задачи от графичния процесор, за да ускорим производителността, а също така спомага за плавния мрежов трафик през NVLink тъканта. Това са иновации, които продължаваме да развиваме на ниво платформа.

Многовъзловият GB200 NVL72 е шаси с течно охлаждане, което свързва 72 графични процесора Blackwell и 36 процесора Grace в дизайн на стелаж. NVIDIA твърди, че осигурява по-висока производителност на изводи за LLM с трилиони параметри като GPT-MoE-1.8T, ефективно функциониращи като един GPU. Неговата производителност е 30 пъти по-висока от тази на системата HGX H100, със скорост на обучение четири пъти по-бърза от H100.

NVIDIA също добави вградена поддръжка за FP4, използвайки системата за квантуване Quasar на компанията, която осигурява същата прецизност като FP16, като същевременно намалява използването на честотната лента със 75%. Системата за квантуване Quasar е софтуер, който използва Transformer Engine на Blackwell, за да гарантира точност. Salvator демонстрира това чрез сравняване на генеративни AI изображения, създадени с помощта на FP4 и FP16, с малка или никаква забележима разлика между двете.

Използвайки FP4, моделите могат да използват по-малко памет и да работят дори по-добре от FP8 в Hopper GPU.

Системи за течно охлаждане

По отношение на течното охлаждане, NVIDIA ще въведе метод с топла вода директно от чип до чип, който може да намали консумацията на енергия в центъра за данни с 28%.

Салватор каза: „Това, което е интересно за този метод, са някои от неговите предимства, които включват повишена ефективност на охлаждане, по-ниски оперативни разходи, удължен живот на сървъра и потенциала за повторно използване на уловената топлина за други приложения. Определено помага за подобряване на ефективността на охлаждане. Един от Начинът, по който това се постига, както подсказва името, е, че тази система всъщност не използва охладители. Ако се замислите как работи хладилникът, той също така изисква електричество не трябва да използваме охладители, което ни спестява малко енергия и намалява оперативните разходи."

Друга тема е как NVIDIA използва AI, за да проектира своите AI чипове, използвайки Verilog, език за описание на хардуера, който се използва от четиридесет години за описание на схеми в код. NVIDIA напредва в това усилие чрез автономен Verilog агент, наречен VerilogCoder.

AI chips

Той каза: „Нашите изследователи са разработили голям езиков модел, който може да ускори създаването на Verilog код, който описва нашите системи. Ще го използваме в бъдещите поколения продукти, за да помогнем за изграждането на тези кодове. Той може да направи много неща. Може да помогне ускорява процеса на проектиране и проверка. Той може да ускори ръчните операции на дизайна и фундаментално да автоматизира много задачи."