انویدیا H100 NVL را معرفی کرد - کارت سرور حداکثر حافظه برای مدل های زبان بزرگ
انتشار: فروردین 01، 1402
بروزرسانی: 29 اردیبهشت 1404

انویدیا H100 NVL را معرفی کرد - کارت سرور حداکثر حافظه برای مدل های زبان بزرگ

در پایان، طبق گفته NVIDIA، کارت های H100 NVL در نیمه دوم سال جاری عرضه خواهند شد. این شرکت قیمتی را ذکر نکرده است، اما برای آنچه که اساساً یک سطل GH100 برتر است، ما انتظار داریم که آنها قیمت بالایی داشته باشند. به خصوص با توجه به اینکه چگونه انفجار استفاده از LLM در حال تبدیل شدن به یک عجله طلای جدید برای بازار پردازنده گرافیکی سرورها است.



منبع: https://www.anandtech.com/s،w/18780/nvidia-announces-h100-nvl-max-memory-server-card-for-large-language-modelsبا کمال تعجب، با وجود مشخصات ستاره ای، TDP ها تقریباً باقی می مانند. H100 NVL یک قطعه 700 وات تا 800 وات است که به 350 وات تا 400 وات در هر برد ت،یم می شود که حد پایین آن همان TDP H100 PCIe معمولی است. در این مورد به نظر می رسد NVIDIA سازگاری را بر عملکرد اوج اولویت قرار می دهد، زیرا تعداد کمی از شاسی های سرور می توانند کارت های PCIe بیش از 350 وات (و تعداد کمتری بیش از 400 وات) را مدیریت کنند، به این م،ی که TDP ها باید به خوبی بایستند. با این حال، با توجه به ارقام عملکرد بالاتر و پهنای باند حافظه، مشخص نیست که NVIDIA چگونه عملکرد اضافی را ارائه می دهد. باینینگ پاور می تواند در اینجا بسیار کمک کند، اما ممکن است در موردی نیز اتفاق بیفتد که NVIDIA به کارت سرعت ساعتی بالاتر از حد معمول می دهد، زیرا بازار هدف در درجه اول به عملکرد تانسور مربوط می شود و قرار نیست کل GPU را روشن کند. یک بار.

اما شاید مهم تر از آن این باشد که بتو،م H100 NVL را به سرعت در زیرساخت های موجود مستقر کنیم. مشتریان LLM به جای نیاز به نصب بردهای حامل H100 HGX که به طور خاص برای جفت ، پردازنده های گرافیکی ساخته شده اند، می توانند فقط H100 NVL را در ساخت های سرور جدید یا به ،وان یک ارتقاء نسبتاً سریع به ساخت های سرور موجود پرتاب کنند. به هر حال، انویدیا در اینجا به دنبال یک بازار بسیار خاص است، بنابراین مزیت عادی SXM (و توانایی NVIDIA برای پرتاب وزن جمعی خود) ممکن است در اینجا صدق نکند.

علاوه بر افزایش ظرفیت حافظه، از بسیاری جهات، کارت های جداگانه در H100 NVL با دو کارت گرافیک/دو کارت بزرگ تر، شباهت زیادی به نسخه SXM5 H100 روی کارت PCIe دارند. در حالی که H100 PCIe معمولی تا حدی به دلیل استفاده از حافظه کندتر HBM2e، هسته های SM/تانسور فعال کمتر و سرعت های ساعت کمتر دچار مشکل می شود، ارقام عملکرد هسته تانسوری که NVIDIA برای H100 NVL ذکر می کند، همگی با H100 SXM5 برابری می کنند، که نشان می دهد که این کارت مانند کارت PCIe معمولی کاهش نمی یابد. ما هنوز منتظر مشخصات نهایی و کامل محصول هستیم، اما با فرض اینکه همه چیز در اینجا همانطور که ارائه شده است، GH100s که وارد H100 NVL می شود، بالاترین GH100 های موجود در حال حاضر را نشان می دهد.

در مجموع، انویدیا H100 NVL را تبلیغ می کند که 12 برابر توان استنتاج GPT3-175B را به ،وان آ،ین نسل HGX A100 (8 H100 NVL در مقابل 8 A100) ارائه می دهد. که برای مشتری، که به دنبال استقرار و افزایش سیستم های خود برای بارهای کاری LLM در سریع ترین زمان ممکن هستند، قطعا وسوسه انگیز خواهد بود. همانطور که قبلاً اشاره شد، H100 NVL از نظر ویژگی های معماری چیز جدیدی به ج، نمی آورد – بخش عمده ای از افزایش عملکرد در اینجا از موتورهای ترانسفورماتور جدید معماری Hopper ناشی می شود – اما H100 NVL به ،وان سریع ترین PCIe H100 در جایگاه خاصی قرار خواهد گرفت. گزینه و گزینه ای با بزرگترین است، حافظه GPU.

راندن این SKU یک جایگاه ویژه است: ظرفیت حافظه. مدل های زبان بزرگ مانند خانواده GPT از بسیاری جهات ظرفیت حافظه محدود هستند، زیرا آنها به سرعت حتی یک شتاب دهنده H100 را برای نگه داشتن تمام پارامترهای خود پر می کنند (175B در مورد بزرگترین مدل های GPT-3). در نتیجه، انویدیا تصمیم گرفته تا یک H100 SKU جدید را با هم بتراشد که حافظه بیشتری را در هر پردازنده گرافیکی نسبت به قطعات معمولی H100 ارائه می کند، که حدا،ر 80 گیگابایت در هر GPU است.

در غیر این صورت، تصمیم انویدیا برای انتشار آنچه که اساساً بهترین سطل H100 است، با توجه به ترجیح عمومی آنها برای قطعات SXM، انتخابی غیرعادی است، اما این تصمیمی است که در چارچوب نیاز مشتریان LLM منطقی است. خوشه های بزرگ H100 مبتنی بر SXM می توانند به راحتی تا 8 GPU را مقیاس کنند، اما مقدار پهنای باند NVLink موجود بین هر دو به دلیل نیاز به گذر از NVSwitches با مشکل مواجه می شود. فقط برای دو پیکربندی GPU، جفت ، مجموعه ای از کارت های PCIe بسیار مستقیم تر است، با پیوند ثابت 600 گیگابایت در ث،ه پهنای باند بین کارت ها را تضمین می کند.

حتی پس از آن، باید توجه داشت که مشتریان به تمام 96 گیگابایت در هر کارت دسترسی ندارند. در عوض، در مجموع ظرفیت 188 گیگابایت حافظه، آنها به طور موثر 94 گیگابایت در هر کارت دریافت می کنند. انویدیا در جلسه قبلی خود قبل از سخنر، امروز به جزئیات این ابهام طراحی نپرداخته است، اما ما گمان می کنیم که این موضوع نیز به دلایل بازدهی باشد و به NVIDIA برای غیرفعال ، سلول ها (یا لایه های) بد در پشته های حافظه HBM3 کمی سستی می دهد. نتیجه خالص این است که SKU جدید 14 گیگابایت حافظه بیشتر به ازای هر GH100 GPU ارائه می دهد که افزایش 17.5 درصدی حافظه است. در همین حال، پهنای باند حافظه مجموع برای کارت 7.8 ترابایت بر ث،ه است که برای هر برد به 3.9 ترابایت در ث،ه می رسد.

را H100 NVLبه ،ه خود، SKU افسانه ای کاملاً فعال است که هر 6 پشته فعال است. با روشن ، 6هفتم پشته HBM، NVIDIA قادر به دسترسی به حافظه اضافی و پهنای باند حافظه اضافی است که در اختیار دارد. این تا حدی تأثیر مادی بر بازدهی خواهد داشت – چقدر یک راز انویدیا کاملاً محافظت شده است – اما بازار LLM ظاهراً به اندازه کافی بزرگ است و مایل است برای بسته های تقریباً عالی GH100 حق بیمه کافی بپردازد تا ارزش آن را داشته باشد.

در حالی که رویداد بهار GTC امسال دارای هیچ پردازنده گرافیکی یا معماری گرافیکی جدیدی از NVIDIA نیست، این شرکت همچنان در حال تولید محصولات جدید بر اساس پردازنده های گرافیکی Hopper و Ada Lovelace است که در سال گذشته معرفی شده است. در سطح بالای بازار، این شرکت امروز یک نوع شتاب دهنده جدید H100 را به طور خاص برای کاربران مدل های زبان بزرگ معرفی می کند: H100 NVL.

و تأکید بر جمع در اینجا لازم است. همانطور که قبلاً اشاره شد، H100 NVL یک بخش واحد پردازشگر گرافیکی نیست، بلکه یک بخش دو کارت گرافیک/دو کارت است و به همین ترتیب خود را به سیستم میزبان نشان می دهد. خود سخت افزار مبتنی بر دو PCIe فرم فاکتور H100 است که با استفاده از سه پل NVLink 4 به هم متصل شده اند. از نظر فیزیکی، این تقریباً مشابه طراحی فعلی NVIDIA H100 PCIe است – که قبلاً می توان آن را با استفاده از پل های NVLink جفت کرد – بنابراین تفاوت در ساخت غول پیکر دو برد/چهار اسلات نیست، بلکه در کیفیت سیلی، درون آن است. به عبارت دیگر، امروز می تو،د کارت های معمولی H100 PCie را به هم متصل کنید، اما این کارت با پهنای باند حافظه، ظرفیت حافظه یا توان عملیاتی تانسور H100 NVL مطابقت ندارد.

H100 NVL یک نوع جالب در کارت H100 PCIe NVIDIA است که به نشانه زمان و موفقیت گسترده NVIDIA در زمینه هوش مصنوعی، بازاری منحصر به فرد را هدف قرار داده است: استقرار مدل زبان بزرگ (LLM). چند چیز وجود دارد که این کارت را از کرایه معمول سرور NVIDIA غیرمعمول می کند - مهم ترین آنها این است که 2 برد H100 PCIe است که قبلاً به هم متصل شده اند - اما نکته مهم ظرفیت حافظه بزرگ است. کارت ،یبی دو GPU، 188 گیگابایت حافظه HBM3 - 94 گیگابایت در هر کارت - ارائه می کند که نسبت به هر بخش دیگر NVIDIA تا به امروز، حافظه بیشتری را در هر GPU ارائه می کند، حتی در خانواده H100.

مقایسه مشخصات شتاب دهنده NVIDIA H100
H100 NVLH100 PCIeH100 SXM
هسته های CUDA FP322 × 16896؟1459216896
هسته های تانسور2*528؟456528
تقویت ساعت1.98 گیگاهرتز1.75 گیگاهرتز1.98 گیگاهرتز
ساعت حافظه~5.1Gbps HBM33.2 گیگابیت بر ث،ه HBM2e5.23 گیگابیت بر ث،ه HBM3
عرض گذرگاه حافظه6144 بیتی5120 بیت5120 بیت
پهنای باند حافظه2 x 3.9 ترابایت در ث،ه2 ترابایت در ث،ه3.35 ترابایت در ث،ه
VRAM2 x 94 گیگابایت (188 گیگابایت)80 گیگابایت80 گیگابایت
وکتور FP322 x 67 TFLOPS؟51 TFLOPS67 TFLOPS
وکتور FP642 x 34 TFLOPS؟26 TFLOPS34 TFLOPS
تانسور INT82 x 1980 تاپس1513 تاپس1980 تاپس
تانسور FP162 x 990 TFLOPS756 TFLOPS990 TFLOPS
تانسور TF322 x 495 TFLOPS378 TFLOPS495 TFLOPS
تانسور FP642 x 67 TFLOPS؟51 TFLOPS67 TFLOPS
اتصال به یکدیگرNVLink 4
18 پیوند (900 گیگابایت در ث،ه)
NVLink 4
(600 گیگابایت در ث،ه)
NVLink 4
18 پیوند (900 گیگابایت در ث،ه)
پردازنده گرافیکی2 x 100 GH
(814mm2)
GH100
(814mm2)
GH100
(814mm2)
تعداد ترانزیستورها2×80B80B80B
TDP700 وات350 وات700-800 وات
فرایند ساختTSMC 4NTSMC 4NTSMC 4N
رابط2 x PCIe 5.0
(چهار اسلات)
PCIe 5.0
(دو شکاف)
SXM5
معماریهاپرهاپرهاپر

در زیر کاپوت، چیزی که ما به آن نگاه می کنیم، اساساً یک سطل مخصوص از پردازنده گرافیکی GH100 است که روی یک کارت PCIe قرار می گیرد. همه پردازنده های گرافیکی GH100 با 6 پشته حافظه HBM - HBM2e یا HBM3 - با ظرفیت 16 گیگابایت در هر پشته عرضه می شوند. با این حال، به دلایل بازده، NVIDIA فقط قطعات H100 معمولی خود را با 5 مورد از 6 پشته HBM فعال می فرستد. بنابراین در حالی که اسماً 96 گیگابایت VRAM روی هر پردازنده گرافیکی وجود دارد، تنها 80 گیگابایت در SKUهای معمولی موجود است.