انویدیا H100 NVL را معرفی کرد – کارت سرور حداکثر حافظه برای مدل های زبان بزرگ

H100 NVL یک نوع جالب در کارت H100 PCIe NVIDIA است که به نشانه زمان و موفقیت گسترده NVIDIA در زمینه هوش مصنوعی، بازاری منحصر به فرد را هدف قرار داده است: استقرار مدل زبان بزرگ (LLM). چند چیز وجود دارد که این کارت را از کرایه معمول سرور NVIDIA غیرمعمول می‌کند – مهم‌ترین آنها این است که 2 برد H100 PCIe است که قبلاً به هم متصل شده‌اند – اما نکته مهم ظرفیت حافظه بزرگ است. کارت ،یبی دو GPU، 188 گیگابایت حافظه HBM3 – 94 گیگابایت در هر کارت – ارائه می‌کند که نسبت به هر بخش دیگر NVIDIA تا به امروز، حافظه بیشتری را در هر GPU ارائه می‌کند، حتی در خانواده H100.


مقایسه مشخصات شتاب دهنده NVIDIA H100
H100 NVL H100 PCIe H100 SXM
هسته های CUDA FP32 2 × 16896؟ 14592 16896
هسته های تانسور 2*528؟ 456 528
تقویت ساعت 1.98 گیگاهرتز 1.75 گیگاهرتز 1.98 گیگاهرتز
ساعت حافظه ~5.1Gbps HBM3 3.2 گیگابیت بر ث،ه HBM2e 5.23 گیگابیت بر ث،ه HBM3
عرض گذرگاه حافظه 6144 بیتی 5120 بیت 5120 بیت
پهنای باند حافظه 2 x 3.9 ترابایت در ث،ه 2 ترابایت در ث،ه 3.35 ترابایت در ث،ه
VRAM 2 x 94 گیگابایت (188 گیگابایت) 80 گیگابایت 80 گیگابایت
وکتور FP32 2 x 67 TFLOPS؟ 51 TFLOPS 67 TFLOPS
وکتور FP64 2 x 34 TFLOPS؟ 26 TFLOPS 34 TFLOPS
تانسور INT8 2 x 1980 تاپس 1513 تاپس 1980 تاپس
تانسور FP16 2 x 990 TFLOPS 756 TFLOPS 990 TFLOPS
تانسور TF32 2 x 495 TFLOPS 378 TFLOPS 495 TFLOPS
تانسور FP64 2 x 67 TFLOPS؟ 51 TFLOPS 67 TFLOPS
اتصال به یکدیگر NVLink 4
18 پیوند (900 گیگابایت در ث،ه)
NVLink 4
(600 گیگابایت در ث،ه)
NVLink 4
18 پیوند (900 گیگابایت در ث،ه)
پردازنده گرافیکی 2 x 100 GH
(814mm2)
GH100
(814mm2)
GH100
(814mm2)
تعداد ترانزیستورها 2×80B 80B 80B
TDP 700 وات 350 وات 700-800 وات
فرایند ساخت TSMC 4N TSMC 4N TSMC 4N
رابط 2 x PCIe 5.0
(چهار اسلات)
PCIe 5.0
(دو شکاف)
SXM5
معماری هاپر هاپر هاپر

را H100 NVLبه ،ه خود، SKU افسانه ای کاملاً فعال است که هر 6 پشته فعال است. با روشن ، 6هفتم پشته HBM، NVIDIA قادر به دسترسی به حافظه اضافی و پهنای باند حافظه اضافی است که در اختیار دارد. این تا حدی تأثیر مادی بر بازدهی خواهد داشت – چقدر یک راز انویدیا کاملاً محافظت شده است – اما بازار LLM ظاهراً به اندازه کافی بزرگ است و مایل است برای بسته‌های تقریباً عالی GH100 حق بیمه کافی بپردازد تا ارزش آن را داشته باشد.

در حالی که رویداد بهار GTC امسال دارای هیچ پردازنده گرافیکی یا معماری گرافیکی جدیدی از NVIDIA نیست، این شرکت همچنان در حال تولید محصولات جدید بر اساس پردازنده‌های گرافیکی Hopper و Ada Lovelace است که در سال گذشته معرفی شده است. در سطح بالای بازار، این شرکت امروز یک نوع شتاب دهنده جدید H100 را به طور خاص برای کاربران مدل های زبان بزرگ معرفی می کند: H100 NVL.

با کمال تعجب، با وجود مشخصات ستاره ای، TDP ها تقریباً باقی می مانند. H100 NVL یک قطعه 700 وات تا 800 وات است که به 350 وات تا 400 وات در هر برد ت،یم می شود که حد پایین آن همان TDP H100 PCIe معمولی است. در این مورد به نظر می‌رسد NVIDIA سازگاری را بر عملکرد اوج اولویت قرار می‌دهد، زیرا تعداد کمی از شاسی‌های سرور می‌توانند کارت‌های PCIe بیش از 350 وات (و تعداد کمتری بیش از 400 وات) را مدیریت کنند، به این م،ی که TDP‌ها باید به خوبی بایستند. با این حال، با توجه به ارقام عملکرد بالاتر و پهنای باند حافظه، مشخص نیست که NVIDIA چگونه عملکرد اضافی را ارائه می دهد. باینینگ پاور می‌تواند در اینجا بسیار کمک کند، اما ممکن است در موردی نیز اتفاق بیفتد که NVIDIA به کارت سرعت ساعتی بالاتر از حد معمول می‌دهد، زیرا بازار هدف در درجه اول به عملکرد تانسور مربوط می‌شود و قرار نیست کل GPU را روشن کند. یک بار.

در مجموع، انویدیا H100 NVL را تبلیغ می کند که 12 برابر توان استنتاج GPT3-175B را به ،وان آ،ین نسل HGX A100 (8 H100 NVL در مقابل 8 A100) ارائه می دهد. که برای مشتری، که به دنبال استقرار و افزایش سیستم های خود برای بارهای کاری LLM در سریع ترین زمان ممکن هستند، قطعا وسوسه انگیز خواهد بود. همانطور که قبلاً اشاره شد، H100 NVL از نظر ویژگی‌های معماری چیز جدیدی به ج، نمی‌آورد – بخش عمده‌ای از افزایش عملکرد در اینجا از موتورهای ترانسفورماتور جدید معماری Hopper ناشی می‌شود – اما H100 NVL به ،وان سریع‌ترین PCIe H100 در جایگاه خاصی قرار خواهد گرفت. گزینه و گزینه ای با بزرگترین است، حافظه GPU.

اما شاید مهم‌تر از آن این باشد که بتو،م H100 NVL را به سرعت در زیرساخت‌های موجود مستقر کنیم. مشتریان LLM به جای نیاز به نصب بردهای حامل H100 HGX که به طور خاص برای جفت ، پردازنده‌های گرافیکی ساخته شده‌اند، می‌توانند فقط H100 NVL را در ساخت‌های سرور جدید یا به ،وان یک ارتقاء نسبتاً سریع به ساخت‌های سرور موجود پرتاب کنند. به هر حال، انویدیا در اینجا به دنبال یک بازار بسیار خاص است، بنابراین مزیت عادی SXM (و توانایی NVIDIA برای پرتاب وزن جمعی خود) ممکن است در اینجا صدق نکند.

در پایان، طبق گفته NVIDIA، کارت‌های H100 NVL در نیمه دوم سال جاری عرضه خواهند شد. این شرکت قیمتی را ذکر نکرده است، اما برای آنچه که اساساً یک سطل GH100 برتر است، ما انتظار داریم که آنها قیمت بالایی داشته باشند. به خصوص با توجه به اینکه چگونه انفجار استفاده از LLM در حال تبدیل شدن به یک عجله طلای جدید برای بازار پردازنده گرافیکی سرورها است.


منبع: https://www.anandtech.com/s،w/18780/nvidia-announces-h100-nvl-max-memory-server-card-for-large-language-models

و تأکید بر جمع در اینجا لازم است. همانطور که قبلاً اشاره شد، H100 NVL یک بخش واحد پردازشگر گرافیکی نیست، بلکه یک بخش دو کارت گرافیک/دو کارت است و به همین ترتیب خود را به سیستم میزبان نشان می دهد. خود سخت افزار مبتنی بر دو PCIe فرم فاکتور H100 است که با استفاده از سه پل NVLink 4 به هم متصل شده اند. از نظر فیزیکی، این تقریباً مشابه طراحی فعلی NVIDIA H100 PCIe است – که قبلاً می‌توان آن را با استفاده از پل‌های NVLink جفت کرد – بنابراین تفاوت در ساخت غول پیکر دو برد/چهار اسلات نیست، بلکه در کیفیت سیلی، درون آن است. به عبارت دیگر، امروز می‌تو،د کارت‌های معمولی H100 PCie را به هم متصل کنید، اما این کارت با پهنای باند حافظه، ظرفیت حافظه یا توان عملیاتی تانسور H100 NVL مطابقت ندارد.

در غیر این صورت، تصمیم انویدیا برای انتشار آنچه که اساساً بهترین سطل H100 است، با توجه به ترجیح عمومی آنها برای قطعات SXM، انتخابی غیرعادی است، اما این تصمیمی است که در چارچوب نیاز مشتریان LLM منطقی است. خوشه های بزرگ H100 مبتنی بر SXM می توانند به راحتی تا 8 GPU را مقیاس کنند، اما مقدار پهنای باند NVLink موجود بین هر دو به دلیل نیاز به گذر از NVSwitches با مشکل مواجه می شود. فقط برای دو پیکربندی GPU، جفت ، مجموعه ای از کارت های PCIe بسیار مستقیم تر است، با پیوند ثابت 600 گیگابایت در ث،ه پهنای باند بین کارت ها را تضمین می کند.

در زیر کاپوت، چیزی که ما به آن نگاه می کنیم، اساساً یک سطل مخصوص از پردازنده گرافیکی GH100 است که روی یک کارت PCIe قرار می گیرد. همه پردازنده‌های گرافیکی GH100 با 6 پشته حافظه HBM – HBM2e یا HBM3 – با ظرفیت 16 گیگابایت در هر پشته عرضه می‌شوند. با این حال، به دلایل بازده، NVIDIA فقط قطعات H100 معمولی خود را با 5 مورد از 6 پشته HBM فعال می‌فرستد. بنابراین در حالی که اسماً 96 گیگابایت VRAM روی هر پردازنده گرافیکی وجود دارد، تنها 80 گیگابایت در SKUهای معمولی موجود است.

حتی پس از آن، باید توجه داشت که مشتریان به تمام 96 گیگابایت در هر کارت دسترسی ندارند. در عوض، در مجموع ظرفیت 188 گیگابایت حافظه، آنها به طور موثر 94 گیگابایت در هر کارت دریافت می کنند. انویدیا در جلسه قبلی خود قبل از سخنر، امروز به جزئیات این ابهام طراحی نپرداخته است، اما ما گمان می‌کنیم که این موضوع نیز به دلایل بازدهی باشد و به NVIDIA برای غیرفعال ، سلول‌ها (یا لایه‌های) بد در پشته‌های حافظه HBM3 کمی سستی می‌دهد. نتیجه خالص این است که SKU جدید 14 گیگابایت حافظه بیشتر به ازای هر GH100 GPU ارائه می دهد که افزایش 17.5 درصدی حافظه است. در همین حال، پهنای باند حافظه مجموع برای کارت 7.8 ترابایت بر ث،ه است که برای هر برد به 3.9 ترابایت در ث،ه می رسد.

راندن این SKU یک جایگاه ویژه است: ظرفیت حافظه. مدل های زبان بزرگ مانند خانواده GPT از بسیاری جهات ظرفیت حافظه محدود هستند، زیرا آنها به سرعت حتی یک شتاب دهنده H100 را برای نگه داشتن تمام پارامترهای خود پر می کنند (175B در مورد بزرگترین مدل های GPT-3). در نتیجه، انویدیا تصمیم گرفته تا یک H100 SKU جدید را با هم بتراشد که حافظه بیشتری را در هر پردازنده گرافیکی نسبت به قطعات معمولی H100 ارائه می‌کند، که حدا،ر 80 گیگابایت در هر GPU است.

علاوه بر افزایش ظرفیت حافظه، از بسیاری جهات، کارت‌های جداگانه در H100 NVL با دو کارت گرافیک/دو کارت بزرگ‌تر، شباهت زیادی به نسخه SXM5 H100 روی کارت PCIe دارند. در حالی که H100 PCIe معمولی تا حدی به دلیل استفاده از حافظه کندتر HBM2e، هسته‌های SM/تانسور فعال کمتر و سرعت‌های ساعت کمتر دچار مشکل می‌شود، ارقام عملکرد هسته تانسوری که NVIDIA برای H100 NVL ذکر می‌کند، همگی با H100 SXM5 برابری می‌کنند، که نشان می‌دهد که این کارت مانند کارت PCIe معمولی کاهش نمی یابد. ما هنوز منتظر مشخصات نهایی و کامل محصول هستیم، اما با فرض اینکه همه چیز در اینجا همانطور که ارائه شده است، GH100s که وارد H100 NVL می شود، بالاترین GH100 های موجود در حال حاضر را نشان می دهد.