H100 NVL یک نوع جالب در کارت H100 PCIe NVIDIA است که به نشانه زمان و موفقیت گسترده NVIDIA در زمینه هوش مصنوعی، بازاری منحصر به فرد را هدف قرار داده است: استقرار مدل زبان بزرگ (LLM). چند چیز وجود دارد که این کارت را از کرایه معمول سرور NVIDIA غیرمعمول میکند – مهمترین آنها این است که 2 برد H100 PCIe است که قبلاً به هم متصل شدهاند – اما نکته مهم ظرفیت حافظه بزرگ است. کارت ،یبی دو GPU، 188 گیگابایت حافظه HBM3 – 94 گیگابایت در هر کارت – ارائه میکند که نسبت به هر بخش دیگر NVIDIA تا به امروز، حافظه بیشتری را در هر GPU ارائه میکند، حتی در خانواده H100.
مقایسه مشخصات شتاب دهنده NVIDIA H100 | |||||
H100 NVL | H100 PCIe | H100 SXM | |||
هسته های CUDA FP32 | 2 × 16896؟ | 14592 | 16896 | ||
هسته های تانسور | 2*528؟ | 456 | 528 | ||
تقویت ساعت | 1.98 گیگاهرتز | 1.75 گیگاهرتز | 1.98 گیگاهرتز | ||
ساعت حافظه | ~5.1Gbps HBM3 | 3.2 گیگابیت بر ث،ه HBM2e | 5.23 گیگابیت بر ث،ه HBM3 | ||
عرض گذرگاه حافظه | 6144 بیتی | 5120 بیت | 5120 بیت | ||
پهنای باند حافظه | 2 x 3.9 ترابایت در ث،ه | 2 ترابایت در ث،ه | 3.35 ترابایت در ث،ه | ||
VRAM | 2 x 94 گیگابایت (188 گیگابایت) | 80 گیگابایت | 80 گیگابایت | ||
وکتور FP32 | 2 x 67 TFLOPS؟ | 51 TFLOPS | 67 TFLOPS | ||
وکتور FP64 | 2 x 34 TFLOPS؟ | 26 TFLOPS | 34 TFLOPS | ||
تانسور INT8 | 2 x 1980 تاپس | 1513 تاپس | 1980 تاپس | ||
تانسور FP16 | 2 x 990 TFLOPS | 756 TFLOPS | 990 TFLOPS | ||
تانسور TF32 | 2 x 495 TFLOPS | 378 TFLOPS | 495 TFLOPS | ||
تانسور FP64 | 2 x 67 TFLOPS؟ | 51 TFLOPS | 67 TFLOPS | ||
اتصال به یکدیگر | NVLink 4 18 پیوند (900 گیگابایت در ث،ه) |
NVLink 4 (600 گیگابایت در ث،ه) |
NVLink 4 18 پیوند (900 گیگابایت در ث،ه) |
||
پردازنده گرافیکی | 2 x 100 GH (814mm2) |
GH100 (814mm2) |
GH100 (814mm2) |
||
تعداد ترانزیستورها | 2×80B | 80B | 80B | ||
TDP | 700 وات | 350 وات | 700-800 وات | ||
فرایند ساخت | TSMC 4N | TSMC 4N | TSMC 4N | ||
رابط | 2 x PCIe 5.0 (چهار اسلات) |
PCIe 5.0 (دو شکاف) |
SXM5 | ||
معماری | هاپر | هاپر | هاپر |
را H100 NVLبه ،ه خود، SKU افسانه ای کاملاً فعال است که هر 6 پشته فعال است. با روشن ، 6هفتم پشته HBM، NVIDIA قادر به دسترسی به حافظه اضافی و پهنای باند حافظه اضافی است که در اختیار دارد. این تا حدی تأثیر مادی بر بازدهی خواهد داشت – چقدر یک راز انویدیا کاملاً محافظت شده است – اما بازار LLM ظاهراً به اندازه کافی بزرگ است و مایل است برای بستههای تقریباً عالی GH100 حق بیمه کافی بپردازد تا ارزش آن را داشته باشد.
در حالی که رویداد بهار GTC امسال دارای هیچ پردازنده گرافیکی یا معماری گرافیکی جدیدی از NVIDIA نیست، این شرکت همچنان در حال تولید محصولات جدید بر اساس پردازندههای گرافیکی Hopper و Ada Lovelace است که در سال گذشته معرفی شده است. در سطح بالای بازار، این شرکت امروز یک نوع شتاب دهنده جدید H100 را به طور خاص برای کاربران مدل های زبان بزرگ معرفی می کند: H100 NVL.
با کمال تعجب، با وجود مشخصات ستاره ای، TDP ها تقریباً باقی می مانند. H100 NVL یک قطعه 700 وات تا 800 وات است که به 350 وات تا 400 وات در هر برد ت،یم می شود که حد پایین آن همان TDP H100 PCIe معمولی است. در این مورد به نظر میرسد NVIDIA سازگاری را بر عملکرد اوج اولویت قرار میدهد، زیرا تعداد کمی از شاسیهای سرور میتوانند کارتهای PCIe بیش از 350 وات (و تعداد کمتری بیش از 400 وات) را مدیریت کنند، به این م،ی که TDPها باید به خوبی بایستند. با این حال، با توجه به ارقام عملکرد بالاتر و پهنای باند حافظه، مشخص نیست که NVIDIA چگونه عملکرد اضافی را ارائه می دهد. باینینگ پاور میتواند در اینجا بسیار کمک کند، اما ممکن است در موردی نیز اتفاق بیفتد که NVIDIA به کارت سرعت ساعتی بالاتر از حد معمول میدهد، زیرا بازار هدف در درجه اول به عملکرد تانسور مربوط میشود و قرار نیست کل GPU را روشن کند. یک بار.
در مجموع، انویدیا H100 NVL را تبلیغ می کند که 12 برابر توان استنتاج GPT3-175B را به ،وان آ،ین نسل HGX A100 (8 H100 NVL در مقابل 8 A100) ارائه می دهد. که برای مشتری، که به دنبال استقرار و افزایش سیستم های خود برای بارهای کاری LLM در سریع ترین زمان ممکن هستند، قطعا وسوسه انگیز خواهد بود. همانطور که قبلاً اشاره شد، H100 NVL از نظر ویژگیهای معماری چیز جدیدی به ج، نمیآورد – بخش عمدهای از افزایش عملکرد در اینجا از موتورهای ترانسفورماتور جدید معماری Hopper ناشی میشود – اما H100 NVL به ،وان سریعترین PCIe H100 در جایگاه خاصی قرار خواهد گرفت. گزینه و گزینه ای با بزرگترین است، حافظه GPU.
اما شاید مهمتر از آن این باشد که بتو،م H100 NVL را به سرعت در زیرساختهای موجود مستقر کنیم. مشتریان LLM به جای نیاز به نصب بردهای حامل H100 HGX که به طور خاص برای جفت ، پردازندههای گرافیکی ساخته شدهاند، میتوانند فقط H100 NVL را در ساختهای سرور جدید یا به ،وان یک ارتقاء نسبتاً سریع به ساختهای سرور موجود پرتاب کنند. به هر حال، انویدیا در اینجا به دنبال یک بازار بسیار خاص است، بنابراین مزیت عادی SXM (و توانایی NVIDIA برای پرتاب وزن جمعی خود) ممکن است در اینجا صدق نکند.
در پایان، طبق گفته NVIDIA، کارتهای H100 NVL در نیمه دوم سال جاری عرضه خواهند شد. این شرکت قیمتی را ذکر نکرده است، اما برای آنچه که اساساً یک سطل GH100 برتر است، ما انتظار داریم که آنها قیمت بالایی داشته باشند. به خصوص با توجه به اینکه چگونه انفجار استفاده از LLM در حال تبدیل شدن به یک عجله طلای جدید برای بازار پردازنده گرافیکی سرورها است.
منبع: https://www.anandtech.com/s،w/18780/nvidia-announces-h100-nvl-max-memory-server-card-for-large-language-models
و تأکید بر جمع در اینجا لازم است. همانطور که قبلاً اشاره شد، H100 NVL یک بخش واحد پردازشگر گرافیکی نیست، بلکه یک بخش دو کارت گرافیک/دو کارت است و به همین ترتیب خود را به سیستم میزبان نشان می دهد. خود سخت افزار مبتنی بر دو PCIe فرم فاکتور H100 است که با استفاده از سه پل NVLink 4 به هم متصل شده اند. از نظر فیزیکی، این تقریباً مشابه طراحی فعلی NVIDIA H100 PCIe است – که قبلاً میتوان آن را با استفاده از پلهای NVLink جفت کرد – بنابراین تفاوت در ساخت غول پیکر دو برد/چهار اسلات نیست، بلکه در کیفیت سیلی، درون آن است. به عبارت دیگر، امروز میتو،د کارتهای معمولی H100 PCie را به هم متصل کنید، اما این کارت با پهنای باند حافظه، ظرفیت حافظه یا توان عملیاتی تانسور H100 NVL مطابقت ندارد.
در غیر این صورت، تصمیم انویدیا برای انتشار آنچه که اساساً بهترین سطل H100 است، با توجه به ترجیح عمومی آنها برای قطعات SXM، انتخابی غیرعادی است، اما این تصمیمی است که در چارچوب نیاز مشتریان LLM منطقی است. خوشه های بزرگ H100 مبتنی بر SXM می توانند به راحتی تا 8 GPU را مقیاس کنند، اما مقدار پهنای باند NVLink موجود بین هر دو به دلیل نیاز به گذر از NVSwitches با مشکل مواجه می شود. فقط برای دو پیکربندی GPU، جفت ، مجموعه ای از کارت های PCIe بسیار مستقیم تر است، با پیوند ثابت 600 گیگابایت در ث،ه پهنای باند بین کارت ها را تضمین می کند.
در زیر کاپوت، چیزی که ما به آن نگاه می کنیم، اساساً یک سطل مخصوص از پردازنده گرافیکی GH100 است که روی یک کارت PCIe قرار می گیرد. همه پردازندههای گرافیکی GH100 با 6 پشته حافظه HBM – HBM2e یا HBM3 – با ظرفیت 16 گیگابایت در هر پشته عرضه میشوند. با این حال، به دلایل بازده، NVIDIA فقط قطعات H100 معمولی خود را با 5 مورد از 6 پشته HBM فعال میفرستد. بنابراین در حالی که اسماً 96 گیگابایت VRAM روی هر پردازنده گرافیکی وجود دارد، تنها 80 گیگابایت در SKUهای معمولی موجود است.
حتی پس از آن، باید توجه داشت که مشتریان به تمام 96 گیگابایت در هر کارت دسترسی ندارند. در عوض، در مجموع ظرفیت 188 گیگابایت حافظه، آنها به طور موثر 94 گیگابایت در هر کارت دریافت می کنند. انویدیا در جلسه قبلی خود قبل از سخنر، امروز به جزئیات این ابهام طراحی نپرداخته است، اما ما گمان میکنیم که این موضوع نیز به دلایل بازدهی باشد و به NVIDIA برای غیرفعال ، سلولها (یا لایههای) بد در پشتههای حافظه HBM3 کمی سستی میدهد. نتیجه خالص این است که SKU جدید 14 گیگابایت حافظه بیشتر به ازای هر GH100 GPU ارائه می دهد که افزایش 17.5 درصدی حافظه است. در همین حال، پهنای باند حافظه مجموع برای کارت 7.8 ترابایت بر ث،ه است که برای هر برد به 3.9 ترابایت در ث،ه می رسد.
راندن این SKU یک جایگاه ویژه است: ظرفیت حافظه. مدل های زبان بزرگ مانند خانواده GPT از بسیاری جهات ظرفیت حافظه محدود هستند، زیرا آنها به سرعت حتی یک شتاب دهنده H100 را برای نگه داشتن تمام پارامترهای خود پر می کنند (175B در مورد بزرگترین مدل های GPT-3). در نتیجه، انویدیا تصمیم گرفته تا یک H100 SKU جدید را با هم بتراشد که حافظه بیشتری را در هر پردازنده گرافیکی نسبت به قطعات معمولی H100 ارائه میکند، که حدا،ر 80 گیگابایت در هر GPU است.
علاوه بر افزایش ظرفیت حافظه، از بسیاری جهات، کارتهای جداگانه در H100 NVL با دو کارت گرافیک/دو کارت بزرگتر، شباهت زیادی به نسخه SXM5 H100 روی کارت PCIe دارند. در حالی که H100 PCIe معمولی تا حدی به دلیل استفاده از حافظه کندتر HBM2e، هستههای SM/تانسور فعال کمتر و سرعتهای ساعت کمتر دچار مشکل میشود، ارقام عملکرد هسته تانسوری که NVIDIA برای H100 NVL ذکر میکند، همگی با H100 SXM5 برابری میکنند، که نشان میدهد که این کارت مانند کارت PCIe معمولی کاهش نمی یابد. ما هنوز منتظر مشخصات نهایی و کامل محصول هستیم، اما با فرض اینکه همه چیز در اینجا همانطور که ارائه شده است، GH100s که وارد H100 NVL می شود، بالاترین GH100 های موجود در حال حاضر را نشان می دهد.