بلوک‌های شتاب‌دهنده سخت‌افزار Sapphire Rapids Demos Intel در Innovation 2022


با برگزاری رویداد سالانه نوآوری اینتل که این هفته در سن خوزه برگزار می‌شود، این شرکت به دنبال آن است که بسیاری از شتاب‌های فنی را که در چند سال گذشته به آرامی از دست داده‌اند، دوباره به دست آورد. در حالی که اینتل در طول زمان به سختی کار خود را برای عرضه محصولات جدید ادامه داده است، ،یبی از برنامه‌ریزی‌ها و ناتو، در نمایش کالاهای خود به مخاطبان، بخشی از درخشش شرکت و محصولاتش را از بین برده است. بنابراین برای بزرگترین رویداد فنی حضوری خود از قبل از همه‌گیری، این شرکت تا آنجایی که می‌تواند سیلی، را به نمایش می‌گذارد تا مطبوعات، شرکا و مشتریان را متقاعد کند که تلاش‌های مدیر عامل شرکت پت گلسینگر، شرکت را به مسیر اصلی بازگردانده است.

از بین تمام مشکلات اینتل در چند سال گذشته، هیچ پوستری بهتر از CPU سرور/ایستگاه کاری Sapphire Rapids وجود ندارد. یک محصول واقعی نسل بعدی اینتل که همه چیز را از PCIe 5 و DDR5 گرفته تا CXL و انبوهی از شتاب‌دهنده‌های سخت‌افزاری را به ارمغان می‌آورد. یک سال تاخیر

اما Sapphire Rapids در راه است. و اینتل در نهایت قادر به دیدن نور در انتهای تونل در این تلاش های توسعه است. با در نظر گرفتن در دسترس بودن عمومی برای سه ماهه اول سال 2023، اینتل در نهایت در موقعیتی قرار دارد که Sapphire Rapids را برای مخاطبان وسیع تری – یا حداقل، اعضای مطبوعات، نشان دهد. یا برای مطالعه عملگرایانه تر در مورد مسائل، اینتل اکنون باید به طور جدی تبلیغ Sapphire Rapids را قبل از راه اندازی آن و رقبای خود شروع کند.

برای نمایش امسال، اینتل از اعضای مطبوعات دعوت کرد تا یک دموی زنده از سیلی، Sapphire Rapids پیش تولید را در عمل مشاهده کنند. هدف از دموها، علاوه بر این که به مطبوعات این توانایی را بدهد که بگویند «ما آن را دیدیم. وجود دارد!” شروع به نشان دادن یکی از ویژگی های منحصر به فرد Sapphire Rapids است: مجموعه بلوک های شتاب دهنده اختصاصی آن.

Sapphire Rapids در کنار ارائه به‌روزرس،‌های بسیار مورد نیاز برای هسته‌های پردازنده CPU، بلوک‌های شتاب‌دهنده اختصاصی را برای چندین بار کاری رایج سرور/ایستگاه کاری حیاتی CPU اضافه می‌کند. به بیان ساده، ایده این است که سیلی، با عملکرد ثابت می تواند این کار را به سرعت یا بهتر از هسته های CPU برای ،ری از توان و تنها برای افزایش جزئی در اندازه قالب انجام دهد. و با توجه به ابر مقیاس‌کننده‌ها و سایر اپراتورهای سرور که به دنبال پیشرفت‌های بزرگ در چگالی مح،اتی و بهره‌وری انرژی هستند، شتاب‌دهنده‌های خاص دامنه مانند این‌ها راه خوبی برای اینتل برای ارائه چنین مزیتی به مشتریان خود هستند. و اینکه انتظار نمی رود رقیب AMD دارای بلوک های شتاب دهنده مشابه باشد، ضرری هم ندارد.

نگاهی سریع به سیلی، Sapphire Rapids

قبل از اینکه به ادامه مطلب برویم، در اینجا نگاهی سریع به سیلی، Sapphire Rapids داریم.

اینتل برای نمایش‌های خود (و استفاده نهایی توسط بازبین)، برخی از سیستم‌های Sapphire Rapids دو سوکت را با استفاده از سیلی، پیش‌تولید مونتاژ کرده است. و برای اه، ع،، آنها یک سیستم را باز کرده اند و CPU را بیرون آورده اند.

در حال حاضر چیز زیادی نمی تو،م در مورد سیلی، بگوییم فراتر از این که کار می کند. از آنجایی که هنوز در مرحله پیش تولید است، اینتل سرعت ساعت یا شماره مدل را فاش نمی کند – یا اینکه چه اشتباهی منجر به غیر نهایی بودن سیلی، آن شده است. اما چیزی که می د،م این است که این تراشه ها دارای 60 هسته پردازنده و همچنین بلوک های شتاب دهنده هستند که موضوع نمایش های امروزی بود.

شتاب دهنده های Sapphire Rapids: AMX، DLB، DSA، IAA، و AMX

بدون احتساب واحدهای AVX-512 در هسته های CPU Sapphire Rapids، CPU های سرور با 4 شتاب دهنده اختصاصی در هر کاشی CPU ارسال می شوند.

اینها عبارتند از اینتل Dynamic Load Balancer (DLB)، Intel Data Streaming Accelerator (DSA)، Intel-Memory Analytics Accelerator (IAA) و Intel QuickAssist Technology (QAT). همه این ها به ،وان دستگاه های اختصاصی از ش،ه تراشه آویزان می شوند و اساساً به ،وان شتاب دهنده های PCIe عمل می کنند که در خود سیلی، CPU ادغام شده اند. این بدان م،است که شتاب‌دهنده‌ها منابع هسته CPU را مصرف نمی‌کنند (حافظه و I/O موضوع دیگری است)، اما همچنین به این م،ی است که تعداد هسته‌های شتاب‌دهنده موجود مستقیماً با تعداد هسته‌های CPU افزایش نمی‌یابد.

از این میان، همه چیز به جز QAT برای اینتل جدید است. QAT استثنا است زیرا نسل قبلی آن فناوری در PCH (چیپست) مورد استفاده برای 3 پیاده سازی شده است.rd نسل پردازنده‌های Xeon (Ice Lake-SP) و Sapphire Rapids در حال ادغام در خود سیلی، CPU است. در نتیجه، در حالی که اینتل پیاده‌سازی شتاب‌دهنده‌های دامنه خاص پدیده جدیدی نیست، این شرکت در حال اجرای ایده Sapphire Rapids است.

همه این بلوک های شتاب دهنده اختصاصی برای تخلیه مجموعه خاصی از بار کاری با توان عملیاتی بالا طراحی شده اند. برای مثال DSA کپی داده ها و مح،ات ساده مانند مح،ه CRC32 را تسریع می کند. در همین حال QAT یک بلوک شتاب رمزنگاری و همچنین یک بلوک فشرده سازی/فشرده سازی داده است. و IAA مشابه است، فشرده‌سازی و رفع فشرده‌سازی داده‌ها را انجام می‌دهد تا به پایگاه‌های داده بزرگ (به ،وان مثال Big Data) به شکل فشرده در حافظه نگهداری شود. در نهایت، DLB، که اینتل امروز آن را آزمایش نکرد، بلوکی برای تسریع تعادل بار بین سرورها است.

در نهایت، Advanced Matrix Extension (AMX) وجود دارد، بلوک اجرای ریاضی ماتریس که قبلاً اعلام شده بود. مشابه هسته‌های تانسور و انواع دیگر شتاب‌دهنده‌های ماتریسی، اینها بلوک‌هایی با چگالی فوق‌العاده بالا برای اجرای موثر ریاضیات ماتریس هستند. و برخلاف سایر انواع شتاب دهنده، AMX یک شتاب دهنده اختصاصی نیست، بلکه بخشی از هسته های CPU است و هر هسته یک بلوک دارد.

AMX بازی اینتل برای بازار یادگیری عمیق است و از تو، که امروزه با AVX-512 با استفاده از ساختارهای داده حتی متراکم‌تر به دست می‌آورد، بالاتر و فراتر است. در حالی که اینتل پردازنده‌های گرافیکی فراتر از این خواهد داشت، اما برای Sapphire Rapids اینتل به دنبال رسیدگی به بخش مشتری، است که نیاز به استنتاج هوش مصنوعی بسیار نزدیک به هسته‌های CPU دارند، نه در شتاب‌دهنده‌های کمتر انعطاف‌پذیر و اختصاصی‌تر.

دموها

برای نسخه ی نمایشی مطبوعاتی امروز، اینتل تیم آزمایشی خود را برای راه اندازی و نمایش مجموعه ای از دموهای واقعی که از شتاب دهنده های جدید بهره می برند و می توانند برای نمایش عملکردشان محک زده شوند، معرفی کرد. برای این کار، اینتل به دنبال نشان دادن مزایای عملکرد بدون شتاب (CPU) بر روی سخت‌افزار Sapphire Rapids خود بود – ی،ی اینکه چرا باید از شتاب‌دهنده‌های آن‌ها در این س، از حجم‌های کاری استفاده کنید – و همچنین نشان دادن مزیت عملکرد در مقابل اجرای بارهای کاری مشابه در CPU های EPYC (میلان) رقیب اصلی AMD.

البته اینتل قبلا داده ها را به صورت داخلی اجرا کرده است. بنابراین هدف از این دموها، علاوه بر فاش ، این اعداد عملکرد، نشان دادن واقعی بودن اعداد و نحوه دریافت آنها بود. اشتباه نکنید، این اینتل است که می خواهد بهترین قدم خود را به جلو بگذارد. اما این کار را با سیلی، واقعی و سرورهای واقعی انجام می دهد، در حجم کاری که (به نظر من) کارهای معقولی برای آزمایش به نظر می رسد.

نسخه ی نمایشی فناوری QuickAssist

ابتدا یک نسخه ی نمایشی برای شتاب دهنده QuickAssist Technology (QAT) بود. اینتل با حجم کاری NGINX شروع به کار کرد و عملکرد رمزنگاری OpenSSL را اندازه‌گیری کرد.

اینتل با هدف عملکرد تقریباً ایزو، توانست با استفاده از شتابدهنده QAT و 11 هسته از 120 (60×2) CPU، تقریباً 66 هزار اتصال در ث،ه را در سرور Sapphire Rapids خود به دست آورد. این در مقایسه با نیاز به 67 هسته برای دستیابی به توان عملیاتی مشابه در Sapphire Rapids بدون هیچ نوع شتاب QAT و 67 هسته در سرور EPYC 7763 دو سوکتی است.

دومین نسخه نمایشی QAT اندازه گیری عملکرد فشرده سازی/فشرده سازی روی همان سخت افزار بود. همانطور که برای یک بلوک شتاب دهنده اختصاصی انتظار می رود، این معیار یک ضربه بزرگ بود. شتاب‌دهنده سخت‌افزار QAT از CPU‌ها عبور کرد، حتی زم، که آنها از کتابخانه بسیار بهینه‌شده ISA-L اینتل استفاده ،د، جلوتر از آن‌ها قرار گرفت. در همین حال، این یک کار تقریباً به طور کامل تخلیه شده بود، بنابراین زمان 4 هسته CPU را در مقابل تمام هسته های 120/128 CPU در بارهای کاری نرم افزار مصرف می کرد.

نسخه ی نمایشی شتاب دهنده آنالیز در حافظه

دومین نسخه نمایشی شتاب دهنده تجزیه و تحلیل درون حافظه بود. که علیرغم نام، در واقع بخش تجزیه و تحلیل واقعی کار را تسریع نمی کند. بلکه یک شتابدهنده فشرده‌سازی/فشرده‌سازی است که برای استفاده با پایگاه‌های داده آماده شده است تا بتوان بدون هزینه‌های هنگفت عملکرد CPU روی حافظه کار کرد.

این سناریو با اجرای نسخه نمایشی بر روی یک ClickHouse DB، نشان داد که سیستم Sapphire Rapids دارای مزیت عملکردی 59 درصدی درخواست در ث،ه در مقابل یک سیستم AMD EPYC (اینتل یک راه‌اندازی فقط نرم‌افزاری اینتل را اجرا نمی‌کند) و همچنین کاهش پهنای باند حافظه را نشان می‌دهد. استفاده و کاهش مصرف حافظه به طور کلی.

دومین نسخه نمایشی IAA مجموعه ای در برابر RocksDB با همان سیستم های Intel و AMD بود. بار دیگر اینتل سیستم SPR شتاب‌دهی شده با IAA را با عملکردی 1.9 برابری و تأخیر تقریباً نیمی پایین‌تر نشان داد.

نسخه ی نمایشی افزونه های ماتریس پیشرفته

آ،ین ایستگاه نمایشی که اینتل راه اندازی کرده بود برای نمایش افزونه های پیشرفته ماتریس (AMX) و شتاب دهنده جریان داده (DSA) پیکربندی شده است.

با شروع با AMX، اینتل یک معیار طبقه بندی تصویر را با استفاده از TensorFlow و ش،ه عصبی ResNet50 اجرا کرد. این آزمایش از عملیات بدون شتاب FP32 بر روی CPU ها، AVX-512 شتاب INT8 در Sapphire Rapids و در نهایت AMX-accelerated INT8 نیز در Sapphire Rapids استفاده کرد.

این یک ضربه دیگر برای شتاب دهنده ها بود. به لطف بلوک‌های AMX روی هسته‌های CPU، سیستم Sapphire Rapids نسبت به حالت AVX-512 VNNI با اندازه دسته‌ای 1 و بیش از 2 برابر با اندازه دسته‌ای 16، عملکردی کمتر از 2 برابر افزایش داد. و البته، این سناریو در مقایسه با CPUهای EPYC حتی برای اینتل مطلوب تر به نظر می رسد زیرا پردازنده های فعلی میلان AVX-512 VNNI را ارائه نمی دهند. دستاوردهای عملکرد کلی در اینجا به اندازه رفتن از CPU خالص به AVX-512 نیست، اما پس از آن AVX-512 در حال حاضر بخشی از راه برای تبدیل شدن به یک بلوک شتاب ماتریسی به خودی خود (در میان چیزهای دیگر) بود.

نسخه ی نمایشی شتاب دهنده جریان داده

سرانجام، اینتل بلوک Data Streaming Accelerator (DSA) را به نمایش گذاشت که به نمایش بلوک های شتاب دهنده اختصاصی در Sapphire Rapids بازگشته است. در این آزمایش، اینتل یک نسخه نمایشی انتقال ش،ه را با استفاده از FIO تنظیم کرد تا مشتری بتواند داده ها را از سرور Sapphire Rapids بخواند. DSA در اینجا برای تخلیه مح،ات CRC32 مورد استفاده برای بسته‌های TCP استفاده می‌شود، عملیاتی که به سرعت از نظر نیازهای CPU با نرخ‌های بسیار بالای داده‌ای که اینتل آزمایش می‌کرد، جمع می‌شود – یک اتصال 2x100GbE.

با استفاده از یک هسته CPU در اینجا برای نمایش کارایی (و از آنجا که چند هسته CPU برای اشباع ، پیوند کافی است)، بلوک DSA به Sapphire Rapids اجازه می دهد تا 76٪ IOPS بیشتری را در خواندن متوالی 128K QD64 در مقایسه با استفاده از بهینه سازی شده اینتل ارائه دهد. کتابخانه ISA-L با حجم کاری مشابه. برتری نسبت به سیستم EPYC حتی بیشتر بود، و تأخیر با DSA بسیار کمتر از 2000 بود.

آزمایش مشابهی نیز با خواندن تصادفی کوچکتر 16K QD256 انجام شد که در برابر 2 هسته CPU اجرا می شد. مزیت عملکرد DSA در اینجا چندان عالی نبود – فقط 22٪ در مقابل نرم افزار بهینه شده در Sapphire Rapids – اما دوباره مزیت نسبت به EPYC بیشتر بود و تاخیرها کمتر بود.

اولین افکار

و شما آن را دارید: اولین نسخه نمایشی مطبوعاتی بلوک های شتاب دهنده اختصاصی (و AMX) در Intel’s 4هفتم CPU نسل Xeon (Sapphire Rapids). ما آن را دیدیم، وجود دارد، و این نوک کوه یخ برای همه چیزهایی است که Sapphire Rapids قرار است از سال آینده برای مشتریان ارائه کند.

با توجه به ماهیت و هدف شتاب‌دهنده‌های خاص دامنه، چیزی در اینجا وجود ندارد که به نظر من برای خوانندگان فنی معمولی شگفت‌انگیز باشد. DSA ها دقیقاً برای تسریع بارهای کاری تخصصی وجود دارند، به ویژه آنهایی که در غیر این صورت CPU و/یا انرژی زیادی دارند، و این کاری است که اینتل در اینجا انجام داده است. و با توجه به اینکه انتظار می رود رقابت در بازار سرور برای عملکرد کلی CPU داغ باشد، این بلوک های شتاب دهنده راهی برای اینتل هستند تا ارزش بیشتری به پردازنده های Xeon خود بیافزایند و همچنین از AMD و سایر رقبای خود متمایز شوند. تعداد بیشتری از هسته های CPU

انتظار می‌رود در ماه‌های آینده بیشتر در مورد Sapphire Rapids ببینیم، زیرا اینتل به عرضه نهایی CPU سرور نسل بعدی خود نزدیک‌تر می‌شود.


منبع: https://www.anandtech.com/s،w/17596/intel-demos-sapphire-rapids-accelerators-at-innovation-2022