ابرپردازنده‌ی تسلا P100 انویدیا با تراشه‌ی قدرتمند GP100 و معماری پاسکال

انویدیا NVLink واسط جدید ارتباطی بین پردازنده‌ی اصلی و گرافیکی و همین‌طور بین کارت گرافیک‌ها است که قرار است جای پی‌سی‌آی اکسپرس را بگیرد. سرعت اجرای نرم‌افزارهای محاسباتی، تعلیم شبکه‌ی عصبی و نرم‌افزارهای هوش مصنوعی، به کمک NVLink افزایش پیدا می‌کند. هر مسیر NVLink انویدیا پهنای باند ۴۰ گیگابایت بر ثانیه دارد، ۲٫۵ برابر بیشتر از ۱۶ مسیر پی‌سی‌آی اکسپرس ۳٫۰ که پهنای باند ۱۶ گیگابایت بر ثانیه‌ای دارد و برای کارت گرافیک‌های رده‌اول سال ۲۰۱۵، بیش از حد نیاز است. در ادامه با مشخصات و کانکتور خاص NVLink و اولین کاربرد آن، کارت گرافیک Tesla P100 ویژه‌ی سرور‌های پیشرفته آشنا می‌شویم.

با NVLink انویدیا آشنا شویم

مدت‌ها پیش انویدیا از به کارگیری هسته‌هایی با معماری مجموعه دستورات آرم در کارت گرافیک‌های خویش صحبت کرده بود اما فعلاً در هیچ محصولی از هسته‌های پردازشی آرم که در دنیای گوشی و تبلت کاملاً متداول هستند، استفاده نشده است. فعلاً انویدیا فقط در تگراها که سیستم روی چیپ‌های کم‌مصرف برای گوشی و تبلت هستند از Cortex-A57 و مانند آن استفاده کرده است.

پهنای باند پی‌سی‌آی اکسپرس و تأخیر آن مشکل آینده است.

یکی از موضوعاتی که در برنامه‌های انویدیا برای گسترش کاربرد پردازنده‌ی گرافیکی در امور کلی یا به اختصار GPGPU مطرح می‌شد، واسط جدیدی به جای مسیرهای پی‌سی‌آی اکسپرس است. NVLink پهنای باند بالاتری نسبت به پی‌سی‌آی اکسپرس دارد و شاید در نسل‌های بعدی کارت گرافیک‌ها، مفید فایده واقع شود. در حال حاضر حتی زمانی که چند کارت گرافیک رده اول انویدیا را SLI می‌کنیم، پهنای باند اسلات پی‌سی‌آی اکسپرس ۳٫۰ ۱۶ مسیره کفایت می‌کند و معمولاً مشکلی پیش نمی‌آید اما در آینده احتمالاً مشکل پهنای باند و همین‌طور تأخیر گریبان‌گیر رده‌اول‌ها خواهد شد.

انویدیا می‌گوید NVLink اولین واسط ارتباط داخلی بین پردازنده‌های گرافیکی است و مدعی است که سرعت انتقال اطلاعات بین پردازنده‌ی اصلی و گرافیکی حدود ۵ تا ۱۲ برابر بیشتر از پی‌سی‌آی اکسپرس است. نمی‌دانم عددی که اعلام شده در قیاس با کدام نسخه‌ی پی‌سی‌آی اکسپرس است اما نتیجه‌ی نهایی بسیار جالب است. در نرم‌افزارهای محاسباتی و مهندسی، سرعتی که با NVLink حاصل شده، حداقل ۲۵ درصد و به طور متوسط ۵۰ درصد بیشتر از PCI-E است. مقایسه کنید:

سرعت اجرای نرم‌‎افزارهای محاسباتی به کمک NVLink نسبت به PCI-Express

سرعت اجرای نرم‌‎افزارهای محاسباتی به کمک NVLink نسبت به PCI-Express

شاید انسیس فلوئنت که نرم‌افزار تحلیل جریان سیالات است، کمتر تحت تأثیر NVLink باشد اما آخرین مورد بسیار مهم است چرا که از تبدیل سریع فوریه (FFT) در محاسبات هواشناسی، پردازش سیگنال ، پردازش تصویر ، حل معادلات دیفرانسل پاره‌ای و بسیاری کاربردهای مهم دیگر استفاده می‌شود. در تبدیل سریع فوریه سرعت NVLink بسیار بالاتر از پی‌سی‌آی اکسپرس است.

NVLink پروتکلی کاملاً نقطه به نقطه و بسیار سریع است.

NVLink پروتکلی کاملاً نقطه به نقطه و بسیار سریع است.

NVLink یک تفاوت جالب دیگر هم دارد، یک پروتکل کاملاً نقطه به نقطه است به این معنی که بین دو پردازنده‌ی گرافیکی نصب شده در یک سیستم، ارتباطی ۴ مسیره ایجاد می‌کند. هر مسیر پهنای باندی معادل ۲۰ گیگابایت بر ثانیه دارد که ۲۰ برابر بیشتر از یک مسیر پی‌سی‌آی اکسپرس ۳٫۰ است و در مجموع پهنای باند ۸۰ گیگابایت بر ثانیه به دست می‌آید.

NVLink پروتکلی کاملاً نقطه به نقطه و بسیار سریع است.

NVLink پروتکلی کاملاً نقطه به نقطه و بسیار سریع است.

کاربرد و آینده‌ی NVLink

هنوز تا عمومی شدن NVLink فاصله‌ی بسیار داریم. مادربوردهای نسل بعدی هم با واسط پی‌سی‌آی اکسپرس ۴ که حدود ۲ برابر سریع‌تر از نسل سوم است، سرعت مطلوبی خواهند داشت و به این راحتی نمی‌توان اسلات مفید پی‌سی‌آی اکسپرس و انبوه وسایل جانبی و کارت‌های طراحی شده برای آن را کنار گذاشت. اما عملکرد NVLink به قدری جالب است که IBM تصمیم گرفته در نسل بعدی POWER CPUهای خویش از آن استفاده کند.

انویدیا در معرفی معماری پاسکال به NVLink و کارت گرافیک‌های افقی اشاره کرده بود.

انویدیا در معرفی معماری پاسکال به NVLink و کارت گرافیک‌های افقی اشاره کرده بود.

دپارتمان انرژی ایالات متحده هم اعلام کرده که در بهترین سوپرکامپیوترهای نسل بعدی، از این واسط بسیار سریع استفاده خواهد کرد.

بروزرسانی، فروردین ۱۳۹۵: پاسکال با HBM2 و NVLink و بهینه برای ابرکامپیوترها

اولین اسلاید نشان می‌دهد که چه اتفاقاتی افتاده است. حافظه‌ی HBM2 که شاید پهنای باند ۱ ترابایت بر ثانیه داشته باشد، واسط جدیدی به جای پی‌سی‌آی اکسپرس به اسم NVLink که قبلاً پیرامون آن مقاله‌ی مفصلی داشتیم و موتور مهاجرت صفحه (حافظه) که برنامه‌نویسی موازی با دسترسی به ۵۱۲ گیگابایت حافظه‌ی مجازی را ساده می‌کند، سه ویژگی مهم در کنار معماری جدید است. در حقیقت تسلا P100 سریع‌ترین ابرپردازنده‌ی جهان است.

ابرپردازنده‌ی تسلا P100 انویدیا با تراشه‌ی قدرتمند GP100 و معماری پاسکال

ابرپردازنده‌ی تسلا P100 انویدیا با تراشه‌ی قدرتمند GP100 و معماری پاسکال

تسلای جدید هم مثل تسلاهای سابق، امکاناتی نظیر حافظه‌ی مجازی، کد تصحیح خطا یا ECC که لازمه‌ی سرورها و ابرپردازنده‌هاست و در حقیقت امنیت داده‌های حیاتی حین پردازش را تضمین می‌کند و قدرت پردازشی بالا در محاسبات دقیق FP64 را در خود حفظ کرده است.

محاسبات اعشاری ۶۴ بیتی با سرعتی بسیار بالا

دقت کنید که قدرت پردازشی تسلا P100 در محاسبات اعشاری ۶۴ بیتی (دو برابر دقت) یا به اختصار FP64 مثل مکسول معمولی یا شاید دقیق‌تر بگوییم، ضعیف نیست. تسلاها برای انجام هر دو نوع محاسبه‌ی ۳۲ یا ۶۴ بیتی بهینه هستند و قدرت پردازشی فوق‌العاده‌ای دارند. نسبت قدرت خام پردازش FP64 به FP32 این بار عدد یک دوم است که به نوعی شاهکار محسوب می‌شود. در معماری مکسول و البته مدل‌های معمولی، قدرت محاسبات ۶۴ بیتی فقط ۱/۳۲ قدرت محاسبات ۳۲ بیتی بوده حال آنکه در معماری کپلر، این نسبت ۱/۳ است. ده برابر بهتر و به همین علت است که تا چند روز پیش، انویدیا کارت گرافیکی در گروه تسلا و با معماری مکسول نداشت!

Tesla K40 و Tesla K80 که هر دو از تراشه‌ی K110B بهره می‌برند، تا چند روز پیش بهترین گزینه‌ی انویدیا برای محاسبات ۶۴ بیتی بوده که با توجه به حرف K معماری کپلر دارند. البته انویدیا Tesla M40 را با معماری مکسول برای محاسبات اعشاری ۳۲ بیتی معرفی کرده ولیکن کاربرد آن محدودتر است.

موتور مهاجرت صفحه و حافظه‌ی یکپارچه با معماری متفاوت

موتور مهاجرت صفحه یا Page Migration Engine پدیده‌ی جدیدی در معماری مکسول و شاید فقط GP100 است. موتور مهاجرت صفحه اگر داده‌ای موجود نباشد، به صورت خودکار آن را درخواست می‌کند، مدیریت چند درخواست داده‌ی هم‌زمان را پشتیبانی کرده و در نتیجه اگر نرم‌افزار در حال اجرا، در انتظار داده باشد، هم‌زمان خطای موجود بودن داده و درخواست داده و تحویل گرفتن آن را اجرا می‌کند.

دسترسی به حافظه‌ی یکپارچه در کپلر و مکسول

دسترسی به حافظه‌ی یکپارچه در کپلر و مکسول

به علاوه همان‌طور که در اسلاید زیر مشاهده می‌کنید، می‌توان با استفاده از واسط برنامه‌نویسی cudaMemAdvise، پیش‌درخواست حافظه را با بهینه‌سازی بیشتر ممکن است.

دسترسی به حافظه‌ی یکپارچه در پاسکال

دسترسی به حافظه‌ی یکپارچه در پاسکال

NVLink به جای پی‌سی‌آی اکسپرس

پهنای باند ۲٫۵ برابر بیشتر از PCIe 3.0 x16

انویدیا تأیید کرده که تسلا P100 از واسط جدید NVLink پشتیبانی می‌کند. ۴ کنترلر NVLink پشتیبانی شده و می‌توان با پهنای باند بسیار بالا پردازنده‌های گرافیکی را به هم مربوط کرد. ممکن است تسلا به پردازنده‌ی اصلی متصل شود (OpenPOWER) که در این صورت سرعتی بیش از پی‌سی‌آی اکسپرس ۳٫۰ به دست می‌آید. در حقیقت پهنای باند NVLink حدود ۴۰ گیگابایت بر ثانیه است، ۲٫۵ برابر بیشتر از اسلات ۱۶ مسیره‌ی پی‌سی‌آی اکسپرس ۳٫۰ که اکنون در مادربوردها مرسوم است. لذا ارتباط بین پردازنده‌های گرافیکی از طریق مسیر با پهنای باند ۸۰ گیگابایت بر ثانیه (یک طرفه) و یا دو برابر آن به صورت دو طرفه، صورت می‌گیرد.

NVLink پهنای باند 2.5 برابر بیشتر از PCIe 3.0 x16 دارد

NVLink پهنای باند ۲٫۵ برابر بیشتر از PCIe 3.0 x16 دارد

اسلاید زیر ۴ پردازنده‌ی گرافیکی مرتبط با هم از طریق NVLink و از طریق PCIe 3.0 با پردازنده‌ی اصلی را نمایش می‌دهد:

استفاده از NVLink برای ارتباط پردازنده‌های گرافیکی موازی

استفاده از NVLink برای ارتباط پردازنده‌های گرافیکی موازی

در این روش پردازنده‌های گرافیکی با سرعتی بالا به حافظه‌ای یکپارچه دسترسی دارند و شاید بعدها همین دسترسی به حافظه‌ی یکپارچه، اساس پیشرفت پردازنده‌های گرافیکی موازی باشد.

حالت پیچیده‌تر در سرورها اتفاق می‌افتد. دو پردازنده‌ی یک کامپیوتر سروری، می‌توانند با ۸ پردازنده‌ی گرافیکی در ارتباط باشند و همه‌ی پردازنده‌های گرافیکی با پهنای باند ۱۶۰ گیگابایت بر ثانیه (دو طرفه) در ارتباط با هم هستند.

GP100 و ارتباط سریع پردازنده‌های گرافیکی از طریق 4 مسیر NVLink انویدیا

GP100 و ارتباط سریع پردازنده‌های گرافیکی از طریق ۴ مسیر NVLink انویدیا

کانکتور جدید برای NVLink

انویدیا Tesla P100 را به صورت ماژول افقی با کانکتور خاص معرفی کرده است، کانکتور SXM2 زیر برد قرار دارد و نه در کنار آن. لذا کارتی که GP100 انودیا در مرکز آن است، به صورت افقی روی مادربوردها نصب می‌شود. شاید روش جدید محدودیت‌هایی در کاربری به وجود آورد اما به هر حال شبیه پردازنده‌هایی با سوکت LGA است؛ روشی مرسوم که تاکنون در مورد گرافیک کاربرد نداشته اما می‌تواند کاربردی گسترده در آینده‌ی نزدیک داشته باشد.

کانکتور SXM2 برای کارت گرافیک‌های قدرتمند انویدیا

کانکتور SXM2 برای کارت گرافیک‌های قدرتمند انویدیا

سرورهای جدید IBM مثل POWER8 از این کانکتور جالب پشتیبانی می‌کنند. انویدیا برای سری کوآدرو و کارت گرافیک‌های معمولی دستاپی، فعلاً به سمت کانکتور جدید نمی‌رود چرا که استفاده‌ی عموم را دشوار می‌کند.

برای اطلاعات بیشتر در مورد اولین ابرکامپیوتر ویژه‌ی تعلیم شبکه‌ی عصبی و هوش مصنوعی، به مقاله‌ی زیر توجه فرمایید:

ابرکامپیوتر DGX-1 انویدیا، اولین ابرکامپیوتر بهینه برای هوش مصنوعی با قدرت پردازشی خیره‌کننده معرفی شد

ابرکامپیوتر DGX-1 انویدیا، اولین ابرکامپیوتر بهینه برای هوش مصنوعی با قدرت پردازشی خیره‌کننده معرفی شد

انویدیا از قدرت پردازشی Tesla P100 در ابرکامپیوترهای متعددی استفاده خواهد کرد اما کامپیوتر NVIDIA DGX-1، اولین ابرکامپیوتر جهان برای مقصودی خاص به اسم یادگیری عمیق است. این روزها گوگل، فیس‌بوک و کمپانی‌های کوچک و بزرگ زیادی روی هوش مصنوعی و یادگیری ماشینی سرمایه‌گذاری کرده‌اند. کامپیوتر یا دقیق‌تر بگوییم، ابرکامپیوتر انویدیا DGX-1 علاوه بر سخت‌افزار بهینه، نرم‌افزارهای خاصی برای پردازش یادگیری عمیق دارد.

بازگشت به دانش‌نامه
0 votes, average: 0٫00 out of 50 votes, average: 0٫00 out of 50 votes, average: 0٫00 out of 50 votes, average: 0٫00 out of 50 votes, average: 0٫00 out of 5 (0 نظر، امتیاز: 0٫00 از 5)
برای نظر دادن ابتدا باید ثبت نام کنید.
Loading...
لينک کوتاه:

FacebookTwitterGoogle


دیدگاه بگذارید

اطلاع از
wpDiscuz

تبلیغات

تبلیغات

تبلیغات

×