بررسی معماری پاسکال با معرفی تراشه‌ی قدرتمند GP100 انویدیا که قلب Tesla P100 است، آغاز می‌شود. تراشه‌ای با مساحت نزدیک به ۶۰۰ میلی‌متر مربع و قدرت پردازشی FP64 در حد ۵٫۳ ترافلاپس که بیش از هر ابرپردازنده‌ی دیگری است. انویدیا در این تراشه از موتور جابجایی صفحات حافظه، حافظه‌ی HBM2 و NVLink به جای پی‌سی‌آی اکسپرس ۳٫۰ استفاده کرده که نشان می‌دهد پاسکال فقط تحول معماری داخلی نیست و حرف‌های زیادی برای گفتن داد. با ما باشید.

صرف‌نظر از این که انویدیا تراشه‌ی بزرگ GP100 را در کارت گرافیک‌های معمولی استفاده خواهد کرد یا نه، معماری پاسکال مسأله‌‎ای جدید و هیجان‌انگیز است. قرار است پاسکال قدرت پردازشی را با حفظ توان مصرفی در حد سابق، ۲ برابر و یا بیشتر کند.

پاسکال با HBM2 و NVLink و بهینه برای ابرکامپیوترها

اولین اسلاید نشان می‌دهد که چه اتفاقاتی افتاده است. حافظه‌ی HBM2 که شاید پهنای باند ۱ ترابایت بر ثانیه داشته باشد، واسط جدیدی به جای پی‌سی‌آی اکسپرس به اسم NVLink که قبلاً پیرامون آن مقاله‌ی مفصلی داشتیم و موتور مهاجرت صفحه (حافظه) که برنامه‌نویسی موازی با دسترسی به ۵۱۲ گیگابایت حافظه‌ی مجازی را ساده می‌کند، سه ویژگی مهم در کنار معماری جدید است. در حقیقت تسلا P100 سریع‌ترین ابرپردازنده‌ی جهان است.

ابرپردازنده‌ی تسلا P100 انویدیا با تراشه‌ی قدرتمند GP100 و معماری پاسکال

ابرپردازنده‌ی تسلا P100 انویدیا با تراشه‌ی قدرتمند GP100 و معماری پاسکال

تسلای جدید هم مثل تسلاهای سابق، امکاناتی نظیر حافظه‌ی مجازی، کد تصحیح خطا یا ECC که لازمه‌ی سرورها و ابرپردازنده‌هاست و در حقیقت امنیت داده‌های حیاتی حین پردازش را تضمین می‌کند و قدرت پردازشی بالا در محاسبات دقیق FP64 را در خود حفظ کرده است.

محاسبات اعشاری ۶۴ بیتی با سرعتی بسیار بالا

دقت کنید که قدرت پردازشی تسلا P100 در محاسبات اعشاری ۶۴ بیتی (دو برابر دقت) یا به اختصار FP64 مثل مکسول معمولی یا شاید دقیق‌تر بگوییم، ضعیف نیست. تسلاها برای انجام هر دو نوع محاسبه‌ی ۳۲ یا ۶۴ بیتی بهینه هستند و قدرت پردازشی فوق‌العاده‌ای دارند. نسبت قدرت خام پردازش FP64 به FP32 این بار عدد یک دوم است که به نوعی شاهکار محسوب می‌شود. در معماری مکسول و البته مدل‌های معمولی، قدرت محاسبات ۶۴ بیتی فقط ۱/۳۲ قدرت محاسبات ۳۲ بیتی بوده حال آنکه در معماری کپلر، این نسبت ۱/۳ است. ده برابر بهتر و به همین علت است که تا چند روز پیش، انویدیا کارت گرافیکی در گروه تسلا و با معماری مکسول نداشت!

Tesla K40 و Tesla K80 که هر دو از تراشه‌ی K110B بهره می‌برند، تا چند روز پیش بهترین گزینه‌ی انویدیا برای محاسبات ۶۴ بیتی بوده که با توجه به حرف K معماری کپلر دارند. البته انویدیا Tesla M40 را با معماری مکسول برای محاسبات اعشاری ۳۲ بیتی معرفی کرده ولیکن کاربرد آن محدودتر است.

موتور مهاجرت صفحه و حافظه‌ی یکپارچه با معماری متفاوت

موتور مهاجرت صفحه یا Page Migration Engine پدیده‌ی جدیدی در معماری مکسول و شاید فقط GP100 است. موتور مهاجرت صفحه اگر داده‌ای موجود نباشد، به صورت خودکار آن را درخواست می‌کند، مدیریت چند درخواست داده‌ی هم‌زمان را پشتیبانی کرده و در نتیجه اگر نرم‌افزار در حال اجرا، در انتظار داده باشد، هم‌زمان خطای موجود بودن داده و درخواست داده و تحویل گرفتن آن را اجرا می‌کند.

دسترسی به حافظه‌ی یکپارچه در کپلر و مکسول

دسترسی به حافظه‌ی یکپارچه در کپلر و مکسول

به علاوه همان‌طور که در اسلاید زیر مشاهده می‌کنید، می‌توان با استفاده از واسط برنامه‌نویسی cudaMemAdvise، پیش‌درخواست حافظه را با بهینه‌سازی بیشتر ممکن است.

دسترسی به حافظه‌ی یکپارچه در پاسکال

دسترسی به حافظه‌ی یکپارچه در پاسکال

تسلا P100 و GP100 برای FP64 و FP32 عالی است

Tesla P100 قدرت پردازشی فوق‌العاده‌ای دارد، ۵٫۳ ترافلاپس در محاسبات ۶۴ بیتی یا به اصطلاح دقت مضاعف و ۱۰٫۶ ترافلاپس در محاسباتی با دقت واحد (۳۲ بیتی). حتی می‌توان از ۲۱٫۲ ترافلاپس قدرت خام پردازشی در محاسباتی با دقت ۱۶ بیت استفاده کرد که پدیده‌ای جدید است و در عرصه‌ی موبایل و شاید پی‌سی، مفید فایده واقع می‌شود. در مکسول هم می‌توان FP16 را تجربه کرد اما نه با قدرت پردازشی دو برابر بلکه مثل FP32 خواهد بود.

خلاصه بگوییم: تسلای جدید و در حقیقت معماری پاسکال برای هر نوع پردازشی ایده‌آل است. در FP32 و FP64 به ترتیب ۵۰ درصد و ۲۸۰ درصد سریع‌تر از بهترین تسلاهای موجود است. اسلاید دوم را بررسی کنید:

تراشه‌ی GP100 انویدیا با 3584 هسته‌ی CUDA در 56 گروه

تراشه‌ی GP100 انویدیا با ۳۵۸۴ هسته‌ی CUDA در ۵۶ گروه

پهنای باند HBM2 در این تراشه، حداکثر نیست و شاید نیازی وجود نداشته. ۱۶ گیگابایت حافظه با پهنای باند ۷۲۰ گیگابایت بر ثانیه. رده‌اول‌های امروزی پهنای باند ۳۰۰ تا ۵۰۰ گیگابایت بر ثانیه دارند.

در پاسکال گروه‌های CUDA کوچک‌تر می‌شوند

۵۶ گروه SM که شاید نام دقیقشان SMP باشد، جایگزین SMM در مکسول و SMX در کپلر می‌شود. اما در هر گروه چند هسته‌ی CUDA موجود است؟

گروه‌های کوچک‌تر برای بهینه کردن توان مصرفی

مجموعاً ۳۵۸۴ هسته‌ی CUDA در GP100 پیاده‌سازی شده، بنابراین هر SM جدید، ۶۴ هسته دارد! نصف SMM مکسولی و یک سوم SMX در کپلرها! احتمالاً این تقسیم‌بندی ظریف‌تر برای کاهش توان مصرفی انجام شده چرا که با ظرافت بیشتری می‌توان هسته‌های غیرفعال را خاموش کرد. جالب است که در اسلاید قبلی در هر GPC دقیقاً ۱۰ عدد SM وجود دارد و به ۶۰ عدد SM می‌رسیم. شاید این یک اشتباه ساده باشد و شاید انویدیا ۴ مورد از SMها را غیرفعال کرده. به عبارت دیگر ۶ مورد از GPCها، دارای ۹ گروه SM هستند و دو مورد دیگر، کامل.

هر SM رجیستر (ثبّات) ۲۵۶ کیلوبایتی، ۶۴ کیلوبایت حافظه‌ی مشترک، ۲۰۴۸ ترد پردازشی و ۳۲ بلوک فعال دارد. جالب است که رجیستر هر SM چهار برابر کش مشترک L2 آن است. با مکسول قیاس کنیم: تعداد رجیسترهای هر هسته، ۲ برابر شده، مقدار حافظه‌ی مشترک (کش) ۱٫۳۳ برابر شده در حالی که پهنای باند آن دو برابر است و تعداد واحدهای جابجایی، دو برابر شده است.

ساختار یک SM در معماری پاسکال

ساختار یک SM در معماری پاسکال

HBM2 و پردازنده‌ی گرافیکی همگی در یک تراشه

انویدیا پهنای باند داخلی تراشه را با استفاده از HBM2 که فرکانس موثر ۱٫۴ گیگاهرتزی دارد، به ۷۲۰ گیگابایت بر ثانیه رسانده است. تراشه‌ی جدید هم طبق معمولی توسط TSMC (تایوان) تولید شده و لیتوگرافی آن ۱۶ نانومتری FinFET است. این کمپانی تایوانی با تکنولوژی Chip-On-Wafer-On-Substrate تراشه‌ی گرافیکی و حافظه‌های چندلایه‌ای HBM2 را روی یک لایه‌ی زیرین قرار می‌دهد و اولین بار است که چنین تراشه‌ی غول‌آسایی را با لیتوگرافی ظریف تولید می‌کند. در حقیقت بزرگ‌ترین تراشه‌ای که با این روش تولید شده، فقط یک چهارم GP100 مساحت دارد.

4 لایه‌ی حافظه‌ی HBM2 و پردازنده‌ی گرافیکی روی یک زیرلایه (substrate)

4 لایه‌ی حافظه‌ی HBM2 و پردازنده‌ی گرافیکی روی یک زیرلایه (substrate)

به لحاظ تئوری ممکن است HBM2 فرکانس کاری بالاتر هم داشته باشد اما پهنای باند تسلای جدید بیش از دو برابر تسلاهای قبلی است، در حقیقت شاید انویدیا نیازی به استفاده از فرکانس بالاتر حس نکرده و شاید بعدها در کارت گرافیک‌های رده‌اول ویژه‌ی بازی، سرعت بالاتر اعمال شود.

پهنای باس مثل حافظه‌ی HBM به کار رفته در تراشه‌ی فیجی AMD (قلب R9 Fury X و R9 Nano) است، ۴۰۹۶ بیت.

NVLink به جای پی‌سی‌آی اکسپرس

پهنای باند ۲٫۵ برابر بیشتر از PCIe 3.0 x16

انویدیا تأیید کرده که تسلا P100 از واسط جدید NVLink پشتیبانی می‌کند. ۴ کنترلر NVLink پشتیبانی شده و می‌توان با پهنای باند بسیار بالا پردازنده‌های گرافیکی را به هم مربوط کرد. ممکن است تسلا به پردازنده‌ی اصلی متصل شود (OpenPOWER) که در این صورت سرعتی بیش از پی‌سی‌آی اکسپرس ۳٫۰ به دست می‌آید. در حقیقت پهنای باند NVLink حدود ۴۰ گیگابایت بر ثانیه است، ۲٫۵ برابر بیشتر از اسلات ۱۶ مسیره‌ی پی‌سی‌آی اکسپرس ۳٫۰ که اکنون در مادربوردها مرسوم است. لذا ارتباط بین پردازنده‌های گرافیکی از طریق مسیر با پهنای باند ۸۰ گیگابایت بر ثانیه (یک طرفه) و یا دو برابر آن به صورت دو طرفه، صورت می‌گیرد.

NVLink پهنای باند 2.5 برابر بیشتر از PCIe 3.0 x16 دارد

NVLink پهنای باند ۲٫۵ برابر بیشتر از PCIe 3.0 x16 دارد

اسلاید زیر ۴ پردازنده‌ی گرافیکی مرتبط با هم از طریق NVLink و از طریق PCIe 3.0 با پردازنده‌ی اصلی را نمایش می‌دهد:

استفاده از NVLink برای ارتباط پردازنده‌های گرافیکی موازی

استفاده از NVLink برای ارتباط پردازنده‌های گرافیکی موازی

در این روش پردازنده‌های گرافیکی با سرعتی بالا به حافظه‌ای یکپارچه دسترسی دارند و شاید بعدها همین دسترسی به حافظه‌ی یکپارچه، اساس پیشرفت پردازنده‌های گرافیکی موازی باشد.

حالت پیچیده‌تر در سرورها اتفاق می‌افتد. دو پردازنده‌ی یک کامپیوتر سروری، می‌توانند با ۸ پردازنده‌ی گرافیکی در ارتباط باشند و همه‌ی پردازنده‌های گرافیکی با پهنای باند ۱۶۰ گیگابایت بر ثانیه (دو طرفه) در ارتباط با هم هستند.

GP100 و ارتباط سریع پردازنده‌های گرافیکی از طریق 4 مسیر NVLink انویدیا

GP100 و ارتباط سریع پردازنده‌های گرافیکی از طریق ۴ مسیر NVLink انویدیا

کانکتور جدید برای NVLink

انویدیا Tesla P100 را به صورت ماژول افقی با کانکتور خاص معرفی کرده است، کانکتور SXM2 زیر برد قرار دارد و نه در کنار آن. لذا کارتی که GP100 انودیا در مرکز آن است، به صورت افقی روی مادربوردها نصب می‌شود. شاید روش جدید محدودیت‌هایی در کاربری به وجود آورد اما به هر حال شبیه پردازنده‌هایی با سوکت LGA است؛ روشی مرسوم که تاکنون در مورد گرافیک کاربرد نداشته اما می‌تواند کاربردی گسترده در آینده‌ی نزدیک داشته باشد.

کانکتور SXM2 برای کارت گرافیک‌های قدرتمند انویدیا

کانکتور SXM2 برای کارت گرافیک‌های قدرتمند انویدیا

سرورهای جدید IBM مثل POWER8 از این کانکتور جالب پشتیبانی می‌کنند. انویدیا برای سری کوآدرو و کارت گرافیک‌های معمولی دستاپی، فعلاً به سمت کانکتور جدید نمی‌رود چرا که استفاده‌ی عموم را دشوار می‌کند.

جمع‌بندی، پاسکال در برابر مکسول ۲ و کپلر

در نهایت به جمع‌بندی کوتاهی می‌رسیم که جدول زیر است:

مشخصات تسلاهای انویدیا و مقایسه با Tesla P100
  Tesla P100 Tesla K80 Tesla K40 Tesla M40
نام تراشه GP100 GK210 GK110B GM200
معماری پاسکال کپلر کپلر مکسول ۲

مساحت تراشه

(میلی‌متر مربع)

۶۱۰ ۵۶۱ ۵۵۱ ۶۰۱
تعداد ترانزیستور (میلیارد) ۱۵٫۳ ۲ در ۷٫۱ ۷٫۱ ۸
هسته‌ی CUDA ۳۵۸۴ ۲ در ۲۴۹۶ ۲۸۸۰ ۳۰۷۲
سرعت هسته (مگاهرتز) ۱۳۲۸ ۵۶۲ ۷۴۵ ۹۴۸
سرعت بوست ۱۴۸۰ ۸۷۵

۸۱۰

۸۷۵

۱۱۱۴

فرکانس موثر حافظه (گیگاهرتز)

۱٫۴

۵

۶ ۶

نوع حافظه

HBM2

GDDR5

GDDR5 GDDR5
پهنای باس حافظه (بیت) ۴۰۹۶ ۲ در ۳۸۴ ۳۸۴ ۳۸۴

پهنای باند حافظه

(گیگابایت بر ثانیه)

۷۲۰ ۲ در ۲۴۰ ۲۸۸ ۲۸۸
مقدار حافظه ۱۶ گیگابایت ۲ در ۱۲ گیگابایت ۱۲ گیگابایت ۱۲ گیگابایت

قدرت پردازشی FP16

(ترافلاپس)

۲۱٫۲ ۸٫۷۴ ۴٫۲۹ ۶٫۸

قدرت پردازشی FP32

(ترافلاپس)

۱۰٫۶ ۸٫۷۴ ۴٫۲۹ ۶٫۸

قدرت پردازشی FP64

(ترافلاپس)

۵٫۳ ۲٫۹۱ ۱٫۴۳ ۲۱۳
توان طراحی حرارتی (وات) ۳۰۰ ۳۰۰ ۲۳۵ ۲۵۰
سیستم خنک‌کاری ؟ پسیو اکتیو و پسیو پسیو
لیتوگرافی (همگی TSMC)

۱۶ نانومتری

FinFET

۲۸ نانومتری ۲۸ نانومتری ۲۸ نانومتری
3 votes, average: 5٫00 out of 53 votes, average: 5٫00 out of 53 votes, average: 5٫00 out of 53 votes, average: 5٫00 out of 53 votes, average: 5٫00 out of 5 (3 نظر، امتیاز: 5٫00 از 5)
برای نظر دادن ابتدا باید ثبت نام کنید.
Loading...
لينک کوتاه:

بيشتر بخوانيد:

دیدگاه بگذارید

2 دیدگاه روشن "بررسی معماری پاسکال و تراشه‌ی GP100 انویدیا در ابرپردازنده‌ی Tesla P100"

اطلاع از
شاهین
خواننده

پاسکال برای HPC طراحی شده . علاوه بر FP64 بالا FP16 هم فعال شده که خیلی به درد یادگیری عمیق میخوره/ حافظه HBM2 و امکانات جدید مدیریت حافظه خوبی روش اضافه شده همین باعث میشه الگوریتم ها و نرم افزارهای جدیدتری بتونن روش اجرا بشن یا بهینه تر بشن . فقط در مورد موتور جابه جایی صفحات یکم گنگ بود. احتمالش هست  همون کار ACE رو انجام بده؟

wpDiscuz

تبلیغات

ویژه‌ها

تبلیغات

تبلیغات

×