بازوی مالی G76 GPU microarchitecture شیرجه عمیق

 ساخته شده برخی از تغییرات قابل توجهی با ورود ثالث در ردیف بالا و عملکرد آن معماری Bifrost بازو به بازوی پردازنده گرافیکی قشر G76

در پیگیری بیشتری گرافیک عملکرد مالی G76. تعدادی از این ترفند مهم در حال حاضر ساخته شده راه خود را به اواسط ردیف مالی G52 اما G76 هدف عملکرد فشار دو تا دیگر 50 درصد ها فقط تک.

برای دیدن چگونه بازو هل دادن تراشه های خود عملکرد کارت نزدیک داخل مالی G76 ببینیم.

بیشتر اجرای خطوط بیشتر عملکرد

که ما را در اعلام کلید برای بهبود عملکرد لمس در دو برابر کردن تعداد اعدام موتور داخل هر هسته مالی G76 نهفته است. در معماری G7X مالی هر هسته حاوی سه موتور اعدام به عنوان چند MP1 در طرح نامگذاری محصول نشان داده — MP2 دو هسته و شش اجرای کل موتور و MP4 چهار هسته موتور اعدام 12 است. در مالی G52، شرکای IP گزینه دو و یا سه موتور اعدام برای انعطاف کم اواسط محدوده عملکرد.

این موتور اعدام اعدام خطوط عمل عددی موضوعات برای ریاضی می باشد. این همه اجرا به موازات هسته با موضوعات بیشتر می تواند ریاضی بیشتر در هر زمان انجام. با این حال، افزایش تعداد خطوط پهنای باند بافت پشتیبانی و قدرت و سیلیکون مورد نیاز منطقه می شود.

 G76 مالی میکرو معماری

G76 مالی افزایش تعداد خطوط در هر واحد اعدام به هشت، تا از چهار با مالی G72 بازو. در مالی G76 تک هسته ای در حال حاضر 24 اجرای خطوط تا 12 در G72. این قابلیت محاسبه تک هسته ای، منجر به کوچک با 28 درصد افزایش در اندازه منطقه دو برابر. G76 هسته می خواهد کمی بزرگتر از قبلی G71 G72 هسته و اما آنها قوی تر است، بنابراین ما قطعا می توانید انتظار گرافیک اصلی تعداد دو در آینده گوشی های SoCs در مقایسه با نسل کنونی قرار می گیرند.

حداکثر تعداد هسته وقتی G76 مالی نیز با استفاده از کلاه هم اکنون که 20. اگر ما واقعا هرگز شاهد طرح های گوشی های هوشمند بیشتر از نوجوانان بالا به هر حال سرمایه گذاری که کاهش از حداکثر 32 هسته با G72 است. با وجود کاهش تعداد هسته بیشترین تعداد اعدام خطوط در تنظیمات بزرگترین افزایش می دهد. 20-هسته مالی G76 480 خطوط اعدام در مقابل خطوط فقط 384 در راه اندازی هسته های 32 G72 مالی را ارائه می دهد. بنابراین اوج عملکرد در بزرگترین پیکربندی را می توان تا 25 درصد افزایش یافته است.

دوم از مزایای عمده از افزایش تعداد خطوط در هر موتور اعدام کاهش نسبی در مصرف برق است — هر هسته قدرت کارآمد برای همان حجم کار از هسته نسل قبلی است. این است زیرا قرعه کشی قدرت پردازنده گرافیکی اجزای بیشتر زمانی که پوسته پوسته شدن تا تعداد اعدام خطوط ثابت می ماند.

 بازوی مالی G72 انرژی عملکرد افزایش

بازو را گرافیک بالا نشان می دهد که اگر چه هزینه انرژی نسبی حساب datapath و ثبت نام فایل ها همان باقی می ماند، پس انداز بهره وری بزرگ ساخته شده در کنترل مسیر داده ها وجود دارد، کش و کنترل چهار حزب آنتی ویروس. این اجازه می دهد تا G76 دو رخ کشیدن مقایسه با 30 درصد بهبود بهره وری انرژی G72 گره روند.

این خطوط اعدام در حال حاضر نیز INT8 ضرب ریاضی از طریق آموزش جدید پشتیبانی. پشتیبانی از خط هر چهار ضرب-عملیات در هر چرخه را تا حد زیادی بهبود توان عملیاتی تجمع می یابد. ما در حال حاضر این پیاده سازی در مالی متوسط G52 را دیده ام. بازو می گوید: این می تواند به بهبود بهره وری از ماشین یادگیری با استفاده از ضرب INT8 حدود 270 درصد نسبت به نسل قبلی.

طراحی

متعادل همراه با افزایش در محاسبه قدرت هر هسته، مالی G72 دارای تعدادی از پیشرفت های دیگر برای اطمینان از تغییر در طراحی هر گونه تنگناها ناخواسته را تولید نمی کند.

جدید پوشه های دوگانه بافت، که به عنوان نام نشان می دهد نمونه بافت معامله شده، تغییر اندازه و قرار دادن بر روی مدل های سه بعدی وجود دارد. قادر به texels دو در هر چرخه، دو برابر ظرفیت ارائه بیش از G72 است. مدیر چهار را اعدام هشت خط موتور بهینه شده و دو بافت نقشه نقاط آنتی ویروس خوبی با داده های تغذیه.

 مالی G76 اصلی طراحی

بازو را آخرین گرافیک حزب امکانات تعداد بهینه سازی کوچکتر دیگر، از جمله چند ضلعی از دستور لیست writeback برای جلوگیری از اصطبل در کش نتواند بارهای به بهبود بهره وری و عمق متفاوت قبل از بازوی بارهای پیش برای عملکرد بهتر چند رندر و TLS آدرس interleaving به منظور بهبود سرعت کش دلربا با سازماندهی فضای حافظه بهتر.

این نتایج در نه تنها تعداد بهینه سازی عملکرد اما نیز خطی عملکرد بیشتر پوسته پوسته شدن به عنوان هسته تعداد را افزایش می دهد. بازوی انتظار دارد که اساسا افزایش خطی دو عملکرد با هسته می شمارد به نوجوانان بالا و فقط از دست دادن حداقل زمانی که مهر و موم شده که در حال حاضر 20. قبلا وجود داشته است بیشتر قابل توجهی در عملکرد سود برچیند، وقتی تا نزدیک به تعداد حداکثر هسته پوسته پوسته شدن.

چه انتظار از gpu ها مالی G76

به ما می آیند انتظار از بازو را نسل گرافیک بهبود عملکرد و بهره وری انرژی برای بالا بردن قابل تنظیم هستند. پیاده سازی واقعی در گوشی های هوشمند می تواند با 50 درصد بهبود عملکرد گرافیکی را مشاهده کنید.

G76 مالی ارائه کمی مشکل نامگذاری هنگامی که اندازه گیری عملکرد هر چند. طرح های مالی G76 با کاهش تعداد هسته عملکرد قابل مقایسه و بهتر موجود G71 و G72 gpu ها با تعداد هسته های بالا فراهم خواهد کرد. G71 و G72 دیدم گوشی های با عملکرد بالا ارائه تعداد هسته در نوجوانان بالا اما بازوی انتظار دارد این سقوط به پایین نوجوانان با G76، حتی اگر عملکرد صعود خواهد کرد. به عنوان مثال، MP14 مالی G76 عملکرد بهتر از MP18 G72 مالی ارائه دهد.

هر هسته G76 مالی می تواند تا دو برابر در G72 قدرتمند.

درست مثل با قشر جدید-A76، G76 مالی جزء انعطاف پذیر طراحی شده در مقیاس تمام راه از اواسط ردیف عملکرد دستگاه های تلفن همراه تا لپ تاپ عملکرد بالاتر و همچنین محصولات علیرضا و VR بالقوه است.

مالی G76 معنی ما را ببینید دستگاه با استفاده از آن در بازار تا پایان سال برای شرکای بازو را به پروانه در حال حاضر، در دسترس است.

بررسی دقیق تر در دست را ماشین یادگیری سخت افزار

در آغاز 2017 بازوی آن دسته اول ماشین های اختصاصی (میلی لیتر) آموزش سخت افزار اعلام کرد. زیر نام پروژه Trillium شرکت پردازشگر ML اختصاصی برای محصولات مانند گوشی های هوشمند, همراه با تراشه دوم طراحی شده به طور خاص به سرعت تشخیص (NPD) شیء مورد استفاده پرده برداری کرد. بیایید به Trillium پروژه و طرح گسترده تر شرکت های بازار رو به رشد برای یادگیری سخت افزار دستگاه حفر عمیق تر.

مهم است که توجه داشته باشید که بازو را اعلام مربوط به سخت افزار کم قدرت استنباط است. آن پردازنده میلی لیتر و OD برای اجرای موثر آموزش دیده دستگاه وظایف در سطح مصرف کننده سخت افزار آموزش طراحی شده اند، به جای آموزش الگوریتم بر روی مجموعه داده های بزرگ مانند گوگل TPUs ابر به انجام طراحی شده اند. برای شروع، بازو در آنچه آن را می بیند به عنوان بزرگترین بازار دو میلی لیتر استنباط سخت افزار تمرکز — پروتکل/نظارت دوربین های گوشی های هوشمند و اینترنت.

ماشین یادگیری پردازنده جدید

با وجود دستگاه اختصاصی جدید آموزش سخت افزار اطلاعیه با پروژه Trillium، بازوی بقایای اختصاص داده شده به حمایت از این نوع وظایف در پردازنده و gpu ها آن بیش از حد، بهینه سازی با ضرب توابع داخل آن آخرین هسته پردازنده و پردازنده گرافیکی. Trillium این قابلیت با سخت افزار بهینه تر به شدت افزایش، قرعه کشی قادر می سازد وظایف یادگیری ماشین با کارایی بالاتر و قدرت کمتر انجام می شود. اما پردازنده ML بازو را فقط شتاب دهنده ندارد — این پردازنده در حق خود است.

پردازنده دارای توان عملیاتی اوج صدر 4.6 در پاکت قدرت 1.5 W آن را برای تلفن های هوشمند و محصولات قدرت حتی پایین تر مناسب. این تراشه راندمان قدرت 3 تاپ/W، براساس 7 اجرای نانومتر، قرعه کشی بزرگ برای توسعه محصول آگاهانه انرژی می دهد. برای مقایسه، دستگاه معمولی تلفن همراه فقط ممکن است قادر به ارائه سراسر TOPs 0.5 ریاضی کم عمق باشد.

جالب توجه است، پردازنده ML بازو را رویکردی متفاوت به برخی از تولید کنندگان تراشه گوشی های هوشمند که به پردازنده های سیگنال دیجیتال (DSPs) جهت اجرای وظایف یادگیری ماشین در پردازنده های خود را بالا پایان repurposed بکنه. در طول چت MWC معاونت بازوی همکار و جنرال موتورز ماشین یادگیری گروه جم دیویس، ذکر خرید شرکت DSP است گزینه ای را به این بازار سخت افزار، اما که در نهایت شرکت در زمین تا راه حل به طور خاص تصمیم بهینه سازی شده برای رایج ترین عملیات.

بازو را ML پردازنده دارای 4 و 6 x افزایش عملکرد بیش از گوشی های معمولی همراه با مصرف برق کاهش می یابد.

پردازشگر ML بازو را منحصرا برای عملیات 8 بیتی عدد صحیح و convolution شبکه های عصبی (CNN) طراحی شده است. این متخصص در افزایش توده های کوچک بایت اندازه داده است که باید به آن سریع تر و کارآمد تر نسبت به هدف کلی DSP که این نوع از وظایف. سی ان ان برای تشخیص تصویر احتمالا رایج ترین وظیفه میلی لیتر در حال حاضر به طور گسترده ای استفاده می شود. اگر شما نگرانم چرا 8 بیتی، بازوی داده 8 بیتی است نقطه شیرین برای دقت در مقابل عملکرد با سی ان ان و ابزار توسعه بالغ ترین هستند دیده می شود. اگر شما به آن نیاز نیست فراموش کردن که چارچوب اندیشه NN تنها پشتیبانی از INT8 و FP32، آخر که در حال حاضر در پردازنده و gpu ها اجرا می شود.

بزرگترین عملکرد و انرژی تنگنا، به خصوص در محصولات تلفن همراه حافظه پهنای باند و توده ضرب ماتریس نیاز به مقدار زیادی از خواندن و نوشتن است. برای رفع این مسئله، بازوی چانک حافظه داخلی برای سرعت بخشیدن به اعدام بود. اندازه این استخر حافظه متغیر است و انتظار دارد که بازو به ارائه مجموعه ای از طرح های بهینه سازی شده برای شرکای آن بسته به مورد استفاده. ما به نگاه 10s کیلوبایت حافظه برای اجرای هر یک از موتور دربندی رتبهٔ در حدود 1 مگابایت در طرح بزرگترین. این تراشه نیز فشرده سازی lossless در میلی لیتر وزن و فراداده ذخیره تا 3 x در پهنای باند استفاده می کند.

بازو را پردازنده طراحی شده برای ML عملیات 8 بیتی عدد صحیح و شبکه های عصبی convolution است.

هسته پردازنده میلی لیتر را می توان از تک هسته ای تا 16 موتور اعدام برای افزایش عملکرد پیکربندی شده است. هر کدام شامل بهینه سازی موتور تابع ثابت و همچنین لایه های قابل برنامه ریزی. موتور ثابت تابع معامله convolution محاسبه با واحد ضرب و جمع آوری (MAC) 128 گسترده در حالی که موتور برنامه ریزی لایه مشتق تکنولوژی میکروکنترلر Arm را دسته حافظه و بهینه سازی مسیر داده ها برای دستگاه الگوریتم یادگیری اجرا می شود. این واحد در معرض برنامه ها به طور مستقیم برای برنامه نویسی نیست، اما که کامپایلر مرحله بهینه سازی واحد مک جای پیکربندی شده است نام ممکن است کمی گمراه کننده است.

در نهایت، پردازنده شامل واحد دسترسی مستقیم حافظه (DMA) برای اطمینان از دسترسی سریع مستقیم به حافظه در قسمت های دیگر سیستم. پردازشگر ML می تواند تابع به عنوان مسدود کردن IP مستقل خود با رابط آس: به مطلب برای الحاق به SoC، یا فعالیت به عنوان بلوک ثابت خارج از SoC. به احتمال زیاد، ما ML هسته نشسته کردن حافظه اتصال داخل SoC درست مثل GPU یا پردازنده نمایش را دید. از اینجا، طراحان می تواند تراز کردن هسته ML با پردازنده در DynamIQ خوشه ای و به اشتراک گذاشتن دسترسی به حافظه کش از طریق snooping کش نزدیک است، اما بسیار قرار دادی است که راه حل است که احتمالا نمی بینم به طور کلی استفاده از حجم کار دستگاه های مانند تراشه های تلفن همراه.

اتصالات همه چیز را با هم

سال گذشته بازوی پرده برداری آن قشر A75 و A55 پردازنده و GPU G72 مالی بالا پایان، اما آن اختصاصی ماشین یادگیری سخت افزار تا تقریبا یک سال بعد پرده نیست. با این حال، بازوی یکسری تمرکز روی شتابان دستگاه مشترک یادگیری عملیات داخل آن سخت افزار آخرین محل بود و این همچنان بخشی از استراتژی شرکت رفتن به جلو.

آن آخرین مالی G52 پردازنده گرافیکی برای دستگاه های جریان اصلی باعث بهبود عملکرد وظایف یادگیری ماشین 3.6 بار لطف معرفی پشتیبانی ضرب داخلی (Int8) و چهار ضرب-عملیات در هر چرخه در هر خط تجمع. ضرب داخلی پشتیبانی نیز در A75 A55 و G72 ظاهر می شود.

بازوی بهینه سازی workloads میلی لیتر را در خود پردازنده و gpu ها بیش از حد ادامه خواهد داد.

حتی با OD و ML پردازنده های جدید، دست به حمایت از وظایف یادگیری ماشین شتاب در سراسر آن آخرین پردازنده و gpu ها ادامه دارد. آن ماشین آینده اختصاص داده شده به آموزش سخت افزار به این کارها را کارآمد تر مناسب وجود دارد، اما همه بخشی از مجموعه گسترده ای از راه حل های طراحی شده را به طیف گسترده ای از محصولات همکاران تهیه.

علاوه بر ارائه انعطاف پذیری “در سراسر عملکرد ها و انرژی های مختلف امتیاز به همکاران خود یک رویکرد این اهداف کلیدی بازو را ناهمگن مهم است حتی در آینده دستگاه مجهز به پردازشگر میلی لیتر به قدرت بهره وری بهینه سازی. به عنوان مثال، آن ارزش تأمین انرژی تا هسته میلی لیتر به سرعت انجام کار زمانی که پردازنده در حال اجرا، بنابراین بهتر است برای بهینه سازی workloads در پردازنده بیش از حد ممکن است. در تلفن, تراشه میلی لیتر به تنها به بازی برای دیگر در حال اجرا، بیشتر خواستار بارهای شبکه عصبی آمده است.

از تک برای پردازنده های چند هسته ای و gpu ها از طریق دو ليتر اختیاری پردازنده است که تمام راه را تا 16 هسته (موجود در داخل و خارج از خوشه هسته SoC)، میتواند در بازوی محصولات اعم از سخنرانان هوشمند ساده دو مستقل وسایل نقلیه و مراکز داده می تواند پشتیبانی، که نیاز به سخت افزار قوی تری. به طور طبیعی، این شرکت نیز تهیه نرم افزار به این مقیاس پذیری.

این شرکت در واقع کتابخانه ابزار برای عمل ماشین یادگیری کارها در سراسر شرکت پردازنده، پردازنده گرافیکی و در حال حاضر ML قطعات سخت افزاری هست. کتابخانه ارائه می دهد توابع سطح پایین نرم افزار برای پردازش تصویر، چشم انداز، تشخیص گفتار، و مانند، که اجرا در قابل استفاده ترین قطعه از سخت افزار. بازوی حتی برنامه های کاربردی تعبیه شده با آن دانه CMSIS NN برای ریزپردازنده قشر M پشتیبانی میکند. CMSIS NN حدود 5.4 برابر بیشتر توان عملیاتی و بالقوه 5.2 بار صرفه جویی در انرژی بیش از توابع پایه ارائه می دهد.

کار را بازوی در کتابخانه های کامپایلر و درایور تضمین می کند که توسعه دهندگان نرم افزار لازم نیست که به نگرانی در مورد محدوده تحت دروغ سخت افزار.

چنین امکانات گسترده ای از پیاده سازی سخت افزار و نرم افزار کتابخانه نرم افزار انعطاف پذیر نیاز بیش از حد, آن است که نرم افزار شبکه عصبی بازو را می آید. شرکت نمی باشد به جای محبوب چارچوب مانند TensorFlow یا Caffe دنبال اما ترجمه این چارچوب را به کتابخانه های مربوط به اجرای بر روی سخت افزار هر محصول خاص. اگر تلفن شما پردازنده Arm را نداشته باشند، بنابراین ML کتابخانه هنوز با اجرای وظیفه در CPU یا GPU کار می کنند. پنهان کردن پیکربندی پشت صحنه دو ساده توسعه هدف اینجا است.

دستگاه یادگیری امروز و فردا

در حال حاضر، بازوی مستقیما در تأمین انرژی پایان استنباط طیف یادگیری ماشین را اجازه می دهد مصرف کنندگان برای اجرای الگوریتم های پیچیده کارآمد در دستگاه های خود (اگر چه شرکت حکومت است متمرکز شده است امکان از درگیر شدن در سخت افزار ماشین یادگیری آموزش در برخی از نقطه در آینده). با سرعت بالا 5 g اینترنت هنوز سال دور و افزایش نگرانی های خود را در مورد حفظ حریم خصوصی و امنیت تصمیم بازو را به ML که محاسبات قدرت لبه به جای تمرکز در درجه اول به عنوان گوگل به نظر می رسد مانند حرکت صحیح در حال حاضر. تلفن های مرتبط با مقاله “/>