رایانه هوش مصنوعی NVIDIA DGX Spark GB10 Grace Blackwell

DGX Spark GB10

۱۰ هسته Cortex-X925: هسته‌های عملکردی (Performance Cores) 

۱۰ هسته Cortex-A725: هسته‌های کم‌مصرف (Efficiency Cores) 

۱,۶۹۲,۰۰۰,۰۰۰ تومان

تحویل اکسپرس

حمل رایگان سفارشات بالای 1 میلیون تومان

پرداخت امن

امکان پرداخت انلاین یا پرداخت حضروی درب منزل

ضمانت اصالت کالا

امکان پرداخت انلاین یا پرداخت حضروی درب منزل

7 روز گارانتی بازگشت وجه

امکان پرداخت انلاین یا پرداخت حضروی درب منزل

NVIDIA DGX Spark GB10 Grace Blackwell

انقلابی در محاسبات هوش مصنوعی روی میز کار

NVIDIA DGX Spark (که پیش‌تر با نام Project Digits معرفی شده بود) اولین ابررایانه هوش مصنوعی رومیزی جهان است که معماری پیشرفته Grace Blackwell را در قالبی جمع‌وجور و کم‌مصرف ارائه می‌دهد. این سیستم که با همکاری استراتژیک MediaTek طراحی شده، قدرت پردازش یک پتافلاپ (FP4) را در اختیار توسعه‌دهندگان، محققان و دانشمندان داده قرار می‌دهد تا بتوانند مدل‌های زبانی بزرگ (LLM) با تا ۲۰۰ میلیارد پارامتر را به صورت محلی اجرا، تنظیم دقیق (Fine-Tune) و استنتاج کنند. این مقاله به تحلیل عمیق معماری GB10 Superchip، مقایسه فنی با راه‌حل‌های رقیب، عملکرد واقعی در بارهای کاری هوش مصنوعی و جایگاه این محصول در اکوسیستم محاسباتی انویدیا می‌پردازد.


۱. مقدمه: دموکراتیزه کردن هوش مصنوعی مقیاس بزرگ

تا پیش از معرفی DGX Spark، توسعه و اجرای محلی مدل‌های زبانی بزرگ با صدها میلیارد پارامتر، نیازمند زیرساخت‌های گران‌قیمت و حجیم سروری یا کارت‌های گرافیک تخصصی بود. به عنوان مثال، یک کارت NVIDIA RTX PRO 6000 Blackwell با ۹۶ گیگابایت حافظه، قیمتی بیش از ۸,۰۰۰ دلار دارد و این رقم بدون احتساب سایر قطعات سیستم است.

DGX Spark این شکاف را با ارائه یک سیستم یکپارچه و جمع‌وجور با قیمت پایه حدود ۳,۰۰۰ دلار (نسخه Founder Edition بعداً به ۴,۶۹۹ دلار افزایش یافت) پر می‌کند. این سیستم که ابعادی برابر با یک NUC دارد (۱۵۰ × ۱۵۰ × ۵۰ میلی‌متر)، توانایی اجرای مدل‌هایی مانند Llama 3.2 405B (با اتصال دو دستگاه) را مستقیماً روی میز کار توسعه‌دهنده فراهم می‌کند.


۲. معماری GB10 Grace Blackwell Superchip NVIDIA DGX Spark

قلب تپنده DGX Spark، تراشه GB10 Grace Blackwell Superchip است که محصول همکاری عمیق انویدیا و MediaTek محسوب می‌شود. برخلاف راه‌حل‌های سنتی که CPU و GPU را از طریق گذرگاه PCIe متصل می‌کنند، GB10 از معماری یکپارچه (SoC) با ارتباط NVLink-C2C (Chip-to-Chip) با پهنای باند ۶۰۰ گیگابایت بر ثانیه استفاده می‌کند.

۲.۱. مشخصات فنی دقیق تراشه GB10 NVIDIA DGX Spark

مؤلفه مشخصات فنی
CPU Grace ۲۰ هسته ARMv9.2 (۱۰ هسته Cortex-X925 + ۱۰ هسته Cortex-A725 کم‌مصرف)
GPU Blackwell ۶,۱۴۴ هسته CUDA، ۱۹۲ هسته Tensor (نسل پنجم)
حافظه یکپارچه ۱۲۸ گیگابایت LPDDR5x با پهنای باند ۲۷۳ گیگابایت بر ثانیه
عملکرد AI (FP4) ۱ پتافلاپ (۱۰۰۰ TOPS)
عملکرد FP32 حدود ۳۱ ترافلاپ
توان مصرفی (TDP) حدود ۲۴۰ وات
فرایند ساخت معماری چند-تراشه‌ای (MCM) با NVLink-C2C

این ترکیب، یک حافظه کاملاً منسجم (Coherent Unified Memory) بین CPU و GPU ایجاد می‌کند. به عبارت دیگر، CPU و GPU دیگر دو فضای حافظه جداگانه ندارند و هر دو می‌توانند به طور مستقیم و بدون سربار کپی داده‌ها، از ۱۲۸ گیگابایت حافظه مشترک استفاده کنند.

۲.۲. نوآوری CPU: رویکرد هیبریدی MediaTek NVIDIA DGX Spark

برخلاف نسل‌های قبلی Grace که از هسته‌های Neoverse V2 استفاده می‌کردند، GB10 از معماری هیبریدی big.LITTLE بهره می‌برد:

  • ۱۰ هسته Cortex-X925: هسته‌های عملکردی (Performance Cores) برای بارهای کاری سنگین محاسباتی و استنتاج.

  • ۱۰ هسته Cortex-A725: هسته‌های کم‌مصرف (Efficiency Cores) برای مدیریت سیستم عامل، I/O و وظایف پس‌زمینه.

این طراحی بهینه، سیستم را قادر می‌سازد تا همزمان توان بالایی برای محاسبات AI ارائه دهد و هم مصرف انرژی را در حالت بیکاری کاهش دهد.

۲.۳. GPU Blackwell با قابلیت NVFP4 

GPU تعبیه‌شده در GB10 از نسل پنجم Tensor Cores پشتیبانی می‌کند که فرمت اختصاصی NVFP4 (Floating Point 4-bit NVIDIA) را پیاده‌سازی کرده‌اند. این فرمت پیشرفته، مزایای زیر را ارائه می‌دهد:

  • کاهش ۴۰ درصدی مصرف حافظه نسبت به FP8 با حفظ دقت مشابه.

  • افزایش ۲.۶ برابری توان عملیاتی در مدل‌های بزرگ با استفاده از رمزگشایی حدسی (Speculative Decoding).


۳. ظرفیت مدل و قابلیت مقیاس‌پذیری NVIDIA DGX Spark

یکی از نقاط قوت کلیدی DGX Spark، سازوکار مقیاس‌پذیری دوگانه آن است:

پیکربندی حافظه در دسترس حداکثر اندازه مدل کاربرد پیشنهادی
یک دستگاه DGX Spark ۱۲۸ گیگابایت ۲۰۰ میلیارد پارامتر (با کوانتیزاسیون ۴ بیتی) تنظیم دقیق (Fine-Tuning) مدل‌های متوسط و استنتاج
دو دستگاه متصل (NVLink-over-ConnectX-7) ۲۵۶ گیگابایت ۴۰۵ میلیارد پارامتر (Meta Llama 3.1 405B) استنتاج مدل‌های بسیار بزرگ و بارهای کاری سنگین

اتصال دو دستگاه از طریق پورت‌های QSFP ConnectX-7 با پهنای باند ۲۰۰ گیگابیت بر ثانیه انجام می‌شود. این معماری خوشه‌ای (Cluster-in-a-Box) امکان مقیاس‌گذاری خطی عملکرد را بدون نیاز به سوئیچ‌های خارجی فراهم می‌کند.


۴. تحلیل عملکرد: معیارهای واقعی (Benchmarks)

بر اساس آزمایش‌های انجام‌شده بر روی مدل GLM-4.7-Flash در انجمن توسعه‌دهندگان انویدیا، عملکرد DGX Spark با استفاده از ابزار vLLM-next2 به شرح زیر است:

۴.۱. مقایسه عملکرد کوانتیزاسیون‌های مختلف

NVIDIA DGX Spark
روش کوانتیزاسیون روش رمزگشایی توان عملیاتی (token/s) – طول بلند دقت ریاضی
INT4 (Marlin) EAGLE3 (NST=1) ۷۹.۵ ۹۲%
NVFP4 MTP (NST=1) ۵۹.۵ ۸۰%
FP8 EAGLE3 (NST=1) ۴۳.۴ ۸۶%
AWQ EAGLE3 (NST=1) ۷۷.۱ ۸۸%

۴.۲. تحلیل نتایج

  1. برتری INT4 Marlin: روش کوانتیزاسیون INT4 با استفاده از هسته‌های Marlin (پیاده‌سازی بهینه CUDA) بالاترین توان عملیاتی (۷۹.۵ token/s) را ارائه می‌دهد. این روش برای سناریوهایی که سرعت اولویت اصلی است، توصیه می‌شود.

  2. NVFP4 در حال بهینه‌سازی: اگرچه NVFP4 در این معیار خاص از INT4 عقب‌تر است (۵۹.۵ vs ۷۹.۵)، اما مزیت ذاتی آن در کاهش مصرف حافظه و قابلیت مقیاس‌پذیری نهفته است. انویدیا ادعا می‌کند که در مدل Qwen-235B، NVFP4 می‌تواند تا ۲.۶ برابر سریع‌تر از FP8 عمل کند.

  3. تأثیر رمزگشایی حدسی (Speculative Decoding): استفاده از روش‌هایی مانند EAGLE3 و MTP (Multi-Token Prediction) به طور متوسط ۲۰ تا ۴۰ درصد توان عملیاتی را افزایش می‌دهد، هرچند با کاهش جزئی دقت همراه است.


۵. مقایسه فنی: NVIDIA DGX Spark در برابر رقبا

برای درک بهتر جایگاه DGX Spark، آن را با سه گزینه اصلی در بازار مقایسه می‌کنیم: Apple Mac Studio (M2 Ultra)، PC مبتنی بر RTX 5090 و ایستگاه کاری سروری مبتنی بر RTX PRO 6000.

ویژگی DGX Spark (GB10) Apple Mac Studio (M2 Ultra) PC با RTX 5090 سرور RTX PRO 6000
معماری حافظه یکپارچه (UMA)، ۲۷۳ GB/s یکپارچه (UMA)، ۸۰۰ GB/s مجزا (GDDR7)، ~۱.۸ TB/s مجزا با ECC، ~۱.۸ TB/s
ظرفیت حافظه ۱۲۸ گیگابایت ۱۹۲ گیگابایت ۳۲ گیگابایت ۹۶ گیگابایت
حداکثر اندازه مدل (INT4) ۲۰۰ میلیارد (تکی) / ۴۰۵ میلیارد (دو تایی) ~۳۰۰ میلیارد ~۳۰ میلیارد ~۱۴۰ میلیارد
عملکرد FP32 ~۳۱ TFLOPS ~۲۷ TFLOPS ~۱۰۴ TFLOPS ~۹۰ TFLOPS
قیمت پایه ۳,۰۰۰−۴,۶۹۹ $۷,۰۰۰+ $۲,۵۰۰ (فقط GPU) $۸,۰۰۰+ (فقط GPU)
توان مصرفی ~۲۴۰ وات ~۳۷۰ وات ~۵۷۵ وات ~۳۲۰ وات (فقط GPU)
هدف اصلی توسعه AI در دسکتاپ خلاقیت و AI سبک گیمینگ و AI سبک ایستگاه کاری حرفه‌ای

۵.۱. تحلیل مقایسه

  1. نقطه قوت منحصربه‌فرد DGX Spark: ترکیب حافظه بزرگ (۱۲۸ گیگابایت) و قابلیت خوشه‌سازی با قیمت نسبتاً مناسب، آن را به مقرون‌به‌صرفه‌ترین راه‌حل برای اجرای محلی مدل‌های ۲۰۰ میلیارد پارامتری تبدیل می‌کند. یک PC مجهز به RTX 5090 با ۳۲ گیگابایت حافظه، عملاً از اجرای چنین مدل‌هایی عاجز است.

  2. Mac Studio (M2 Ultra) حافظه بیشتری (تا ۱۹۲ گیگابایت) و پهنای باند بالاتری (۸۰۰ گیگابایت بر ثانیه) دارد، اما فاقد پشتیبانی سخت‌افزاری از FP4 است و قابلیت خوشه‌سازی برای ترکیب دو دستگاه را ندارد. قیمت آن نیز به طور قابل توجهی بالاتر است.

  3. RTX PRO 6000 اگرچه از ECC پشتیبانی می‌کند و برای پایداری در محیط‌های تولیدی بهینه شده، اما حافظه کمتری (۹۶ گیگابایت) دارد و تنها با صرف هزینه بسیار بالاتر (۸,۰۰۰+ دلار فقط برای کارت گرافیک) قابل تهیه است.


۶. پشته نرم‌افزاری: قدرت واقعی در بهینه‌سازی‌ها NVIDIA DGX Spark

DGX Spark تنها یک قطعه سخت‌افزاری نیست؛ بلکه یک پلتفرم نرم‌افزاری کامل است. انویدیا بر روی DGX OS (نسخه سفارشی شده Ubuntu Linux) سرمایه‌گذاری گسترده‌ای انجام داده است:

  • پشتیبانی از CUDA 12.x و SM 12.0/12.1: هسته‌های Blackwell نیازمند درایورها و کتابخانه‌های بهینه‌شده هستند. نصب پیش‌فرض شامل cuBLAS، cuDNN و TensorRT با پشتیبانی از Blackwell است.

  • پشتیبانی از NVFP4 در زنجیره ابزار: PyTorch و vLLM برای بهره‌گیری از فرمت FP4 سفارشی انویدیا بهینه شده‌اند.

  • NVIDIA NIM و Agent Toolkit: ارائه میکروسرویس‌های AI برای استقرار آسان مدل‌ها و توسعه عوامل هوشمند (AI Agents).

  • قابلیت اتصال به DGX Cloud: گردش کاری (Workflow) یکپارچه از توسعه روی میز تا استقرار در ابر.

نکته مهم برای توسعه‌دهندگان: کتابخانه‌های منبع باز مانند PyTorch و Triton برای شناسایی کامل قابلیت‌های Blackwell (SM 12.x) نیاز به کامپایل مجدد از روی کد منبع دارند. در غیر این صورت، ممکن است عملکرد بهینه‌ای مشاهده نشود.


۷. محدودیت‌ها و چالش‌ها NVIDIA DGX Spark

علیرغم نوآوری‌های چشمگیر، DGX Spark با محدودیت‌هایی نیز همراه است:

  1. پهنای باند حافظه محدود: ۲۷۳ گیگابایت بر ثانیه در مقایسه با کارت‌های حرفه‌ای (۱.۸ ترابایت بر ثانیه) پایین است. این موضوع می‌تواند در بارهای کاری با دسترسی مکرر به حافظه (مانند آموزش مدل‌های بسیار بزرگ) به یک گلوگاه تبدیل شود.

  2. عملکرد FP32 متوسط: حدود ۳۱ ترافلاپ FP32 در برابر ۱۰۴ ترافلاپ RTX 5090، نشان می‌دهد که این سیستم برای بارهای کاری با دقت بالا (مثل شبیه‌سازی‌های علمی کلاسیک) طراحی نشده است.

  3. افزایش قیمت: افزایش قیمت از ۳,۹۹۹ دلار به ۴,۶۹۹ دلار به دلیل کمبود حافظه، رقابت‌پذیری آن را کاهش داده است.

  4. نیاز به بهینه‌سازی نرم‌افزاری دستی: همانطور که در نتایج بنچمارک مشاهده شد، عملکرد NVFP4 در برخی سناریوها از INT4 عقب‌تر است و برای رسیدن به حداکثر کارایی، توسعه‌دهنده باید جزئیات پیاده‌سازی را درک کند.


۸. نتیجه‌گیری و چشم‌انداز

NVIDIA DGX Spark GB10 Grace Blackwell یک محصول رده‌بندی‌شکن است که مرز بین ابررایانه‌های داده‌سنتر و ایستگاه‌های کاری رومیزی را محو می‌کند. این سیستم با ترکیب معماری یکپارچه Grace Blackwell، حافظه ۱۲۸ گیگابایتی و پشتیبانی سخت‌افزاری از NVFP4، اولین راه‌حل عملی برای توسعه محلی مدل‌های ۲۰۰ میلیارد پارامتری است.

نقاط قوت کلیدی:

  • تنها راه‌حل اقتصادی برای اجرای محلی LLMهای بزرگ (۲۰۰ میلیارد+ پارامتر).

  • قابلیت خوشه‌سازی بی‌نظیر برای مقیاس‌پذیری.

  • یکپارچگی عمیق با اکوسیستم نرم‌افزاری NVIDIA (CUDA، TensorRT، NIM).

مخاطب هدف:

  • محققان هوش مصنوعی و دانشمندان داده که نیاز به آزمایش مدل‌های بزرگ بدون وابستگی به ابر دارند.

  • شرکت‌هایی که به دلیل مسائل حریم خصوصی یا امنیتی، نمی‌توانند داده‌های خود را به ابر ارسال کنند.

  • توسعه‌دهندگانی که روی عامل‌های هوشمند (AI Agents) و مدل‌های چندوجهی کار می‌کنند.

DGX Spark نویددهنده آینده‌ای است که در آن هر میز کار یک محقق AI، توان پردازشی معادل یک رک سرور را در اختیار خواهد داشت. این جهش در دموکراتیزه کردن هوش مصنوعی، بی‌تردید شتاب نوآوری را در این حوزه دوچندان خواهد کرد.


مراجع

  1. Bisinfotech. (2025). NVIDIA DGX Spark Debuts with MediaTek GB10 Superchip 

  2. GitHub – GuigsEvt/dgx_spark_config: Complete end-to-end setup for maximizing DGX Spark compute 

  3. NVIDIA Developer Forums. FP4 on DGX Spark — Why It Doesn’t Scale Like You’d Expect 

  4. The Register. (2025). Nvidia’s miniaturized Grace-Blackwell workstations are here 

0 بررسی
0
0
0
0
0

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “رایانه هوش مصنوعی NVIDIA DGX Spark GB10 Grace Blackwell”

۱,۶۹۲,۰۰۰,۰۰۰ تومان