رایانه هوش مصنوعی NVIDIA DGX Spark GB10 Grace Blackwell
DGX Spark GB10
۱۰ هسته Cortex-X925: هستههای عملکردی (Performance Cores)
۱۰ هسته Cortex-A725: هستههای کممصرف (Efficiency Cores)
حمل رایگان سفارشات بالای 1 میلیون تومان
امکان پرداخت انلاین یا پرداخت حضروی درب منزل
امکان پرداخت انلاین یا پرداخت حضروی درب منزل
امکان پرداخت انلاین یا پرداخت حضروی درب منزل
NVIDIA DGX Spark GB10 Grace Blackwell
انقلابی در محاسبات هوش مصنوعی روی میز کار
NVIDIA DGX Spark (که پیشتر با نام Project Digits معرفی شده بود) اولین ابررایانه هوش مصنوعی رومیزی جهان است که معماری پیشرفته Grace Blackwell را در قالبی جمعوجور و کممصرف ارائه میدهد. این سیستم که با همکاری استراتژیک MediaTek طراحی شده، قدرت پردازش یک پتافلاپ (FP4) را در اختیار توسعهدهندگان، محققان و دانشمندان داده قرار میدهد تا بتوانند مدلهای زبانی بزرگ (LLM) با تا ۲۰۰ میلیارد پارامتر را به صورت محلی اجرا، تنظیم دقیق (Fine-Tune) و استنتاج کنند. این مقاله به تحلیل عمیق معماری GB10 Superchip، مقایسه فنی با راهحلهای رقیب، عملکرد واقعی در بارهای کاری هوش مصنوعی و جایگاه این محصول در اکوسیستم محاسباتی انویدیا میپردازد.
۱. مقدمه: دموکراتیزه کردن هوش مصنوعی مقیاس بزرگ
تا پیش از معرفی DGX Spark، توسعه و اجرای محلی مدلهای زبانی بزرگ با صدها میلیارد پارامتر، نیازمند زیرساختهای گرانقیمت و حجیم سروری یا کارتهای گرافیک تخصصی بود. به عنوان مثال، یک کارت NVIDIA RTX PRO 6000 Blackwell با ۹۶ گیگابایت حافظه، قیمتی بیش از ۸,۰۰۰ دلار دارد و این رقم بدون احتساب سایر قطعات سیستم است.
DGX Spark این شکاف را با ارائه یک سیستم یکپارچه و جمعوجور با قیمت پایه حدود ۳,۰۰۰ دلار (نسخه Founder Edition بعداً به ۴,۶۹۹ دلار افزایش یافت) پر میکند. این سیستم که ابعادی برابر با یک NUC دارد (۱۵۰ × ۱۵۰ × ۵۰ میلیمتر)، توانایی اجرای مدلهایی مانند Llama 3.2 405B (با اتصال دو دستگاه) را مستقیماً روی میز کار توسعهدهنده فراهم میکند.
۲. معماری GB10 Grace Blackwell Superchip NVIDIA DGX Spark
قلب تپنده DGX Spark، تراشه GB10 Grace Blackwell Superchip است که محصول همکاری عمیق انویدیا و MediaTek محسوب میشود. برخلاف راهحلهای سنتی که CPU و GPU را از طریق گذرگاه PCIe متصل میکنند، GB10 از معماری یکپارچه (SoC) با ارتباط NVLink-C2C (Chip-to-Chip) با پهنای باند ۶۰۰ گیگابایت بر ثانیه استفاده میکند.
۲.۱. مشخصات فنی دقیق تراشه GB10 NVIDIA DGX Spark
| مؤلفه | مشخصات فنی |
|---|---|
| CPU Grace | ۲۰ هسته ARMv9.2 (۱۰ هسته Cortex-X925 + ۱۰ هسته Cortex-A725 کممصرف) |
| GPU Blackwell | ۶,۱۴۴ هسته CUDA، ۱۹۲ هسته Tensor (نسل پنجم) |
| حافظه یکپارچه | ۱۲۸ گیگابایت LPDDR5x با پهنای باند ۲۷۳ گیگابایت بر ثانیه |
| عملکرد AI (FP4) | ۱ پتافلاپ (۱۰۰۰ TOPS) |
| عملکرد FP32 | حدود ۳۱ ترافلاپ |
| توان مصرفی (TDP) | حدود ۲۴۰ وات |
| فرایند ساخت | معماری چند-تراشهای (MCM) با NVLink-C2C |
این ترکیب، یک حافظه کاملاً منسجم (Coherent Unified Memory) بین CPU و GPU ایجاد میکند. به عبارت دیگر، CPU و GPU دیگر دو فضای حافظه جداگانه ندارند و هر دو میتوانند به طور مستقیم و بدون سربار کپی دادهها، از ۱۲۸ گیگابایت حافظه مشترک استفاده کنند.
۲.۲. نوآوری CPU: رویکرد هیبریدی MediaTek NVIDIA DGX Spark
برخلاف نسلهای قبلی Grace که از هستههای Neoverse V2 استفاده میکردند، GB10 از معماری هیبریدی big.LITTLE بهره میبرد:
-
۱۰ هسته Cortex-X925: هستههای عملکردی (Performance Cores) برای بارهای کاری سنگین محاسباتی و استنتاج.
-
۱۰ هسته Cortex-A725: هستههای کممصرف (Efficiency Cores) برای مدیریت سیستم عامل، I/O و وظایف پسزمینه.
این طراحی بهینه، سیستم را قادر میسازد تا همزمان توان بالایی برای محاسبات AI ارائه دهد و هم مصرف انرژی را در حالت بیکاری کاهش دهد.
۲.۳. GPU Blackwell با قابلیت NVFP4
GPU تعبیهشده در GB10 از نسل پنجم Tensor Cores پشتیبانی میکند که فرمت اختصاصی NVFP4 (Floating Point 4-bit NVIDIA) را پیادهسازی کردهاند. این فرمت پیشرفته، مزایای زیر را ارائه میدهد:
-
کاهش ۴۰ درصدی مصرف حافظه نسبت به FP8 با حفظ دقت مشابه.
-
افزایش ۲.۶ برابری توان عملیاتی در مدلهای بزرگ با استفاده از رمزگشایی حدسی (Speculative Decoding).
۳. ظرفیت مدل و قابلیت مقیاسپذیری NVIDIA DGX Spark
یکی از نقاط قوت کلیدی DGX Spark، سازوکار مقیاسپذیری دوگانه آن است:
| پیکربندی | حافظه در دسترس | حداکثر اندازه مدل | کاربرد پیشنهادی |
|---|---|---|---|
| یک دستگاه DGX Spark | ۱۲۸ گیگابایت | ۲۰۰ میلیارد پارامتر (با کوانتیزاسیون ۴ بیتی) | تنظیم دقیق (Fine-Tuning) مدلهای متوسط و استنتاج |
| دو دستگاه متصل (NVLink-over-ConnectX-7) | ۲۵۶ گیگابایت | ۴۰۵ میلیارد پارامتر (Meta Llama 3.1 405B) | استنتاج مدلهای بسیار بزرگ و بارهای کاری سنگین |
اتصال دو دستگاه از طریق پورتهای QSFP ConnectX-7 با پهنای باند ۲۰۰ گیگابیت بر ثانیه انجام میشود. این معماری خوشهای (Cluster-in-a-Box) امکان مقیاسگذاری خطی عملکرد را بدون نیاز به سوئیچهای خارجی فراهم میکند.
۴. تحلیل عملکرد: معیارهای واقعی (Benchmarks)
بر اساس آزمایشهای انجامشده بر روی مدل GLM-4.7-Flash در انجمن توسعهدهندگان انویدیا، عملکرد DGX Spark با استفاده از ابزار vLLM-next2 به شرح زیر است:
۴.۱. مقایسه عملکرد کوانتیزاسیونهای مختلف
| روش کوانتیزاسیون | روش رمزگشایی | توان عملیاتی (token/s) – طول بلند | دقت ریاضی |
|---|---|---|---|
| INT4 (Marlin) | EAGLE3 (NST=1) | ۷۹.۵ | ۹۲% |
| NVFP4 | MTP (NST=1) | ۵۹.۵ | ۸۰% |
| FP8 | EAGLE3 (NST=1) | ۴۳.۴ | ۸۶% |
| AWQ | EAGLE3 (NST=1) | ۷۷.۱ | ۸۸% |
۴.۲. تحلیل نتایج
-
برتری INT4 Marlin: روش کوانتیزاسیون INT4 با استفاده از هستههای Marlin (پیادهسازی بهینه CUDA) بالاترین توان عملیاتی (۷۹.۵ token/s) را ارائه میدهد. این روش برای سناریوهایی که سرعت اولویت اصلی است، توصیه میشود.
-
NVFP4 در حال بهینهسازی: اگرچه NVFP4 در این معیار خاص از INT4 عقبتر است (۵۹.۵ vs ۷۹.۵)، اما مزیت ذاتی آن در کاهش مصرف حافظه و قابلیت مقیاسپذیری نهفته است. انویدیا ادعا میکند که در مدل Qwen-235B، NVFP4 میتواند تا ۲.۶ برابر سریعتر از FP8 عمل کند.
-
تأثیر رمزگشایی حدسی (Speculative Decoding): استفاده از روشهایی مانند EAGLE3 و MTP (Multi-Token Prediction) به طور متوسط ۲۰ تا ۴۰ درصد توان عملیاتی را افزایش میدهد، هرچند با کاهش جزئی دقت همراه است.
۵. مقایسه فنی: NVIDIA DGX Spark در برابر رقبا
برای درک بهتر جایگاه DGX Spark، آن را با سه گزینه اصلی در بازار مقایسه میکنیم: Apple Mac Studio (M2 Ultra)، PC مبتنی بر RTX 5090 و ایستگاه کاری سروری مبتنی بر RTX PRO 6000.
| ویژگی | DGX Spark (GB10) | Apple Mac Studio (M2 Ultra) | PC با RTX 5090 | سرور RTX PRO 6000 |
|---|---|---|---|---|
| معماری حافظه | یکپارچه (UMA)، ۲۷۳ GB/s | یکپارچه (UMA)، ۸۰۰ GB/s | مجزا (GDDR7)، ~۱.۸ TB/s | مجزا با ECC، ~۱.۸ TB/s |
| ظرفیت حافظه | ۱۲۸ گیگابایت | ۱۹۲ گیگابایت | ۳۲ گیگابایت | ۹۶ گیگابایت |
| حداکثر اندازه مدل (INT4) | ۲۰۰ میلیارد (تکی) / ۴۰۵ میلیارد (دو تایی) | ~۳۰۰ میلیارد | ~۳۰ میلیارد | ~۱۴۰ میلیارد |
| عملکرد FP32 | ~۳۱ TFLOPS | ~۲۷ TFLOPS | ~۱۰۴ TFLOPS | ~۹۰ TFLOPS |
| قیمت پایه | ۳,۰۰۰−۳,۰۰۰−۴,۶۹۹ | $۷,۰۰۰+ | $۲,۵۰۰ (فقط GPU) | $۸,۰۰۰+ (فقط GPU) |
| توان مصرفی | ~۲۴۰ وات | ~۳۷۰ وات | ~۵۷۵ وات | ~۳۲۰ وات (فقط GPU) |
| هدف اصلی | توسعه AI در دسکتاپ | خلاقیت و AI سبک | گیمینگ و AI سبک | ایستگاه کاری حرفهای |
۵.۱. تحلیل مقایسه
-
نقطه قوت منحصربهفرد DGX Spark: ترکیب حافظه بزرگ (۱۲۸ گیگابایت) و قابلیت خوشهسازی با قیمت نسبتاً مناسب، آن را به مقرونبهصرفهترین راهحل برای اجرای محلی مدلهای ۲۰۰ میلیارد پارامتری تبدیل میکند. یک PC مجهز به RTX 5090 با ۳۲ گیگابایت حافظه، عملاً از اجرای چنین مدلهایی عاجز است.
-
Mac Studio (M2 Ultra) حافظه بیشتری (تا ۱۹۲ گیگابایت) و پهنای باند بالاتری (۸۰۰ گیگابایت بر ثانیه) دارد، اما فاقد پشتیبانی سختافزاری از FP4 است و قابلیت خوشهسازی برای ترکیب دو دستگاه را ندارد. قیمت آن نیز به طور قابل توجهی بالاتر است.
-
RTX PRO 6000 اگرچه از ECC پشتیبانی میکند و برای پایداری در محیطهای تولیدی بهینه شده، اما حافظه کمتری (۹۶ گیگابایت) دارد و تنها با صرف هزینه بسیار بالاتر (۸,۰۰۰+ دلار فقط برای کارت گرافیک) قابل تهیه است.
۶. پشته نرمافزاری: قدرت واقعی در بهینهسازیها NVIDIA DGX Spark
DGX Spark تنها یک قطعه سختافزاری نیست؛ بلکه یک پلتفرم نرمافزاری کامل است. انویدیا بر روی DGX OS (نسخه سفارشی شده Ubuntu Linux) سرمایهگذاری گستردهای انجام داده است:
-
پشتیبانی از CUDA 12.x و SM 12.0/12.1: هستههای Blackwell نیازمند درایورها و کتابخانههای بهینهشده هستند. نصب پیشفرض شامل cuBLAS، cuDNN و TensorRT با پشتیبانی از Blackwell است.
-
پشتیبانی از NVFP4 در زنجیره ابزار: PyTorch و vLLM برای بهرهگیری از فرمت FP4 سفارشی انویدیا بهینه شدهاند.
-
NVIDIA NIM و Agent Toolkit: ارائه میکروسرویسهای AI برای استقرار آسان مدلها و توسعه عوامل هوشمند (AI Agents).
-
قابلیت اتصال به DGX Cloud: گردش کاری (Workflow) یکپارچه از توسعه روی میز تا استقرار در ابر.
نکته مهم برای توسعهدهندگان: کتابخانههای منبع باز مانند PyTorch و Triton برای شناسایی کامل قابلیتهای Blackwell (SM 12.x) نیاز به کامپایل مجدد از روی کد منبع دارند. در غیر این صورت، ممکن است عملکرد بهینهای مشاهده نشود.
۷. محدودیتها و چالشها NVIDIA DGX Spark
علیرغم نوآوریهای چشمگیر، DGX Spark با محدودیتهایی نیز همراه است:
-
پهنای باند حافظه محدود: ۲۷۳ گیگابایت بر ثانیه در مقایسه با کارتهای حرفهای (۱.۸ ترابایت بر ثانیه) پایین است. این موضوع میتواند در بارهای کاری با دسترسی مکرر به حافظه (مانند آموزش مدلهای بسیار بزرگ) به یک گلوگاه تبدیل شود.
-
عملکرد FP32 متوسط: حدود ۳۱ ترافلاپ FP32 در برابر ۱۰۴ ترافلاپ RTX 5090، نشان میدهد که این سیستم برای بارهای کاری با دقت بالا (مثل شبیهسازیهای علمی کلاسیک) طراحی نشده است.
-
افزایش قیمت: افزایش قیمت از ۳,۹۹۹ دلار به ۴,۶۹۹ دلار به دلیل کمبود حافظه، رقابتپذیری آن را کاهش داده است.
-
نیاز به بهینهسازی نرمافزاری دستی: همانطور که در نتایج بنچمارک مشاهده شد، عملکرد NVFP4 در برخی سناریوها از INT4 عقبتر است و برای رسیدن به حداکثر کارایی، توسعهدهنده باید جزئیات پیادهسازی را درک کند.
۸. نتیجهگیری و چشمانداز
NVIDIA DGX Spark GB10 Grace Blackwell یک محصول ردهبندیشکن است که مرز بین ابررایانههای دادهسنتر و ایستگاههای کاری رومیزی را محو میکند. این سیستم با ترکیب معماری یکپارچه Grace Blackwell، حافظه ۱۲۸ گیگابایتی و پشتیبانی سختافزاری از NVFP4، اولین راهحل عملی برای توسعه محلی مدلهای ۲۰۰ میلیارد پارامتری است.
نقاط قوت کلیدی:
-
تنها راهحل اقتصادی برای اجرای محلی LLMهای بزرگ (۲۰۰ میلیارد+ پارامتر).
-
قابلیت خوشهسازی بینظیر برای مقیاسپذیری.
-
یکپارچگی عمیق با اکوسیستم نرمافزاری NVIDIA (CUDA، TensorRT، NIM).
مخاطب هدف:
-
محققان هوش مصنوعی و دانشمندان داده که نیاز به آزمایش مدلهای بزرگ بدون وابستگی به ابر دارند.
-
شرکتهایی که به دلیل مسائل حریم خصوصی یا امنیتی، نمیتوانند دادههای خود را به ابر ارسال کنند.
-
توسعهدهندگانی که روی عاملهای هوشمند (AI Agents) و مدلهای چندوجهی کار میکنند.
DGX Spark نویددهنده آیندهای است که در آن هر میز کار یک محقق AI، توان پردازشی معادل یک رک سرور را در اختیار خواهد داشت. این جهش در دموکراتیزه کردن هوش مصنوعی، بیتردید شتاب نوآوری را در این حوزه دوچندان خواهد کرد.
مراجع
-
Bisinfotech. (2025). NVIDIA DGX Spark Debuts with MediaTek GB10 Superchip
-
GitHub – GuigsEvt/dgx_spark_config: Complete end-to-end setup for maximizing DGX Spark compute
-
NVIDIA Developer Forums. FP4 on DGX Spark — Why It Doesn’t Scale Like You’d Expect
-
The Register. (2025). Nvidia’s miniaturized Grace-Blackwell workstations are here
برای ثبت نقد و بررسی وارد حساب کاربری خود شوید.

دیدگاهها
پاککردن فیلترهاهیچ دیدگاهی برای این محصول نوشته نشده است.