تصميم البنية التحتية لأحمال الذكاء الاصطناعي
اعتبارات معمارية رئيسية لبناء بنية تحتية تدعم خطوط تدريب واستدلال الذكاء الاصطناعي الحديثة.
انفصل تصميم البنية التحتية للذكاء الاصطناعي عن الحوسبة المؤسسية التقليدية. فالتدريب يَدفع الربط البيني وعرض نطاق الذاكرة إلى حدودهما القصوى، بينما يَدفع الاستدلال عند الحجم الكبير زمن الاستجابة والكفاءة في الطاقة. التعامل مع «الذكاء الاصطناعي» كحمل واحد هو أسرع طريق لشراء النظام الخطأ.
ابدأ بتوصيف الحمل
- التدريب — طويل الأمد، كثيف الاتصال الجماعي (all-reduce)، حسّاس لعرض نطاق الربط البيني ومعدّل كتابة النقاط المرجعية.
- المعايرة الدقيقة — أصغر من التدريب لكنه يتكرّر كثيراً، ويستفيد من تجمّعات مرنة للمسرّعات.
- الاستدلال — مُقيّد بزمن الاستجابة ويقاس بالإنتاجية، وتحكمه أنماط الطلبات وحجم النموذج.
تبقى اختبارات MLPerf المرجع الأكثر صرامة للمقارنة بين الأنظمة تحت ظروف متكافئة[1].
الحوسبة: أبعد من «كم عدد المسرّعات»
لتدريب محوّلات كثيفة على نطاق واسع، تبقى بنى NVIDIA Hopper (H100/H200) وBlackwell (B200/GB200) هي المراجع، كما يُمثّل AMD Instinct MI300X بديلاً موثوقاً في الأحمال المُقيّدة بالذاكرة بفضل 192 جيجابايت من HBM3 لكل مسرّع[2][3]. أما الاستدلال فتختلف معادلته: الإنتاجية الإجمالية لكل واط ولكل رفّ أهمّ من ذروة FLOPs.
الربط البيني هو الاختناق الخفيّ
- داخل العقدة — تُوفّر NVLink/NVSwitch اتصالاً بسرعات مئات الجيجابايت في الثانية بين المسرّعات[4].
- بين العقد — InfiniBand NDR بسرعة 400 جيجابت/ث أو نسيج Ethernet عالي السرعة (RoCEv2) للتوسّع الأفقي. تحدّد الطوبولوجيا والتوجيه التكيّفي والتحكّم في الازدحام ما إذا كانت أرقام FLOPs المُعلنة تتحوّل إلى وقت تدريب مفيد.
التخزين وخطوط البيانات
قد يَنقل تخزين نقطة مرجعية لنموذج كبير عدّة تيرابايتات في دقائق؛ ونظام ملفات بطيء سيُعطّل أسطولاً باهظاً من المسرّعات. أنظمة الملفات المتوازية مثل Lustre وIBM Storage Scale (GPFS) وWekaFS هي الخيارات المعتمدة، إلى جانب طبقة تخزين كائنية لمجموعات البيانات[5].
التنسيق: Kubernetes أم Slurm أم الاثنان
Kubernetes هو الخيار الافتراضي للاستدلال والمعايرة الدقيقة المرنة، في حين يظلّ Slurm مهيمناً على أعمال التدريب المتزامنة بفضل دعم MPI وحساب العدالة. تشغّل المؤسسات الناضجة الاثنين معاً.
الطاقة والتبريد والمنشأة
تسحب عقدة H100 بثمانية مسرّعات نحو 10 كيلوواط، وقد يبلغ الرفّ الكثيف 30–70 كيلوواط. أصبح التبريد السائل المباشر إلى الشريحة افتراضياً في قاعات الذكاء الاصطناعي الجديدة، وقد انعكس ذلك في المرجعيات الهندسية لمشروع Open Compute Project[6].
عدسة اقتصادية مُنطلقة من الاستدلال
- اختيار الحجم الصحيح للنموذج — فنسخة مُصقّلة أو مُكمَّمة كثيراً ما تُقدّم الجودة نفسها بجزء من التكلفة.
- التجميع المستمر في خوادم المحوّلات (vLLM وTensorRT-LLM وTGI) قد يُضاعف الإنتاجية من 3 إلى 10 أضعاف على نفس العتاد.
- التدرّج — توجيه الطلبات السهلة لنموذج أصغر، والصعبة لنموذج أكبر، مع اتفاقيات جودة خدمة لكل طبقة.
المعماريات المرجعية لا إعادة الاختراع
ابدأ من مرجع مُوثّق: NVIDIA DGX SuperPOD، أو المخطّطات من Dell وHPE وLenovo وSupermicro، أو تصاميم OCP[6][7]. تختصر هذه المراجع أشهراً من المخاطر إلى نقطة انطلاق جيّدة معروفة.
الخلاصة
البنية التحتية للذكاء الاصطناعي مشكلة من طرف إلى طرف: الحوسبة والربط والتخزين والتنسيق والطاقة والتبريد يجب أن تُصمَّم معاً للحمل الفعلي. إذا أُخطئ أحدها لا يعوّضه الآخرون.
المراجع والمصادر
- MLCommons — MLPerf Training & Inference benchmarks
- NVIDIA — H100 / H200 data-center GPUs
- AMD — Instinct MI300 Series accelerators
- NVIDIA — NVLink & NVSwitch interconnect
- WekaIO — Parallel filesystem for AI
- Open Compute Project — Open hardware reference designs
- NVIDIA — DGX SuperPOD reference architecture
الروابط الخارجية للتحقّق والسياق فقط، ولا تتحمّل ديتا كود مسؤولية محتوى الأطراف الأخرى. تتغيّر النصوص التنظيمية ومواصفات المزوّدين — يُرجى الرجوع دائماً إلى أحدث إصدار منشور.