تقرير 10000 كلمة عن وول ستريت: خلف غطس البيتكوين و Nvidia

كتب مستثمر محترف عمل كمحلل ومهندس برمجيات مقالًا كان هبوطيًا على NVIDIA ، الذي أعيد تغريده بواسطة Twitter’s Big V ، ليصبح “السبب الرئيسي” الرئيسي في غطس أسهم Nvidia.تبخرت القيمة السوقية لـ NVIDIA بنحو 600 مليار دولار ، وهي أكبر انخفاض في يوم واحد لشركة مدرجة معينة حتى الآن.

النقطة الرئيسية لهذا المستثمر Jeffrey Emanuel هي أن Deepseek يعرض جلد البقر الذي أحدثته وول ستريت ، وشركات التكنولوجيا الكبيرة و Nvidia ، التي مبالغ فيها.”يوصي كل بنك استثمار بشراء Nvidia ، مثل رجل أعمى يقدم دليلًا ، وليس لديه أي فكرة عما يقولونه”.

وقال جيفري إيمانويل إن نفيديا تواجه طريقًا أكثر قسوة للحفاظ على مسار النمو الحالي وهوامش الربح أكثر مما يوحي بتقييمه.هناك خمسة اتجاهات مختلفة لمهاجمة NVIDIA – ابتكار الهندسة المعمارية ، والتكامل العمودي للعميل ، وتجريد البرامج ، وإنجازات الكفاءة وتصنيع الديمقراطية – يبدو أن فرصة واحدة على الأقل للنجاح لها تأثير كبير على هوامش ربح NVIDIA أو معدلات النمو بشكل جيد للغاية.انطلاقًا من التقييم الحالي ، لم يأخذ السوق هذه المخاطر في الاعتبار.

وفقًا لبعض مستثمري الصناعة ، أصبح إيمانويل فجأة من المشاهير في وول ستريت بسبب هذا التقرير ، ودفعت العديد من صناديق التحوط له 1000 دولار في الساعة لسماع وجهات نظره حول Nvidia و AI.كان حلقي مشغولاً للغاية لدرجة أنني كنت أدخن ، لكنني كنت مغرًا بحساب المال.

ما يلي هو النص الكامل للتقرير.التعلم المرجعي الكامل.

كمحلل للاستثمار لمدة 10 سنوات تقريبًا في صناديق التحوط الطويلة/القصيرة ، بما في ذلك العمل في الألفية و Balyasny ، ومشجع الرياضيات والكمبيوتر الذي يدرس التعلم العميق منذ عام 2010 (في ذلك الوقت ، كان جيف هينتون لا يزال يتحدث عن Boltzmann المقيدة الآلات ، كل شيء كان لا يزال برمجة باستخدام MATLAB ، كان الباحثون ما زالوا يحاولون إثبات أنهم يمكن أن يحصلوا على نتائج أفضل في تصنيف الأرقام المكتوبة بخط اليد من استخدام آلات ناقلات الدعم) ، وأعتقد أنني كنت على الاصطناعي هناك وجهة نظر فريدة إلى حد ما حول تطوير الذكية التكنولوجيا وعلاقتها مع تقييم الأسهم في سوق الأوراق المالية.

على مدار السنوات القليلة الماضية ، عملت أكثر كمطور ولدي العديد من المشاريع الشهيرة مفتوحة المصدر للتعامل مع أشكال مختلفة من نماذج/خدمات الذكاء الاصطناعى (انظر LLM بمساعدة التعرف الضوئي على الحروف ، والجيش السويسري على سبيل المثال ، على سبيل المثال ، تشابه المتجه السريع ، المصدر للمطالبة والباستيل طبقة الاستدلال ، وما إلى ذلك).في الأساس ، أستخدم هذه النماذج المتطورة بشكل مكثف كل يوم.لديّ 3 حسابات Claude ، لذا لا تنفد الطلبات وتسجيلها بعد بضع دقائق من بدء Chatgpt Pro.

أسعى أيضًا إلى فهم أحدث التقدم البحثي وقراءة جميع أوراق التقارير الفنية المهمة التي أصدرتها مختبرات الذكاء الاصطناعي الكبرى.لذلك ، أعتقد أن لدي فهم جيد لهذا المجال وكيف تسير الأمور.في هذه الأثناء ، قمت باختصار الكثير من الأسهم في حياتي وفزت بجائزة أفضل إبداع من نادي Value Investor Club مرتين (TMS Longs و PDH شورت إذا كنت متابعًا).

أقول هذا ليس للظهور ، ولكن لإثبات أنه يمكنني التحدث عن هذه القضية دون جعل الفنيين أو المستثمرين المحترفين يشعرون أنني طفولي.بالطبع ، هناك بالتأكيد الكثير من الأشخاص الذين لديهم أكثر كفاءة في الرياضيات/العلوم مني ، وهناك العديد من الأشخاص الذين هم أفضل في استثمار طويل/قصير في سوق الأسهم أكثر مني ، لكنني أعتقد أنه لا يوجد الكثير من الناس الذين يمكن أن يكونوا في منتصف مخطط فين مثلي.

ومع ذلك ، كلما قابلت وأدردش مع الأصدقاء والزملاء السابقين في صناعة صناديق التحوط ، يتحول الموضوع بسرعة إلى Nvidia.ظاهرة شركة تنمو من الغموض إلى القيمة السوقية التي تتجاوز أسواق الأسهم المشتركة في المملكة المتحدة أو فرنسا أو ألمانيا ليست شيئًا يمكنك مواجهته كل يوم!هؤلاء الأصدقاء يريدون بطبيعة الحال أن يعرفوا ما أفكر في هذه القضية.لأنني أعتقد اعتقادا راسخا أن هذه التكنولوجيا سيكون لها تأثير تحويلي طويل الأجل-أعتقد حقا أنها ستغير تماما كل جانب من جوانب اقتصادنا ومجتمعنا في السنوات الخمس إلى العشر القادمة ، وهو أمر غير مسبوق بشكل أساسي-لذلك من الصعب بالنسبة لي أن أؤكد nvidia سوف يتباطأ زخم التنمية أو يتوقف على المدى القصير.

لكن على الرغم من أنني أعتقد أن التقييم مرتفع للغاية بالنسبة لي على مدار العام الماضي ، إلا أن السلسلة الأخيرة من التطورات جعلتني أميل قليلاً نحو حدسي المتمثل في أن أكون أكثر حذراً بشأن التوقعات وفي الإجماع ، يبدو أنه يتم استجوابها عند تقديرها.كما يقول المثل ، “الحكماء يؤمنون بالبداية ، والحماقة تؤمن في النهاية”.

قضية السوق الثور

قبل أن نناقش التقدم الذي جعلني أتردد ، دعنا نراجع باختصار السوق الثور لأسهم NVDA.تعد التعلم العميق والذكاء الاصطناعي أكثر التقنيات التحويلية منذ الإنترنت ومن المتوقع أن يغير كل شيء في مجتمعنا بشكل أساسي.فيما يتعلق بجزء من إجمالي النفقات الرأسمالية في الصناعة المستخدمة في التدريب والبنية التحتية للمنطق ، فإن NVIDIA في وضع يمكنها من الاحتكار بطريقة ما.

قررت بعض الشركات الأكبر والأكثر ربحية في العالم ، مثل Microsoft و Apple و Amazon و Meta و Google و Oracle ، وما إلى ذلك ، أن تظل قادرة على المنافسة في هذا المجال بأي ثمن لأنها ببساطة لا يستطيعون تحمل عواقب المتخلف عن الآخرين. .لقد انفجرت كمية النفقات الرأسمالية واستهلاك الكهرباء ومنطقة مراكز البيانات الجديدة ، وبالطبع عدد وحدات معالجة الرسومات ، ويبدو أنه لا يوجد أي علامة على التباطؤ.يمكن أن تكسب Nvidia هوامش ربح إجمالية مدهشة تصل إلى 90 ٪ مع المنتجات الراقية لمراكز البيانات.

لقد لمست فقط سطح السوق الثور.هناك المزيد من الجوانب الآن ، حتى أولئك الذين هم بالفعل متفائلون للغاية سيصبحون أكثر تفاؤلاً.بصرف النظر عن صعود الروبوتات البشرية (أظن أن معظم الناس سوف يفاجأون عندما يتمكنون من إكمال المهام التي تتطلب حاليًا عمالًا غير مهرة (أو حتى ماهر) ، مثل الغسيل والتنظيف والترتيب والطبخ ؛ تم في أعمال بناء فريق العمال مثل تزيين الحمام أو بناء منزل ؛

الموضوع الرئيسي الذي يتحدث عنه الأشخاص الأذكياء هو صعود “قانون التوسع الجديد” ، والذي يوفر نموذجًا جديدًا للناس للتفكير في كيفية نمو الطلب على الحوسبة بمرور الوقت.منذ ظهور Alexnet في عام 2012 واختراع هندسة المحولات في عام 2017 ، فإن قانون التوسع الأصلي الذي يدفع تقدم الذكاء الاصطناعي هو قانون التوسع قبل التدريب: كلما ارتفعت قيمة الرمز المميز الذي نستخدمه كبيانات تدريب (الآن إلى تريليونات) ، النموذج الذي قمنا بتدريبه لمزيد من المعلمات التي نستخدمها ، وكلما زادت القوة الحسابية (التقلب) التي نستخدمها لتدريب هذه النماذج باستخدام هذه الرموز ، وكلما كان أداء النموذج النهائي في مجموعة متنوعة من المهام المفيدة للغاية .

لا يمكن التنبؤ بهذا التحسن فحسب إلى حد ما لدرجة أن قيادة مختبرات الذكاء الاصطناعي مثل Openai والأنثروبور يمكن أن تعرف بالضبط مدى جودة نماذجها قبل أن تبدأ في التدريب بالفعل. القيمة القياسية للنموذج النهائي مع خطأ لا يزيد عن بضع نقاط مئوية.هذا “القانون البدائي للتوسع” مهم للغاية ، لكنه يجعل دائمًا الأشخاص الذين يستخدمونه للتنبؤ بالمستقبل.

أولاً ، يبدو أننا استنفدت مجموعات بيانات التدريب عالية الجودة المتراكمة في العالم.بالطبع ، هذا ليس صحيحًا تمامًا – لا يزال هناك العديد من الكتب والمجلات القديمة التي لم يتم ترقيمها بشكل صحيح ، حتى لو تم ترقيمها ، دون إذن مناسب كبيانات تدريب.المشكلة هي ، حتى لو كنت تنسب لك كل هذا – قل مجموع اللغة الإنجليزية المكتوبة “المهنية” التي تم إنتاجها من 1500 إلى 2000 ، عندما تتحدث عن مجموعة تدريب تبلغ حوالي 15 تريليون علامة ، من النسبة المئوية من منظور عدد كبير ، ومقياس مجموعة التدريب هو مقياس النموذج المتطور الحالي.

للتحقق بسرعة من صحة هذه الأرقام: كتبت كتب Google حوالي 40 مليون كتاب حتى الآن ؛ بالطبع تم تضمين جزء كبير منه في مجموعة التدريب المستخدمة في المختبرات الكبيرة ، بغض النظر عما إذا كانت قانونية تمامًا أم لا.هناك أيضًا العديد من الأوراق الأكاديمية ، وهناك أكثر من مليوني ورقة على موقع Arxiv وحده.تضم مكتبة الكونغرس أكثر من 3 مليارات صفحة من الصحف الرقمية.تمت إضافة ما يصل ، قد يكون المجموع أعلى من الرموز المميزة 7t ، ولكن نظرًا لأن معظمها مدرج بالفعل في مجموعة التدريب ، فقد لا تكون بيانات التدريب “الإضافية” المتبقية مهمة في الخطة الشاملة.

بالطبع ، هناك طرق أخرى لجمع المزيد من بيانات التدريب.على سبيل المثال ، يمكنك نسخ كل مقطع فيديو على YouTube تلقائيًا واستخدام هذه النصوص.على الرغم من أن هذا قد يساعد ، إلا أنه من المؤكد أنه أقل بكثير من الجودة من كتاب مدرسي يحظى بتقدير كبير للكيمياء العضوية ، وهو مصدر مفيد للمعرفة لفهم العالم.لذلك ، من حيث القانون الأصلي للمقياس ، واجهنا دائمًا تهديد “جدار البيانات” ؛ المعرفة هو أكثر صعوبة ، وهذه المعرفة هي التكميل الصحيح للمعرفة القائمة.الآن ، هناك طريقة مثيرة للاهتمام للتعامل معها وهي صعود “البيانات الاصطناعية” ، أي أن النص نفسه هو إخراج LLM.على الرغم من أن هذا قد يبدو سخيفًا بعض الشيء ، إلا أن “تحسين جودة النموذج من خلال العرض الخاص بك” فعال للغاية في الممارسة العملية ، على الأقل في مجالات الرياضيات والمنطق وبرمجة الكمبيوتر.

بالطبع ، السبب هو أنه يمكننا التحقق ميكانيكيًا وإثبات صحة الأشياء في هذه المناطق.لذلك يمكننا أخذ عينات من نظرية رياضية ضخمة أو نص Python ومن ثم التحقق من ما إذا كانت صحيحة ، سيتم تضمين البيانات الصحيحة فقط في قاعدة البيانات الخاصة بنا.وبهذه الطريقة ، يمكننا توسيع مجموعة بيانات التدريب عالية الجودة بشكل كبير ، على الأقل في هذه المجالات.

بالإضافة إلى النص ، يمكننا أيضًا استخدام بيانات أخرى مختلفة لتدريب الذكاء الاصطناعي.على سبيل المثال ، ماذا سيحدث إذا استخدمنا جميع بيانات تسلسل الجينوم التي تبلغ 100 مليون شخص (مقدار البيانات غير المضغوطة لشخص واحد يتراوح بين 200 جيجابايت إلى 300 جيجابايت) لتدريب الذكاء الاصطناعي؟من الواضح أن هذا كمية كبيرة من البيانات ، على الرغم من أن معظمها تقريبًا هو نفسه تمامًا بين شخصين.بالطبع ، يمكن أن تكون المقارنة مع البيانات النصية على الكتب والإنترنت مضللة لمجموعة متنوعة من الأسباب:

لا يمكن مقارنة حجم الجينوم الأصلي مباشرة بعدد العلامات

يختلف محتوى المعلومات للبيانات الجينية تمامًا عن محتوى النص

قيمة التدريب للبيانات المتكررة للغاية لم تكن واضحة بعد

متطلبات الحساب لمعالجة البيانات الجينية مختلفة أيضًا

لكنه لا يزال مصدرًا كبيرًا آخر للمعلومات التي يمكننا تدريبها في المستقبل ، وهذا هو السبب في أنني أدرجها.

لذا ، من المتوقع أن نحصل على المزيد والمزيد من بيانات التدريب الإضافية ، إذا نظرت إلى معدل نمو مجموعة التدريب في السنوات الأخيرة ، سنجد قريبًا أننا سنواجه اختناقات في توفر بيانات المعرفة “الشاملة المفيدة” نوع من المعرفة يمكن أن يساعدنا في الاقتراب من هدفنا النهائي ، وهو الحصول على ذكاء فائق الاصطناعي 10 مرات أكثر ذكاءً من جون فون نيومان ، وتصبح خبراء عالميين في كل مجال محترف معروف للبشر.

بالإضافة إلى البيانات المحدودة المتاحة ، كان أنصار قانون التوسع قبل التدريب يختبئون دائمًا بعض المخاوف الأخرى في الاعتبار.واحد منهم هو كيفية التعامل مع كل هذه البنى التحتية لحساب بعد الانتهاء من التدريب النموذجي؟تدريب النموذج التالي؟بالطبع ، يمكنك القيام بذلك ، ولكن بالنظر إلى الزيادة السريعة في سرعة وحدات معالجة الرسومات ، وأهمية الطاقة وتكاليف التشغيل الأخرى في الحوسبة الاقتصادية ، هل من المنطقي حقًا استخدام مجموعات منذ عامين لتدريب نماذج جديدة؟بالطبع ، تفضل استخدام مركز بيانات جديد قمت بإنشائه للتو ، والذي يكلف 10 أضعاف تكلفة مركز البيانات القديم ، وبسبب تقنيته الأكثر تقدماً ، فإنه يؤدي 20 ضعف أداء مركز بيانات قديم.المشكلة هي ، في مرحلة ما ، تحتاج إلى إطفاء التكاليف المسبقة لهذه الاستثمارات واسترداد التكاليف من خلال تدفقات أرباح التشغيل (إيجابية) ، أليس كذلك؟

السوق متحمس للغاية للذكاء الاصطناعي لدرجة أنه يتجاهل هذه النقطة ، مما يسمح لشركات مثل Openai بتجميع الخسائر التشغيلية منذ البداية ، بينما تكتسب في الوقت نفسه تقييمات أعلى وأعلى في الاستثمارات اللاحقة (بالطبع ، يستحق الثناء. كما أنها تظهر إيرادات سريعة النمو).ولكن في النهاية ، للحفاظ على ذلك خلال دورة السوق ، ستحتاج تكاليف مراكز البيانات هذه في النهاية إلى استردادها ومن الأفضل أن تكون مربحة ، بحيث يمكن دمجها بعد فترة من الزمن مع فرص استثمار أخرى بناءً على المخاطر التعديلات.

نموذج جديد

حسنًا ، هذا هو قانون التوسع قبل التدريب.إذن ما هو قانون التوسع “الجديد”؟حسنًا ، هذا شيء بدأه الناس فقط في التركيز في العام الماضي: امتدادات حساب وقت الاستدلال.قبل ذلك ، تم استخدام معظم الحسابات التي قضيتها في العملية لإنشاء حسابات التدريب الأولية للنموذج.بمجرد أن يكون لديك نموذج مدرب ، فإن التفكير حول هذا النموذج (أي طرح سؤال أو الحصول على LLM يؤدي نوعًا من المهمة بالنسبة لك) فقط يستخدم عددًا معينًا من الحسابات.

الأهم من ذلك ، إجمالي كمية حسابات الاستدلال (المقاسة بطرق مختلفة ، مثل التقلبات ، بصمة ذاكرة GPU ، وما إلى ذلك) أقل بكثير من كمية الحسابات المطلوبة في مرحلة ما قبل التدريب.بطبيعة الحال ، يزداد حساب الاستدلال عند زيادة حجم نافذة السياق للنموذج والإخراج الناتج مرة واحدة (على الرغم من أن الباحثين قاموا بتحسينات خوارزمية مذهلة في هذا الصدد ، ومقياس التوسع الذي توقعه الأشخاص في الأصل كان تربيعيًا).ولكن في وقت قريب ، كانت حسابات الاستدلال في كثير من الأحيان أقل بكثير من حسابات التدريب وكانت تتناسب بشكل خطي مع عدد الطلبات التي تمت معالجتها – على سبيل المثال ، كلما زادت الطلب على نص ChatGPT.

مع ظهور نموذج سلسلة الفكرة الثورية (COT) الذي تم إطلاقه العام الماضي ، فإن أبرزها هو نموذج Openai الرائد O1 (ولكن Model R1 الجديد في DeepSeek يستخدم أيضًا هذه التكنولوجيا. سيتم مناقشته بالتفصيل لاحقًا) ، كل شيء لقد تغير.لم تعد نماذج COT الجديدة هذه تتناسب بشكل مباشر مع طول نص الإخراج الناتج عن النموذج (لنوافذ السياق الأكبر ، وأحجام النماذج ، وما إلى ذلك ، فهي ستزداد بشكل متناسب) ، ولكنها بدلاً من ذلك تولد “علامات منطقية” وسيطة ؛ الذاكرة “أو” المونولوج الداخلي “للنموذج عند محاولة حل مشكلتك أو إكمال مهمة محددة.

يمثل هذا تغييرًا حقيقيًا في الطريقة التي يحوس بها الاستدلال: الآن ، كلما زادت الرموز التي تستخدمها في عملية التفكير الداخلي هذه ، كانت جودة المخرج النهائي الذي تقدمه للمستخدم.في الواقع ، فإن الأمر يشبه إعطاء العامل المزيد من الوقت والموارد لإكمال المهمة حتى يتمكنوا من التحقق من عملهم بشكل متكرر ، وإكمال المهمة الأساسية نفسها بعدد من الطرق المختلفة ، والتحقق من أن النتائج هي نفسها ؛ في الصيغة للتحقق مما إذا كانت قد حلت بالفعل المعادلة ، إلخ.

كما اتضح ، فإن تأثير هذا النهج مدهش تقريبًا ؛إنه يحل مباشرة واحدة من أكبر نقاط الضعف في نموذج المحول ، أي الميل إلى “خلق الهلوسة”.

في الأساس ، الطريقة التي تعمل بها المحولات عند التنبؤ بالعلامة التالية لكل خطوة هي أنه إذا بدأوا في السير في “مسار” خاطئ في الاستجابة الأولية ، فإنهم يصبحون مثل طفل متهالك يحاول تكوين قصة لشرح سبب كونهم في الواقع صحيح ، حتى لو كان ينبغي عليهم استخدام الحس السليم لإدراكهم بالطريقة التي لا يمكن أن يكون ما يقولون صحيحًا.

نظرًا لأن النماذج تحاول دائمًا الحفاظ على الاتساق الجوهري وجعل كل علامة تم إنشاؤها بشكل مستمر بشكل طبيعي من العلامة والسياق السابقة ، فمن الصعب توجيه تصحيح وتراجع.من خلال تقسيم عملية التفكير إلى العديد من المراحل الوسيطة ، يمكنهم تجربة العديد من الطرق المختلفة ، ومعرفة أي منها يعمل ، ومواصلة تجربة تصحيحات الطريق وطرق أخرى حتى يتمكنوا من الوصول إلى مستوى عالٍ من الثقة في أنها ليست هراء.

الشيء الأكثر خصوصية في هذا النهج هو أنه ، بالإضافة إلى تأثيره الفعلي ، كلما زادت الرموز المنطقية/المولدة التي تستخدمها ، كلما كان التأثير أفضل.فجأة ، لديك قرص إضافي ، ومع زيادة عدد الرموز المميزة للاستدلال (هذا يتطلب المزيد من حسابات الاستدلال ، سواء كانت عمليات أو ذاكرة عائمة) ، كلما زاد احتمال إعطاء الإجابة الصحيحة – لا توجد أخطاء في المدى الأول ، أو أن الحل لمشكلة المنطق لا يحتوي على أخطاء واضحة في خطوات الاستدلال.

أستطيع أن أخبركم من خلال الكثير من التجربة المباشرة أنه على الرغم من أن نموذج Sonnet من الأنثروبور هو ممتاز (ممتاز جدًا) في برمجة Python ، فإنه يجعل دائمًا واحدًا كلما احتجت إلى توليد أي رمز طويل ومعقد.الآن ، عادة ما تكون هذه الأخطاء سهلة إصلاحها ، وفي الواقع ، من الضروري في كثير من الأحيان فقط استخدام الخطأ الذي تم إنشاؤه بواسطة مترجم Python باعتباره تلميحًا للتفكير اللاحق (أو ، بشكل أكثر عمليًا ، “المشكلة” الكاملة الموجودة في محرر الكود باستخدام استخدام الرمز باستخدام ما يسمى مجموعات Linter التي تم لصقها في الكود) ويمكن إصلاحها دون أي تفسير آخر.عندما يصبح الرمز طويلًا جدًا أو معقدًا جدًا ، يستغرق في بعض الأحيان وقتًا أطول لإصلاحه ، وقد يتطلب الأمر بعض التصحيح اليدوي.

عندما جربت طراز O1 من Openai لأول مرة ، كان الأمر مثل الوحي: لقد اندهشت من مدى الكمال الرمز في المرة الأولى.وذلك لأن عملية COT تكتشف المشكلة وتصلحها تلقائيًا قبل الرد أخيرًا على الرمز المميز في الإجابة التي قدمها النموذج.

في الواقع ، فإن نموذج O1 المستخدم في خدمة الاشتراك في Openai’s ChatGPT Plus (20 دولارًا شهريًا) يتزامن مع خدمة اشتراك ChatGpt Pro الجديدة (الأسعار 10 أضعاف الأولى ، أي 200 دولار شهريًا ، والتي تسببت في ضجة في مجتمع المطور) النماذج المستخدمة في نموذج O1-PRO في نموذج O1-PRO هي نفسها بشكل أساسي ؛

هذا أمر رائع للغاية لأنه حتى بالنسبة لـ Claude3.5 Sonnet أو GPT4O ، حتى لو تم إعطاؤه سياقًا يبلغ حوالي 400 كيلو بايت أو أكثر ، فإن تلميحًا مطوّلًا ومعقدًا للغاية يستغرق عادةً أقل من 10 ثوان لبدء الاستجابة ، وغالبًا ما يكون أقل من 5 ثوانٍ.وقد يستغرق الأمر نفس المطالبة لـ O1-PRO أكثر من 5 دقائق للحصول على استجابة (على الرغم من أن Openai يوضح لك بعض “خطوات التفكير” التي تم إنشاؤها أثناء عملية الانتظار ؛ الأهم علامات التفكير الدقيقة التي تنشئها منك ، بدلاً من ذلك ، تظهر لك ملخصًا مبسطًا للغاية).

كما قد تتخيل ، في كثير من الحالات تكون الدقة أمرًا بالغ الأهمية – تفضل الاستسلام وتخبر المستخدم أنه لا يمكنك القيام بذلك ببساطة من إعطاء إجابة قد تكون خاطئة بسهولة ، أو تعطي وهم حقائق أو غيرها من المعقول ولكن ليس المنطق إجابات.أي شيء يتضمن المال/المعاملات والرعاية الطبية والقانون ، على سبيل المثال لا الحصر.

في الأساس ، طالما أن تكلفة الاستدلال تكون تافهة بالنسبة للتعويض الكامل للعاملين في مجال المعرفة الإنسانية الذين يتفاعلون مع أنظمة الذكاء الاصطناعى ، في هذه الحالة ، يصبح استدعاء حسابات المهد غير ضروري تمامًا (العيب الرئيسي هو أن هذا سيزيد من زمن استجابة بشكل كبير ، لذلك في بعض الحالات ، قد تفضل تسريع التكرار من خلال الحصول على استجابة مع زمن انتقال أقصر ، أو دقة أقل ، أو صحة أقل).

قبل بضعة أسابيع ، ظهرت بعض الأخبار المثيرة في مجال الذكاء الاصطناعي ، والتي تنطوي على نموذج O3 الذي لم يتم إصداره بعد من Openai ، والذي يمكنه حل سلسلة من المشكلات التي سبق أن تم التفكير فيها مع أساليب الذكاء الاصطناعي الحالي في المستقبل القريب.يمكن لـ Openai حل هذه المشكلات الأكثر صعوبة (بما في ذلك المشكلات الرياضية “الأساسية” الصعبة للغاية التي يصعب حتى على علماء الرياضيات المهنيين المهرة للغاية) لأن Openai يستثمر الكثير من موارد الحوسبة – في بعض الحالات ، تنفق أكثر من 3000 دولار في قوة الحوسبة لحل المهمة (على النقيض من ذلك ، باستخدام نموذج محول تقليدي ، من غير المرجح أن تتجاوز تكلفة الاستدلال التقليدية لمهمة واحدة بضعة دولارات دون سلسلة من التفكير).

ليس من الضروري أن يدرك عباقرة الذكاء الاصطناعي أن هذا التقدم يخلق قانونًا جديدًا للتوسع يختلف تمامًا عن قانون التوسع الأصلي الذي تم تدريبه مسبقًا.الآن ما زلت ترغب في تدريب أفضل النماذج من خلال الاستفادة الذكية لأكبر عدد ممكن من موارد الحوسبة وبيانات التدريب عالية الجودة تريليون قدر الإمكان ، ولكن هذه مجرد بداية لقصة العالم الجديدة ؛ عدد موارد الحوسبة ، يستنتج فقط من هذه النماذج للحصول على مستوى ثقة مرتفع للغاية ، أو محاولة حل المشكلات الصعبة للغاية التي تتطلب التفكير “على مستوى العبقرية” لتجنب جميع المزالق المحتملة التي يمكن أن تؤدي إلى الماجستير في القانون العادي.

ولكن لماذا يتعين على Nvidia أن تأخذ كل الفوائد؟

حتى لو كنت تعتقد مثلي ، فإن التوقعات المستقبلية للذكاء الاصطناعي لا يمكن تصورها تقريبًا ، يبقى السؤال: “لماذا تحقق الشركة معظم أرباحها من هذه التكنولوجيا؟” لكن الفائزين الرئيسيين ليسوا الشركات التي تبدو أكثر واعدة في المراحل الأولية.على الرغم من أن شركة رايت براذرز للطائرات اخترعت التكنولوجيا وأتقنها ، إلا أن الشركة لديها الآن قيمة سوقية تقل عن 10 مليارات دولار ، على الرغم من أنها تطورت إلى شركات متعددة.على الرغم من أن فورد لديها الآن القيمة السوقية كبيرة قدرها 40 مليار دولار ، إلا أن هذا هو 1.1 ٪ فقط من القيمة السوقية الحالية لـ NVIDIA.

لفهم هذا ، يجب أن تفهم حقًا سبب أن تشغل Nvidia مثل هذه الحصة السوقية الكبيرة.بعد كل شيء ، فهي ليست الشركة الوحيدة التي تصنع وحدات معالجة الرسومات.AMD تنتج وحدات معالجة الرسومات مع أداء جيد.بطبيعة الحال ، فإن وحدات معالجة الرسومات AMD ليست سريعة ومتقدمة مثل NVIDIA GPUS ، ولكن NVIDIA وحدات معالجة الرسومات ليست أسرع 10 مرات أو ما شابه.في الواقع ، فإن وحدات معالجة الرسومات AMD ليست سوى نصف NVIDIA GPU من حيث التكلفة الخام لكل التقليب.

من منظور أسواق أشباه الموصلات الأخرى ، مثل سوق DRAM ، على الرغم من أن السوق مركزة للغاية ، فإن ثلاث شركات عالمية فقط (Samsung ، Micron ، SK-Hynix) لها أهمية عملية ، فإن هامش الربح الإجمالي لسوق DRAM سلبي في أسفل الدورة.على النقيض من ذلك ، كان هامش الربح الإجمالي الإجمالي في NVIDIA في الفصول الأخيرة حوالي 75 ٪ ، وتراجع بشكل رئيسي عن طريق منتجات الرسومات ثلاثية الأبعاد من الدرجة الاستهلاكية مع هوامش ربح منخفضة وارتفاع السلع.

لذا ، كيف هذا ممكن؟حسنًا ، السبب الرئيسي يتعلق بالبرنامج – “متاح بشكل مباشر” وبرنامج تشغيل للغاية وموثوق به للغاية على Linux (على عكس AMD ، الذي تشتهر برامج تشغيل Linux بجودتها المنخفضة وغير المستقرة) ، بالإضافة إلى فتحها بشكل كبير. رمز المصدر ، مثل Pytorch ، يعمل بشكل جيد على وحدات معالجة الرسومات Nvidia بعد التغيير والتبديل.

ليس ذلك فحسب ، فإن CUDA ، إطار البرمجة المستخدمة من قبل المبرمجين لكتابة رمز منخفض المستوى محسن ل GPU ، مملوكة بالكامل من قبل NVIDIA وأصبحت المعيار الفعلي.إذا كنت ترغب في توظيف مجموعة من المبرمجين الموهوبين للغاية الذين يعرفون كيفية استخدام وحدات معالجة الرسومات لتسريع وظائفهم وترغب في دفع راتبهم البالغ 650 ألف دولار في السنة ، أو مستوى الراتب الحالي لأي شخص لديه هذه المهارة بالذات ، فمن المحتمل أن يكونوا سوف “التفكير” والعمل مع كودا.

بصرف النظر عن مزايا البرمجيات ، فإن ميزة رئيسية أخرى من NVIDIA هي ما يسمى التواصل بين الوصلات-بشكل أساسي ، من النطاق الترددي أن يربط الآلاف من وحدات معالجة الرسومات معًا بحيث يمكن استخدامها معًا لتدريب النماذج الأساسية المتطورة اليوم.باختصار ، يتمثل مفتاح التدريب الفعال في الحفاظ على جميع وحدات معالجة الرسومات بالكامل طوال الوقت ، بدلاً من الاستخدام والانتظار حتى يتم استلام الدفعة التالية من البيانات المطلوبة للخطوة التالية من التدريب.

متطلبات عرض النطاق الترددي مرتفع للغاية ، أعلى بكثير من النطاق الترددي النموذجي المطلوب لتطبيقات مركز البيانات التقليدية.لا يمكن لهذا الترابط استخدام أجهزة الشبكة التقليدية أو الألياف لأنها تجلب الكثير من الكمون ولا يمكنها توفير تيرابايت من عرض النطاق الترددي في الثانية ، وهو ما هو مطلوب للحفاظ على جميع وحدات معالجة الرسومات مشغولة باستمرار.

استحوذت NVIDIA على شركة Mellanox الإسرائيلية مقابل 6.9 مليار دولار في عام 2019 ، وهو قرار حكيم للغاية ، وكان هذا الاستحواذ هو الذي وفر لهم تكنولوجيا الاتصال البيني الرائدة في الصناعة.لاحظ أن سرعة التوصيل المترابطة ترتبط ارتباطًا وثيقًا بعملية التدريب (التي يجب أن تستخدم ناتج الآلاف من وحدات معالجة الرسومات في نفس الوقت) من عملية الاستدلال (بما في ذلك الاستدلال المولد) ، وتتطلب عملية الاستدلال فقط عددًا صغيرًا من وحدات معالجة الرسومات – ما تحتاجه فقط VRAM لتخزين الأوزان النموذجية الكمية (المضغوطة) للنموذج المدرب.

يمكن القول أن هذه هي المكونات الرئيسية لـ “خندق” Nvidia والسبب الذي يجعلها تتمكن من الحفاظ على هوامش الربح العالية هذه لفترة طويلة (هناك أيضًا “تأثير دولاب الموازنة” ، أي أنها تستثمر بنشاط أرباحًا غير عادية إلى كبيرة كميات من البحث والتطوير ، والتي بدورها وتساعدهم على تحسين تقنيتهم بشكل أسرع من منافسيها ، لذلك فهي دائمًا متقدمة على الطريق في الأداء الخام).

ولكن كما ذكرنا سابقًا ، في جميع الحالات الأخرى التي تكون فيها نفس الشروط غالبًا ما تكون الأداء لكل دولار (بما في ذلك تكاليف الإنفاق الرأسمالية المقدمة للجهاز واستخدام الطاقة ، أي الأداء لكل واط) ، على الرغم تتخبط وحدها ، فهي ليست الأكثر فعالية من حيث التكلفة.

ولكن المشكلة هي أن العوامل الأخرى ليست هي نفسها ، فإن برامج تشغيل AMD رهيبة وشهيرة لا تعمل مكتبات برامج الذكاء الاصطناعى بشكل جيد على AMD GPUs ، وخارج مجال الألعاب ، لا يمكنك العثور (لماذا يزعجون ، هناك طلب أكبر على خبراء CUDA في السوق؟) لا يمكنك توصيل الآلاف من وحدات معالجة الرسومات بفعالية بسبب سوء تكنولوجيا الترابط في AMD – وكل ذلك يعني AMD في مراكز البيانات الراقية في المجال بشكل أساسي غير قادر على التنافس ولا يبدو أن لديه آفاق تطوير جيدة على المدى القصير.

حسنًا ، يبدو أن Nvidia لديه نظرة رائعة ، أليس كذلك؟أنت تعرف الآن لماذا تم تقييم مخزونها!ولكن هل هناك أي مخاوف خفية أخرى؟حسنًا ، لا أعتقد أن هناك العديد من المخاوف الخفية التي تستحق الاهتمام الكبير.كانت بعض المشكلات تتربص وراء الكواليس خلال السنوات القليلة الماضية ، ولكن تأثيرها ضئيل بالنظر إلى معدل النمو.لكنهم يستعدون للتحرك لأعلى.ظهرت قضايا أخرى مؤخرًا فقط (مثل الأسبوعين الأخيرين) وقد تغير بشكل كبير مسار النمو الأخير في الطلب على وحدة معالجة الرسومات.

تهديدات كبيرة

من منظور الماكرو ، يمكنك التفكير في NVIDIA في مجال متخصص للغاية لفترة طويلة ؛ ليس لديك رأس مال كافٍ للضغط على قادة السوق مثل Nvidia.سوق الألعاب كبير ومتزايد ، لكنه لا يجلب أرباحًا مذهلة أو معدلات نمو سنوية مذهلة بشكل خاص.

في حوالي عام 2016-2017 ، بدأت بعض شركات التكنولوجيا الكبيرة في زيادة التوظيف والإنفاق على التعلم الآلي والذكاء الاصطناعي ، ولكن بشكل عام ، لم يكن هذا بالفعل مشروعًا مهمًا-أشبه بمزيد من نفقات البحث والتطوير “برنامج الاستكشاف”.ولكن بعد إصدار Chatgpt في عام 2022 ، بدأت المنافسة في مجال الذكاء الاصطناعي حقًا.

فجأة ، الشركات الكبرى مستعدة لاستثمار مليارات الدولارات بمعدل ينذر بالخطر.ارتفع عدد الباحثين المشاركين في مؤتمرات البحث الكبيرة مثل Neups و ICML.تحول الطلاب الأذكياء الذين ربما كانوا قد درسوا المشتقات المالية سابقًا إلى المحولات ، وأصبح التعويض لأكثر من مليون دولار في مناصب هندسية غير تنفيذية (أي المساهمين المستقلين الذين لا يديرون الفرق) هو القاعدة لقيادة مختبرات الذكاء الاصطناعي.

تغيير اتجاه سفينة سياحية كبيرة يستغرق بعض الوقت ؛ ، وأكمل جميع الإعداد والتصحيح.يستغرق الأمر وقتًا طويلاً حتى لأذكى المبرمجين للدخول حقًا إلى الحالة والتعرف على قواعد التعليمات البرمجية الحالية والبنية التحتية.

ولكن يمكنك أن تتخيل أن المال والقوى العاملة والطاقة المستثمرة في هذا المجال فلكي تمامًا.تعد Nvidia أكبر هدف لجميع المشاركين لأنهم أكبر مساهمين في أرباح اليوم ، وليس في المستقبل حيث تملي الذكاء الاصطناعي حياتنا.

لذلك ، فإن الاستنتاج الأكثر أهمية هو أن “السوق سيجد دائمًا مخرجًا” ، وسيجدون طرقًا جديدة بديلة ومبتكرة تمامًا لصنع الأجهزة ، باستخدام الأفكار الجديدة لتجاوز العقبات ، وبالتالي توحيد خندق Nvidia.

تهديدات على مستوى الأجهزة

على سبيل المثال ، تستخدم رقائق التدريب على الذكاء الاصطناعي “على مستوى الدماغ” على رقاقة السيليكون 300 مم بالكامل لشراقة ضخمة للغاية تحتوي لقد تناولوا قضايا الإخراج التي منعت هذا النهج من أن يكون عمليًا اقتصاديًا).

لتوضيح ذلك ، إذا قارنت أحدث شريحة WSE-3 لـ Cerebras مع GPU H100 في مركز البيانات الرائد في NVIDIA ، فإن مساحة الرقائق الكلية لرقاقة الدماغ هي 46225 ملليمتر مربع ، في حين أن H100 فقط 814 ملليمتر مربع (حسب معايير الصناعة ، و H100 إنها شريحة ضخمة في حد ذاتها) ؛بدلاً من تمكين 132 “متدفق متعدد المعالجات” على الشريحة مثل H100 ، تحتوي رقاقة الدماغ على حوالي 900000 نوى (بالطبع ، كل قلب أصغر وله ميزات أقل ، ولكن بالمقارنة ، لا يزال هذا الرقم كبيرًا جدًا).على وجه التحديد ، في مجال الذكاء الاصطناعي ، تبلغ قوة الحوسبة التي تتخبط في رقائق الدماغ حوالي 32 مرة من رقاقة H100 واحدة.نظرًا لأن سعر شريحة H100 يقترب من 40،000 دولار أمريكي ، فمن المتصور أن سعر شريحة WSE-3 ليس رخيصًا أيضًا.

إذن ، ما هي النقطة؟بدلاً من محاولة محاربة NVIDIA وجهاً لوجه مع نهج مماثل ، أو لتكنولوجيا الاتصال البينيوكس من Mellanox ، اعتمدت Cerebras نهجًا جديدًا تمامًا لتجاوز مشكلة الترابط: عندما يمتد كل شيء على الشريحة الفائقة الفائقة عندما تكون مشكلة النطاق الترددي بين المعالجات يصبح أقل أهمية.لا تحتاج حتى إلى نفس المستوى من التوصيل البيني ، حيث يمكن أن تحل الشريحة العملاقة محل أطنان من H100.

علاوة على ذلك ، يؤدي رقائق الدماغ أيضًا بشكل جيد للغاية في مهام الاستدلال الذكاء الاصطناعي.في الواقع ، يمكنك تجربته هنا مجانًا اليوم واستخدام نموذج LLAMA-3.3-70B الشهير من Meta.سرعة استجابةها هي في الأساس ، مع حوالي 1500 رمز في الثانية.من منظور المقارنة ، تكون سرعة أكثر من 30 رمزًا في الثانية سريعة نسبيًا للمستخدمين مقارنةً بـ ChatGPT و Claude ، وحتى 10 رموز في الثانية سريعة بما يكفي لتوليد استجابة أثناء توليد استجابة.

الدماغ ليست الشركة الوحيدة ، فهناك آخرون مثل Groq (لا يجب الخلط بينه وبين سلسلة نموذج Grok Model من Elon Musk من Elon Musk).يأخذ Groq مقاربة مبتكرة أخرى لمعالجة نفس المشكلة الأساسية.بدلاً من محاولة التنافس مباشرة مع مكدس برامج CUDA من NVIDIA ، قاموا بتطوير ما يعرف باسم “وحدة معالجة الموتر” (TPU) خصيصًا لعمليات الرياضيات الدقيقة المطلوبة لنماذج التعلم العميق.تم تصميم رقائقهم حول مفهوم “الحوسبة الحتمية” ، مما يعني أنه على عكس وحدات معالجة الرسومات التقليدية ، فإن رقائقها تؤدي عملياتها بطريقة يمكن التنبؤ بها تمامًا في كل مرة.

قد يبدو هذا بمثابة تفاصيل تقنية صغيرة ، ولكن له في الواقع تأثير كبير على تصميم الرقائق وتطوير البرمجيات.نظرًا لأن الوقت مؤكد تمامًا ، يمكن لـ GROQ تحسين رقائقها ، وهو أمر لا يمكن للبنى التقليدية في GPU القيام به.لذلك ، على مدار الأشهر الستة الماضية ، أظهروا سرعة الاستدلال لأكثر من 500 رمز في الثانية لنماذج سلسلة Llama وغيرها من نماذج المصادر المفتوحة ، مما يتجاوز بكثير السرعة التي يمكن أن تحققها إعدادات GPU التقليدية.مثل الدماغ ، هذا المنتج متاح الآن ويمكنك تجربته مجانًا هنا.

باستخدام نموذج LLAMA3 مع وظيفة “فك التشفير المضاربة” ، فإن Groq قادر على إنشاء 1320 رمزًا في الثانية ، وهو ما يشبه الدماغ ويتجاوز بكثير أداء استخدام وحدة معالجة الرسومات العادية.الآن ، قد تسأل ما يعنيه الوصول إلى أكثر من 1000 رمز في الثانية عندما يبدو أن المستخدمين راضين تمامًا عن سرعة ChatGpt (أقل من 1000 رمز في الثانية).في الواقع ، هذا مهم للغاية.عندما تحصل على ردود فعل فورية ، تكرار أسرع ولا تفقد التركيز كما يفعل عامل المعرفة الإنسانية.إذا كنت تستخدم النموذج برمجيًا من خلال واجهة برمجة التطبيقات ، فيمكنه تمكين فئات جديدة تمامًا من التطبيقات التي تتطلب استدلالًا متعدد المراحل (يتم استخدام إخراج المرحلة السابقة كمدخل لمطالبات/استنتاجات المرحلة اللاحقة) ، أو يتطلب استجابات منخفضة الإنشاء ، على سبيل المثال

ولكن بشكل أساسي ، كلما كانت الاستجابة للطلبات بشكل أسرع ، كلما كانت الدورة وأكثر انشغالًا للأجهزة.على الرغم من أن أجهزة Groq مكلفة للغاية ، حيث يتكلف خادم ما يتراوح بين 2 مليون دولار إلى 3 ملايين دولار ، إذا كان الطلب كبيرًا بما يكفي للحفاظ على الجهاز مشغولًا طوال الوقت ، يتم تقليل تكلفة كل طلب إلى حد كبير.

مثل Nvidia’s Cuda ، يأتي جزء كبير من نقاط قوة Groq من كومة البرامج الخاصة بها.تمكنوا من أخذ نماذج مفتوحة المصدر تم تطويرها وإطلاقها مجانًا من قبل شركات أخرى مثل Meta و Deepseek و Mistral ، وكسرها بطرق خاصة لجعلها تعمل بشكل أسرع على أجهزة محددة.

مثل الدماغ ، يتخذون قرارات فنية مختلفة لتحسين جوانب معينة من العملية ، وبالتالي تنفيذ عملهم بطريقة مختلفة تمامًا.خذ Groq كمثال ، فهي تركز تمامًا على الحوسبة على مستوى الاستدلال بدلاً من التدريب: يمكن لجميع أجهزة وبرامجها الخاصة أن تمارس فقط مزايا كبيرة للسرعة والكفاءة عند الاستدلال على النماذج المدربة بالفعل.

ولكن إذا كان القانون الرئيسي التالي للتوسع الذي يتوقعه الناس هو الحوسبة على مستوى الاستدلال ، وأكبر عيب في نموذج COT هو أنه يجب إنشاء جميع العلامات المنطقية المتوسطة للاستجابة ، مما يؤدي إلى زمن زمنية مفرطة ، حتى الشركة التي لا تدل فقط على الحوسبة ، طالما أن سرعته وكفاءته يتفوقون على NVIDIA ، فإنه سيؤدي أيضًا إلى تهديدات تنافسية خطيرة في السنوات القليلة المقبلة.على الأقل ، يمكن للمذاق و Groq تآكل التوقعات العالية لنمو إيرادات NVIDIA في تقييم الأسهم الحالي.

بصرف النظر عن هؤلاء المنافسين المبتكرون بشكل خاص ولكن غير معروفين نسبيًا ، فإن بعض عملاء NVIDIA أنفسهم قد جلبوا منافسة جادة ، الذين كانوا يصنعون رقائق مخصصة خصيصًا لتدريب الذكاء الاصطناعي وأعباء العمل المنطقية.أشهرها هي Google ، التي تقوم بتطوير TPU الخاص بها منذ عام 2016.ومن المثير للاهتمام ، على الرغم من أن Google قد باعت TPUs لفترة وجيزة للعملاء الخارجيين ، إلا أن Google تستخدم جميع TPUs داخليًا على مدار السنوات القليلة الماضية ، وقد أطلقت أجهزة TPU من الجيل السادس.

تقوم Amazon أيضًا بتطوير رقائقها المخصصة التي تسمى Tradium2 و Inferentia2.تقوم Amazon ببناء مراكز بيانات بمليارات الدولارات في وحدات معالجة الرسومات Nvidia ، بينما تستثمر أيضًا مليارات الدولارات في مراكز البيانات الأخرى التي تستخدم هذه الرقائق الداخلية.لديهم مجموعة الآن على الإنترنت من أجل الأنثروبور ، والتي لديها أكثر من 400000 رقائق.

تم انتقاد Amazon لتطوير نموذج AI الداخلي تمامًا ، مما يضيع الكثير من موارد الحوسبة الداخلية على النماذج التي لا تتمتع في نهاية المطاف بأي قدرة تنافسية ، لكن الرقائق المخصصة هي مسألة أخرى.مرة أخرى ، لا يحتاجون بالضرورة إلى أن تكون رقائقهم الخاصة أفضل وأسرع من Nvidia.كل ما يحتاجون إليه هو رقائق جيدة بما يكفي ، ولكن لصنع رقائق مع الهوامش الإجمالية ، بدلاً من الهامش الإجمالي البالغ 90 ٪ تقريبًا ، يكسب Nvidia أعمالها في H100.

أعلن Openai أيضًا عن خططهم لصنع رقائق مخصصة ، ومن الواضح أن (مع Microsoft) هم أكبر مستخدمي أجهزة مركز البيانات في NVIDIA.يبدو أن هذا لا يكفي ، أعلنت Microsoft نفسها رقاقة مخصصة خاصة بها!

باعتبارها شركة التكنولوجيا الأكثر قيمة في العالم ، عطلت Apple توقعات الناس لسنوات عديدة من خلال أعمالها المخصصة المبدعة للغاية. الأداء هو العامل الأكثر أهمية في تطبيقات الهاتف المحمول (الهاتف/الكمبيوتر اللوحي/الكمبيوتر المحمول).لسنوات ، قاموا بإنتاج وحدات معالجة الرسومات الخاصة بهم المصممة الداخلية و “المعالجات العصبية” ، على الرغم من أنهم لم يثبتوا حقًا التطبيق العملي لهذه الرقائق خارج تطبيقاتها المخصصة ، مثل معالجة الصور المتقدمة المستندة إلى البرمجيات المستخدمة في كاميرات iPhone .

على الرغم من أن Apple يبدو أنها مختلفة عن هؤلاء اللاعبين الآخرين ، فإن تركيزها على الهاتف المحمول الأول والموجه نحو المستهلك و “الحوسبة الحافة” ، إذا انتهت Apple في استثمار ما يكفي للتخيل أن لديهم فرقًا تعمل على كيفية صنع رقائقهم المخصصة الخاصة بهم للتفكير/التدريب (على الرغم من أنك قد لا تعرف ذلك أبدًا مباشرة ، بالنظر إلى سريةهم!).

الآن ، ليس سراً أن قاعدة عملاء NVIDIA Super Extender تعرض توزيعًا قويًا لقانون الطاقة ، حيث يمثل عدد قليل من العملاء الكبار عن الغالبية العظمى من إيرادات الأرباح العالية.كيف يجب أن ننظر إلى مستقبل هذا العمل عندما يقوم كل من عملاء VIP بعمل رقائق مخصصة خاصة بهم على وجه التحديد لتدريب الذكاء الاصطناعي والمنطق؟

عند التفكير في هذه القضايا ، يجب أن تتذكر حقيقة مهمة للغاية: Nvidia هي إلى حد كبير شركة تعتمد على الملكية الفكرية.إنهم لا يصنعون رقائقهم الخاصة.من المحتمل أن يكون سر صنع هذه الأجهزة المذهلة أكثر من TSMC و ASML ، مما يجعل آلات الطباعة الحجرية الخاصة بـ EUV لصنع رقائق العقدة المتطورة هذه.هذا أمر بالغ الأهمية لأن TSMC سوف تبيع رقائق حديثة إلى أي عميل على استعداد لتوفير استثمار مقدمًا كافيًا وضمان عدد معين من العملاء.إنهم لا يهتمون باستخدام هذه الرقائق لدوائر متكاملة محددة من Bitcoin ، ومعالجات الرسومات ، والبولي يوريثان بالحرارة ، والرقائق المستندة إلى نظام الهاتف المحمول ، وما إلى ذلك.

ما هو الدخل السنوي لكبار مصممي رقائق Nvidia ، وسيقوم عمالقة التكنولوجيا بالتأكيد بتقديم ما يكفي من المال والأسهم لجذب بعض من أفضل المواهب للقفز الوظائف.بمجرد أن يكون لديهم الفريق والموارد ، يمكنهم تصميم رقائق مبتكرة في غضون 2 إلى 3 سنوات (ربما لا يوجد حتى 50 ٪ متقدم من H100 ، ولكن مع هامش الربح الإجمالي في NVIDIA ، لا يزال لديهم مساحة كبيرة للتنمية) ، ، وبفضل TSMC ، يمكنهم استخدام تقنية عقدة العملية بالضبط مثل Nvidia لتحويل هذه الرقائق إلى رقائق السيليكون الفعلية.

تهديد البرمجيات

يبدو أن تهديدات الأجهزة الوشيكة هذه ليست سيئة بما فيه الكفاية ، وقد تم إحراز بعض التقدم أيضًا في قطاع البرمجيات على مدار السنوات القليلة الماضية ، وعلى الرغم من أنها بداية بطيئة ، إلا أنها أصبحت قوية الآن وقد تشكل تهديدًا خطيرًا لـ Nvidia’s Cuda هيمنة البرمجيات.الأول هو برنامج تشغيل Linux السيئ لـ AMD GPU.تذكر عندما ناقشنا لماذا سمحت AMD بشكل غير مقبول أن يكون هؤلاء السائقين سيئين للغاية لسنوات ، ولكن الجلوس ومشاهدة الكثير من المال يختفي؟

ومن المثير للاهتمام ، أن المتسلل الشهير جورج هوتز ، المعروف بكونه على جيلات iPhone الأصلي عندما كان مراهقًا ، يشغل حاليًا منصب الرئيس التنفيذي لشركة بدء التشغيل الذاتي. أعلن أنه سئم من التعامل مع برامج التشغيل السيئة لـ AMD وكان حريصًا على أن يكون قادرًا على استخدام GPU AMD الأقل تكلفة في جهاز الكمبيوتر Tinybox AI الخاص به (هي مجموعة متنوعة من النماذج ، والتي يستخدم بعضها GPU NVIDIA ، في حين أن البعض الآخر يستخدم AMD GPU).

في الواقع ، قام بتصنيع برامج تشغيل مخصصة ومكدس برمجيات AMD دون مساعدة AMD ؛ لدينا برامج التشغيل الخاصة بنا وأوقاتها الخاصة والمكتبات والمحاكيات. وحدات معالجة الرسومات لتلبية احتياجات مختلف الطلبات ، ويتعين على الشركات حاليًا دفع ثمن وحدات معالجة الرسومات Nvidia.

حسنًا ، هذا مجرد سائق لـ AMD ولم يتم ذلك بعد.ماذا بعد؟حسنًا ، هناك مجالات أخرى لها تأثير أكبر على البرامج.بادئ ذي بدء ، تعمل العديد من شركات التكنولوجيا الكبيرة ومجتمعات البرمجيات مفتوحة المصادر معًا لتطوير أطر برامج الذكاء الاصطناعى بشكل عام ، من بينها CUDA واحدة من “أهداف التجميع” العديدة.

أي أنك تكتب برنامجًا باستخدام تجريدات المستوى الأعلى ، ويمكن للنظام نفسه تحويل هذه الهياكل عالية المستوى تلقائيًا إلى رمز منخفض المستوى محسّن ، والذي يعمل بشكل رائع على CUDA.ولكن نظرًا لأنه يتم في هذا المستوى الأعلى من التجريد ، يمكن تجميعه بسهولة في رمز منخفض المستوى ، وبالتالي يعمل بشكل جيد على العديد من وحدات معالجة الرسومات و TPUs الأخرى التي تأتي من مختلف البائعين ، مثل العدد الكبير من الرقائق المخصصة يجري تطويرها من قبل شركات التكنولوجيا.

الأمثلة الأكثر شهرة على هذه الأطر هي MLX (برعاية Apple بشكل رئيسي) و Triton (برعاية بشكل رئيسي Openai) و Jax (تم تطويرها بشكل رئيسي بواسطة Google).يعد MLX مثيرًا للاهتمام بشكل خاص لأنه يوفر واجهة برمجة تطبيقات تشبه Pytorch والتي يمكن أن تعمل بكفاءة على سيليكون Apple ، مما يوضح كيف تتيح طبقات التجريد هذه أعباء عمل منظمة العفو الدولية للتشغيل على بنيات مختلفة تمامًا.وفي الوقت نفسه ، أصبح Triton أكثر شيوعًا لأنه يتيح للمطورين كتابة رمز عالي الأداء يمكن تجميعه لتشغيله على مجموعة متنوعة من أهداف الأجهزة دون الحاجة إلى فهم التفاصيل الأساسية لكل منصة.

تتيح هذه الأطر المطورين أن يكتبوا رمزًا بتجريدات قوية ثم يتم تجميعها تلقائيًا مقابل عدد كبير من المنصات – ألا يبدو هذا أكثر كفاءة؟يوفر هذا النهج مرونة أكبر عند تشغيل الرمز بالفعل.

في الثمانينيات من القرن الماضي ، تمت كتابة جميع البرامج الأكثر شعبية والأكثر مبيعًا بلغة تجميع معدلة يدويًا.على سبيل المثال ، تكون أداة ضغط PKZIP مصنوعة يدويًا لزيادة السرعة إلى الحد الأقصى لدرجة أن إصدار الكود المكتوب بلغة البرمجة C القياسية وتجميعه بأفضل مترجم تحسين في ذلك الوقت قد يتم تشغيله فقط في رمز تجميع يدوي فقط.وينطبق الشيء نفسه على حزم البرامج الشائعة الأخرى مثل WordStar و VisicalC ، إلخ.

بمرور الوقت ، أصبح المترجمون أكثر قوة ، وكلما تغيرت بنية وحدة المعالجة المركزية (على سبيل المثال ، من INTEL الإصدار 486 إلى Pentium ، إلخ) ، عادة ما يجب التخلص من المجمعات المكتوبة بخط اليد وإعادة كتابتها ، فقط المبرمج الذكي فقط قم بالمهمة (تمامًا مثل خبير CUDA أفضل من مطور البرمجيات “العادي” في سوق العمل).في نهاية المطاف ، أصبحت الأمور تدريجيًا متسقة ، وتفوقت ميزة السرعة على التجميع اليدوي بشكل كبير من خلال مرونة كود الكتابة بلغات عالية المستوى مثل C أو C ++ ، والتي تعتمد على المترجم لجعل الكود يعمل في أفضل حالاته على أعطى وحدة المعالجة المركزية.

في الوقت الحاضر ، يكتب قلة من الناس رمزًا جديدًا بلغة التجميع.أعتقد أن رمز تدريب الذكاء الاصطناعى واستدلاله سيخضع لتحول مماثل لنفس الأسباب تقريبًا: أجهزة الكمبيوتر جيدة في التحسين ، في حين أن المرونة وسرعة التطوير هي عوامل متزايدة – خاصةً إذا كانت توفر أيضًا الكثير من تكاليف الأجهزة ، لأنك لا تلبس يجب أن تستمر في دفع “ضريبة CUDA” ، التي تجلب Nvidia أكثر من 90 ٪ من أرباحها.

ومع ذلك ، فإن هناك مجالًا آخر يمكن أن يتغير بشكل كبير هو أن CUDA نفسها قد تنتهي إلى أن تصبح تجريدًا عالي المستوى-“لغة قريبة” تشبه Verilog (كمعيار للصناعة لوصف تخطيطات الرقائق) التي يمكن للمطورين المهرة استخدامها لوصف الخوارزميات المتقدمة إشراك التوازي على نطاق واسع (لأنها على دراية بها بالفعل ، إنها منظمة جيدًا ، هي لغة شائعة ، وما إلى ذلك) ، ولكن على عكس الممارسة المعتادة ، لا يتم تجميع هذه الرموز لصالح NVIDIA GPUs ، ولكنها مدخلات إلى LLM يمكن لـ Source Code ، LLM تحويله إلى أي رمز منخفض المستوى يمكن فهمه بواسطة رقائق الدماغ الجديدة أو Amazon Treerium2 أو Google TPUV6 الجديد.هذا ليس بعيدًا كما تعتقد ؛

تهديد نظري

ربما حدث التطوير الأكثر إثارة للصدمة في الأسابيع السابقة.لقد صدمت الأخبار تمامًا عالم الذكاء الاصطناعي ، وعلى الرغم من أن وسائل الإعلام الرئيسية لم تذكرها ، إلا أنها أصبحت موضوعًا ساخنًا للمثليين على Twitter: تم إصدار ناشئة صينية تسمى Deepseek في نموذج جديد. Openai و Anthropic (ما وراء نموذج Meta Llama3 ونماذج أخرى مفتوحة المصدر الأصغر مثل Mistral).تسمى هذه النماذج Deepseek-V3 (في الأساس استجابة لـ GPT-4O و Claude3.5 Sonnet) و Deepseek-R1 (في الأساس استجابة لنموذج Openai O1).

لماذا كل هذا مروع جدا؟أولاً ، ديبسيك هي شركة صغيرة يقال إن لديها أقل من 200 موظف.يقال إنهم بدأوا كصندوق تحوط تداول كمي على غرار Twosigma أو Rentec ، ولكن بعد أن صعدت الصين لتنظيمها في هذا المجال ، استخدموا خبرتهم في الرياضيات والهندسة في أبحاث الذكاء الاصطناعي.ولكن الحقيقة هي أنهم أصدروا تقريرين تقنيين مفصلين للغاية ، وهما Deepseek-V3 و DeepSeekr1.

هذه تقارير عالية التقنية ، وإذا لم تكن تعرف شيئًا عن الجبر الخطي ، فقد يكون من الصعب فهمها.ولكن ما يجب أن تجربه هو تنزيل تطبيق DeepSeek مجانًا على AppStore ، وتسجيل الدخول وتثبيته باستخدام حساب Google الخاص بك ، ثم جربه (يمكنك أيضًا تثبيته على Android) ، أو تجربته مباشرة على سطح المكتب الخاص بك مع متصفح.تأكد من تحديد خيار “DeepThink” لتمكين سلسلة التفكير (نموذج R1) والسماح لها بتوضيح بعض محتويات التقرير الفني بلغة بسيطة.

هذا سيخبرك أيضًا ببعض الأشياء المهمة:

بادئ ذي بدء ، هذا النموذج قانوني للغاية.هناك العديد من المكونات الخاطئة في معايير الذكاء الاصطناعى التي غالباً ما يتم معالجتها لجعل النموذج يعمل بشكل جيد في المعايير ولكن ليس في الاختبارات في العالم الحقيقي.إن Google هي بلا شك أكبر سبب في هذا الصدد ، وتفاخرون دائمًا بمدى سحرية LLM ، ولكن في الواقع ، فإن هذه النماذج تؤدي بشكل سيئ في الاختبارات في العالم الحقيقي ولا يمكنها حتى إكمال أبسط المهام بشكل موثوق ، ناهيك عن مهمة تشفير صعبة .يختلف نموذج Deepseek ، واستجابته متماسكة وقوية ، وهو في نفس مستوى النماذج Openai و Anthropic.

ثانياً ، لم أحرز Deepseek تقدمًا كبيرًا في جودة النموذج ، ولكن الأهم من ذلك ، حقق تقدمًا كبيرًا في التدريب النموذجي وكفاءة الاستدلال.من خلال أن تكون قريبًا جدًا من الأجهزة وبشكل بعض التحسينات الفريدة والذكية للغاية ، فإن Deepseek قادر على تدريب هذه النماذج المذهلة باستخدام وحدات معالجة الرسومات بطريقة أكثر كفاءة.وفقًا لبعض القياسات ، فإن Deepseek أكثر كفاءة بنحو 45 مرة من النماذج المتطورة الأخرى.

يدعي Deepseek أن التكلفة الكاملة للتدريب Deepseek-V3 لا تزيد عن 5 ملايين دولار.وفقًا لمعايير Openai ، والأنثروبولوجيا والشركات الأخرى ، فإن هذا ليس شيئًا على الإطلاق ، لأن هذه الشركات وصلت إلى مستوى تكلفة تدريب نموذجية واحدة تزيد عن 100 مليون دولار في وقت مبكر من عام 2024.

كيف هذا ممكن؟كيف يمكن أن تتجاوز هذه الشركة الصينية الصغيرة جميع أذكى الأشخاص في مختبرات AI الرائدة التي لديها أكثر من 100 مرة من الموارد وعدد الموظفين والرواتب ورأس المال و GPUs والمزيد؟ألا ينبغي أن تضعف الصين بسبب قيود بايدن على صادرات GPU؟حسنًا ، التفاصيل تقنية تمامًا ، لكن يمكننا على الأقل وصفها بطريقة عامة.ربما اتضح أن قوة معالجة GPU الضعيفة نسبيًا في Deepseek هي بالضبط العامل الرئيسي في تحسين إبداعها وذكائها ، لأن “الطلب هو أم الاختراع”.

أحد الابتكار الرئيسي هو إطار التدريب المتقدم للتدريب على الدقة الهجينة والذي يتيح لهم استخدام أرقام نقاط عائمة 8 بت (FP8) خلال عملية التدريب.يتدرب معظم مختبرات AI الغربية باستخدام أرقام 32 بت من “الدقة الكاملة” (هذا يحدد أساسًا عدد التدرجات الممكنة عند وصف إخراج الخلايا العصبية الاصطناعية ؛ 8 بت في FP8 يمكنها تخزين مجموعة واسعة من الأرقام مما تعتقد- تقتصر على 256 كميات متساوية من الأحجام المختلفة في الأعداد الصحيحة العادية ، ولكنها تستخدم الحيل الرياضية الذكية لتخزين أعداد صغيرة جدًا وكبيرة جدًا – على الرغم من أن الدقة الطبيعية ليست جيدة مثل 32 بت. يتم تخزينها بدقة مذهلة على نطاق كبير ، ولكن FP8 يضحى ببعض الدقة لتوفير الذاكرة وتحسين الأداء مع الحفاظ على دقة كافية للعديد من عبء عمل الذكاء الاصطناعي.

يحل Deepseek هذه المشكلة من خلال تطوير نظام ذكي يحطم الأرقام إلى أجزاء صغيرة للتنشيط والقطع للأوزان ويستخدم حسابات عالية الدقة في النقاط الرئيسية في الشبكة.على عكس المختبرات الأخرى التي تقوم بتدريب عالي الدقة أولاً ثم الضغط (الذي يفقد بعض الجودة في هذه العملية) ، فإن النهج الأصلي لـ DeepSeek’s FP8 يعني أنه يمكنهم توفير الكثير من الذاكرة دون المساس بالأداء.عندما تتدرب مع الآلاف من وحدات معالجة الرسومات ، يتم تقليل متطلبات الذاكرة لكل وحدة معالجة الرسومات إلى حد كبير ، مما يعني أن العدد الإجمالي من وحدات معالجة الرسومات المطلوبة يتم تقليله إلى حد كبير.

آخر تقدم كبير هو نظام التنبؤ متعدد العلامات.تستنتج معظم نماذج LLM المستندة إلى المحولات عن طريق التنبؤ بالعلامة التالية-علامة واحدة في وقت واحد.

اكتشف Deepseek كيفية التنبؤ بعلامات متعددة مع الحفاظ على جودة تنبؤات علامة واحدة.تحقق طريقتها دقة حوالي 85-90 ٪ في هذه التنبؤات الإضافية ، تضاعف سرعة الاستدلال بشكل فعال دون التضحية بالكثير من الجودة.الشيء الذكي هو أنهم يحافظون على السلسلة السببية الكاملة للتنبؤات ، وبالتالي فإن النموذج ليس مجرد تخمين ، بل تنبؤًا منظمًا حساسًا للسياق.

أحد أكثر تطوراتها ابتكارًا هو ما يطلق عليه الاهتمام المحتمل الطويل (MLA).هذا هو اختراقهم في التعامل مع ما يسمى فهارس القيمة الرئيسية ، والتي هي أساسا كيف يتم تمثيل رمز واحد في آلية الانتباه في بنية المحولات.في حين أن هذا أمر معقد بعض الشيء من وجهة نظر فنية ، يمكن القول أن فهارس KV هذه هي واحدة من الاستخدامات الرئيسية لـ VRAM أثناء التدريب والاستدلال ، وجزء من السبب في حاجة الآلاف من وحدات معالجة الرسومات لتدريب هذه النماذج في الوقت نفسه – كل أقصى VRAM ل GPU هو 96 جيجابايت ، وستأكل هذه الفهارس كل هذه الذاكرة.

وجد نظام MLA الخاص بهم طريقة لتخزين إصدارات مضغوطة من هذه الفهارس التي تستخدم ذاكرة أقل أثناء التقاط المعلومات الأساسية.أفضل جزء هو أن هذا الضغط مبني مباشرة بالطريقة التي يتم بها تعلم النموذج-إنها ليست خطوة واحدة يحتاجون إلى القيام بها ، ولكن تم تصميمها مباشرة في خط أنابيب تدريب شامل.هذا يعني أن الآلية بأكملها “قابلة للتفاضلة” ويمكن تدريبها مباشرة باستخدام محسنات قياسية.السبب في نجاحه هو أن تمثيلات البيانات الأساسية التي وجدتها هذه النماذج كانت أقل بكثير من ما يسمى “البعد البيئي”.لذا فإن تخزين مؤشر KV الكامل هو مضيعة ، على الرغم من أن كل شخص آخر يفعل ذلك بشكل أساسي.

لا يقتصر هناك الكثير من المساحة التي تضيع بسبب تخزين كميات هائلة من البيانات التي تتجاوز الطلب الفعلي ، مما يؤدي إلى زيادة كبيرة في انبعاثات ذاكرة التدريب والكفاءة (مرة أخرى ، عدد وحدات معالجة الرسومات المطلوبة لتدريب نموذج المستوى العالمي بشكل كبير مخفضة) ، ولكن يمكن أن يحسن في الواقع جودة النموذج لأنه يمكن أن يكون بمثابة “منظم” لإجبار النموذج على التركيز على ما هو مهم حقًا ، بدلاً من استخدام القدرة الضائعة للتكيف مع الضوضاء في بيانات التدريب.لذلك ليس فقط حفظ الكثير من الذاكرة ، ولكن الطراز الخاص بك قد يكون أداء أفضل.على الأقل ، لن تؤثر بشكل خطير على الأداء من خلال توفير الكثير من الذاكرة ، والتي عادة ما تكون المفاضلة التي تواجهها في تدريب الذكاء الاصطناعي.

لقد أحرزوا أيضًا تقدمًا كبيرًا في كفاءة اتصال GPU من خلال خوارزمية DualPipe و CORES المخصصة.يتداخل النظام بذكاء الحوسبة والاتصالات ، وموازنة موارد GPU بعناية بين المهام.إنهم يحتاجون فقط إلى حوالي 20 وحدات معالجة الرسومات من معالجات الدفق (SM) للتواصل ، ويستخدم الباقي للحوسبة.والنتيجة هي أن استخدام GPU أعلى بكثير من إعدادات التدريب النموذجية.

شيء آخر ذكي للغاية يفعلونه هو استخدام بنية محول الخبراء الهجين (MOE) المزعوم ، ولكن يتم إجراء الابتكارات الرئيسية حول موازنة التحميل.كما تعلمون ، عادة ما يتم قياس حجم أو سعة نموذج الذكاء الاصطناعي بعدد المعلمات التي يحتوي عليها النموذج.المعلمة هي مجرد رقم يخزن خصائص معينة من النموذج ؛ ، إلخ.

يأتي أحدث طراز LLAMA3 من META بأحجام متعددة ، مثل: 1 مليار نسخة من المعلمة (الحد الأدنى) ، ونموذج المعلمة 70B (الأكثر استخدامًا) ، وحتى نموذج كبير مع معلمات 405B.بالنسبة لمعظم المستخدمين ، فإن هذا النموذج الأكبر له تطبيق عملي محدود ، حيث يحتاج جهاز الكمبيوتر الخاص بك إلى تزويد GPU بقيمة عشرات الآلاف من الدولارات لتشغيل الاستدلال بسرعة مقبولة ، على الأقل إذا كنت تنشر الإصدار الأصلي الدقيق.لذا فإن معظم نقاط الاستخدام والإثارة في هذه النماذج المفتوحة المصدر في العالم الحقيقي هي في معلمة 8B أو مستوى 70B الكمي للغاية ، لأن هذا هو ما يمكن أن يستوعبه وحدة معالجة الرسومات NVIDIA 4090 من فئة المستهلك ، والآن يمكنك شرائها من أجلها أقل من 1000 دولار الآن.

إذن ، ما الهدف من هؤلاء؟بمعنى ما ، يمكن أن يخبرك عدد ودقة المعلمات كمية المعلومات أو البيانات الخام المخزنة داخل النموذج.يرجى ملاحظة أنني لا أتحدث عن قدرة التفكير ، أو “الذكاء” للنموذج: اتضح أنه حتى النماذج التي تحتوي على عدد قليل جدًا من المعلمات يمكن حلها من حيث حل مشاكل المنطق المعقدة ، وإثبات نظريات هندسة الطائرة ، والمشاكل الرياضية SAT ، إلخ. إظهار قدرات معرفية ممتازة.

لكن هذه النماذج الصغيرة لا تخبرك بالضرورة بكل جانب من جوانب كل مؤامرة في رواية Stendhal ، والنماذج الكبيرة الحقيقية لديها القدرة على القيام بذلك.”تكلفة” هذا المستوى المتطرف من المعرفة هو أن النموذج يصبح ضخمًا ويصعب تدريبه والعقل ، لأنه من أجل التفكير في النموذج ، تحتاج دائمًا إلى تخزين كل من المعلمات 405B (أو أي عدد من المعلمات) في نفس الوقت في VRAM من وحدة معالجة الرسومات.

تتمثل ميزة نهج نموذج MOE في أنه يمكنك تقسيم النماذج الكبيرة إلى سلسلة من النماذج الأصغر ، ولكل منها معرفة مختلفة وغير متداخلة (على الأقل ليست متداخلة تمامًا).يقوم ابتكار Deepseek بتطوير استراتيجية موازنة التحميل التي يطلق عليها “لا توجد خسائر بمساعدة” تبقي الخبراء في استخدامها بكفاءة دون تدهور الأداء الذي عادة ما يجلب موازنة التحميل.بعد ذلك ، بناءً على طبيعة طلب الاستدلال ، يمكنك توجيه الاستدلال بذكاء إلى النموذج “الخبير” في النموذج الأصغر في المجموعة التي تجيب على السؤال أو حل المهمة.

يمكنك أن تفكر في الأمر باعتباره لجنة من الخبراء الذين لديهم مجالات خبرتهم الخاصة: يمكن للمرء أن يكون خبيرًا قانونيًا ، والآخر يمكن أن يكون خبيرًا في علوم الكمبيوتر ، والآخر يمكن أن يكون خبيرًا في استراتيجية الأعمال.لذلك إذا طرح شخص ما سؤالًا حول الجبر الخطي ، فلن تعطيه خبيرًا قانونيًا.بالطبع ، هذا مجرد تشبيه تقريبي للغاية ، وهو ليس هكذا في الواقع.

الميزة الحقيقية لهذا النهج هي أنه يسمح للنموذج باحتواء الكثير من المعرفة دون أن يكون ضخمًا للغاية ، لأنه حتى لو كان إجمالي عدد المعلمات لجميع الخبراء مرتفعًا ، إلا أن نسبة مئوية صغيرة فقط تكون في “نشطة” بالنظر إلى الوقت ، مما يعني أنك تحتاج فقط إلى تخزين مجموعة فرعية صغيرة من الأوزان في VRAM لإثارة الاستدلال.خذ Deepseek-V3 كمثال ، يحتوي على طراز MOE ضخم للغاية مع 671B معلمات ، وهو أكبر بكثير من أكبر طراز LLAMA3 ، ولكن 37B معلمات فقط نشطة في أي وقت من الأوقات-بما في ذلك لاستيعاب اثنين من VRAM للدراسة المستهلك NVIDIA 4090 GPU (إجمالي التكلفة أقل من 2000 دولار) بدون وحدات معالجة الرسومات 1 أو أكثر من H100 ، يتم بيع كل منها بحوالي 40،000 دولار.

هناك شائعات تفيد بأن كلا من شاتغبت وكلود يستخدمون بنية MOE.على الرغم من أن هذا أسهل بكثير من وضع جميع المعلمات البالغ عددها 1.8 تريليون في VRAM ، نظرًا للكمية الضخمة من الذاكرة المستخدمة ، فإنه يتطلب من وحدات معالجة الرسومات على مستوى H100 متعددة لتشغيل النموذج وحده.

بالإضافة إلى المحتوى أعلاه ، تذكر الورقة الفنية أيضًا العديد من التحسينات الرئيسية الأخرى.ويشمل ذلك إطار التدريب الموفر للذاكرة للغاية الذي يتجنب التوازي المتكرر ، ويعيد حساب بعض العمليات أثناء الترسيب الخلفي بدلاً من تخزينها ، ويشارك المعلمات بين النموذج الرئيسي ووحدة التنبؤ الإضافية.إن مجموع كل هذه الابتكارات ، عندما يتم تجميعها معًا ، يؤدي إلى حوالي 45 مرة من أرقام تحسين الكفاءة المتداولة عبر الإنترنت ، وأنا على استعداد تمامًا للاعتقاد بأن هذه الأرقام صحيحة.

تعد تكلفة API الخاصة بـ Deepseek دليلًا قويًا: على الرغم من أن أداء نموذج Deepseek هو الأفضل تقريبًا في الفصل ، إلا أن تكلفة تقديم طلبات الاستدلال من خلال واجهة برمجة التطبيقات الخاصة بها أقل بنسبة 95 ٪ من النماذج المماثلة في Openai و Hothropic.بمعنى ما ، يشبه إلى حد ما مقارنة وحدات معالجة الرسومات NVIDIA للمنافسين الجديدة المخصصة: حتى لو لم تكن جيدة ، فهي أكثر فعالية من حيث التكلفة ، طالما يمكنك تحديد مستوى الأداء وإثبات أنه ما يكفي من تلبية متطلباتك ، وتوافر واجهة برمجة التطبيقات (API) جيدة بما فيه الكفاية (حتى الآن ، يفاجأ الناس بأداء البنية التحتية لـ Deepseek ، على الرغم من زيادة الطلب المذهلة بسبب أداء هذه النماذج الجديدة).

ولكن على عكس حالة NVIDIA ، يرجع اختلاف التكلفة في NVIDIA إلى استحواذها على أكثر من 90 ٪ من الربح الإجمالي الاحتكاري على منتجات مركز البيانات ، في حين أن الفرق في تكلفة Deepseek API مقارنةً بـ Openai و APIs الأنثروبور قد تكون فقط لأن كفاءة الحوسبة قد تحسنت بحوالي 50 الأوقات (ربما أكثر من ذلك بكثير من حيث التفكير – حوالي 45 مرة أكثر كفاءة من حيث التدريب).في الواقع ، من غير الواضح ما إذا كان Openai و Anthropic يحققون أرباحًا ضخمة من خدمات API – فقد يكونون أكثر قلقًا بشأن نمو الإيرادات وجمع المزيد من البيانات من خلال تحليل جميع طلبات API المستلمة.

قبل المتابعة ، يجب أن أشير إلى أن الكثير من الناس يتكهنون بأن Deepseek كذبوا حول عدد وحدات معالجة الرسومات والوقت الذي استغرقته لتدريب هذه النماذج لأن لديهم بالفعل أكثر من H100 مما يدعون بسبب قيود التصدير لهذه البطاقات. يريدون أن يسببوا مشكلة لأنفسهم ، ولا يريدون إيذاء فرصهم في الحصول على المزيد من هذه البطاقات.على الرغم من أن هذا أمر ممكن بالتأكيد ، إلا أنني أعتقد أنهم أكثر عرضة لقول الحقيقة ، فقد حققوا هذه النتائج المذهلة فقط من خلال إظهار الذكاء والإبداع العالي للغاية في أساليب التدريب والتفكير.لقد شرحوا مقاربتهم ، وأعتقد أن الأمر لم يكن سوى مسألة وقت قبل أن يتم تكرار نتائجهم على نطاق واسع وتأكيده من قبل باحثين آخرين في المختبرات الأخرى.

نموذج مدروس حقًا

قد يكون طراز R1 المحدث والتقارير الفنية أكثر إثارة للصدمة لأنها تغلب على الأنثروبور على سلسلة التفكير ، والآن ، هو في الأساس هو الوحيد الذي يجعل التكنولوجيا تعمل على نطاق واسع ، باستثناء Openai.ولكن يرجى ملاحظة أن Openai لن يتم إصدار نموذج معاينة O1 في منتصف سبتمبر 2024.كان ذلك منذ حوالي 4 أشهر!شيء واحد يجب أن تتذكره هو أن Openai سرية للغاية حول كيفية عمل هذه النماذج فعليًا على مستوى منخفض ، ولن تكشف عن الأوزان النموذجية الفعلية لأي شخص باستثناء شركاء مثل Microsoft الذين وقعوا اتفاقيات سرية صارمة.نماذج Deepseek مختلفة تمامًا ، فهي مفتوحة المصدر تمامًا ولها تراخيص فضفاضة.لقد نشروا تقارير تقنية مفصلة للغاية تشرح كيفية عمل هذه النماذج وتوفير الكود الذي يمكن لأي شخص عرضه ومحاولة نسخه.

مع R1 ، يحل Deepseek مشكلة في مجال الذكاء الاصطناعي بشكل أساسي: ترك النماذج تسبب تدريجياً دون الاعتماد على مجموعات البيانات الكبيرة الخاضعة للإشراف.تُظهر تجارب Deepseek-R1-Zero هذا: باستخدام التعلم التعزيز الخالص مع وظائف المكافأة المصممة جيدًا ، فإنها تمكنين من السماح للنموذج بتطوير قدرات الاستدلال المعقدة بشكل مستقل تمامًا.إنه ليس مجرد حل للمشكلات-ويتعلم النموذج عضويًا توليد التفكير طويل السلسلة ، وتحديد عمله ، ويخصص وقتًا حسابيًا لمشاكل أكثر صعوبة.

الاختراقات التكنولوجية هنا هي طرق نمذجة المكافآت الجديدة.بدلاً من استخدام نماذج المكافآت العصبية المعقدة ، قاموا بتطوير نظام ذكي يعتمد على القواعد ، مما قد يؤدي إلى “مكافأة المتسللين” (أي أن النموذج يحسن المكافآت بطريقة خاطئة ، لكنه لا يحسن الأداء الحقيقي للنموذج). ، اجمع مكافآت الدقة (تحقق من الإجابات النهائية) مع مكافآت التنسيق (تشجيع التفكير المنظم).أثبت هذا النهج الأبسط أنه أكثر قوة وقابلية للتطوير من نموذج المكافآت القائم على العملية الذي جربه الآخرون.

ما هو رائع بشكل خاص هو أنه خلال عملية التدريب ، لاحظوا ما يسمى “اللحظات المفاجئة” ، حيث يتعلم النموذج تلقائيًا تعديل عملية تفكيره في منتصف الطريق عند مواجهة عدم اليقين.هذا النوع من السلوك المفاجئ ليس برنامجًا مكتوبًا مسبقًا ، ولكن يتم إنشاؤه بشكل طبيعي من خلال التفاعل بين النموذج وبيئة التعلم التعزيز.سيتوقف النموذج حقًا ، ويمثل المشكلات المحتملة في التفكير ، ثم يبدأ من جديد بنهج مختلف ، لا يتم تدريب أي منها بشكل صريح.

يعتمد نموذج R1 الكامل على هذه الأفكار ، حيث يقدم ما يسمونه بيانات “بدء البرد”-مجموعة صغيرة من الأمثلة عالية الجودة قبل تطبيق تكنولوجيا التعلم التعزيز.كما أنها تحل مشكلة كبيرة في نموذج الاستدلال: تناسق اللغة.غالبًا ما يؤدي التفكير في سلسلة التفكير التي تم تجربتها سابقًا إلى خلط نماذج لغات متعددة أو إنتاج إخراج غير متماسك.يحل Deepseek هذه المشكلة من خلال اتساق اللغة المكافأة بمهارة أثناء التدريب على RL ، والتجارة لخسائر الأداء الأصغر لمزيد من الإنتاج القابل للقراءة والأكثر اتساقًا.

النتائج لا تصدق: R1 لديها دقة 79.8 ٪ في AIME 2024 ، واحدة من أكثر مسابقات الرياضيات في المدارس الثانوية ، والتي تشبه نموذج O1 Openai.في MATH-500 ، وصلت إلى 97.3 ٪ ، وسجل 96.3 ٪ في مسابقة برمجة Codeforces.ولكن ربما يكون الأكثر إثارة للإعجاب هو أنهم تمكنوا من تقطير هذه القدرات في نماذج أصغر: إن إصدار المعلمة 14B الخاص بهم يعمل بشكل أفضل من العديد من النماذج التي تكون أكبر عدة مرات ، مما يشير إلى أن قدرة الاستدلال لا ترتبط فقط بعدد المعلمات الأصلية ، ولكن أيضًا لديها شيء يتعلق بكيفية تدريب النموذج لمعالجة المعلومات.

بعد

تتمثل الشائعات الأخيرة التي تدور حول Twitter and Blind ، وهي موقع شائعات للشركات ، في أن هذه النماذج تتجاوز تمامًا توقعات Meta ، وحتى أنها تتفوق على نموذج Llama4 الجديد الذي لا يزال مدربًا.على ما يبدو ، اجتذب مشروع LLAMA Inside Meta انتباه كبار القادة التقنيين ، لذلك لديهم حوالي 13 شخصًا يدرسون لاما ، وكل واحد منهم لديه إجمالي راتب سنوي يتجاوز تكلفة تدريب نموذج Deepseek-V3 ، وهو Deepseek -v3 نموذج.كيف تشرح لزوكربيرج على محمل الجد؟عندما يتم تدريب نماذج أفضل مع 2000 H100 ، وتكلف أقل من 5 ملايين دولار ، استثمر Zuckerberg مليارات الدولارات في Nvidia لشراء 100000 H100 ، كيف يمكن أن يبتسم؟

لكن من الأفضل أن تصدق أن Meta وغيرها من مختبرات الذكاء الاصطناعى الكبيرين تدمرون هذه النماذج العميقة ، حيث تبحث عن كل كلمة في التقرير الفني وكل سطر في الكود المفتوح المصدر الذي ينشرونه ، ويحاولون بشكل يائس دمج هذه الحيل والتحسينات نفسها عملية التدريب والتفكير.إذن ، ما هو تأثير كل هذا؟حسنًا ، أعتقد بسذاجة أن إجمالي الطلب على حسابات التدريب والاستدلال يجب أن يقسم عدد كبير.ربما ليس 45 ، ولكن 25 أو حتى 30؟لأنه بغض النظر عن المبلغ الذي تعتقد أنك بحاجة إليه من قبل ، هناك الآن أقل بكثير.

قد يقول المتفائلون ، “أنت تتحدث فقط عن ثابت نسبي بسيط ، وهو مضاعف واحد. عندما تواجه منحنى نمو هائل ، ستختفي هذه الأشياء بسرعة ولن تكون مهمة في النهاية.” الحقيقة: إذا كانت الذكاء الاصطناعى تحويليًا كما كنت أتوقع ، إذا تم قياس الأداة الفعلية لهذه التكنولوجيا في تريليونات ، إذا كان حساب الوقت المستنتج هو قانون التوسع الجديد ، إذا كان لدينا عدد كبير من الروبوتات البشرية ، فسيستمرون لجعل الكثير من الاستدلالات ، ثم ربما لا يزال منحنى النمو شديد الانحدار والمتطرفة ، لا يزال Nvidia متقدمًا ، وسيظل ينجح.

لكن Nvidia سيكون لديها الكثير من الأخبار الجيدة في السنوات القادمة للحفاظ على تقييمها ، وعندما تأخذ كل هذه العوامل في الاعتبار ، بدأت على الأقل أشعر بالضيق من شراء أسهمها في 20 ضعف مبيعاتها المتوقعة في عام 2025 .ماذا لو كان نمو المبيعات يبطئ قليلاً؟ماذا لو كان معدل النمو لا يتجاوز 100 ٪ ، ولكن 85 ٪؟ماذا سيحدث إذا انخفض الهامش الإجمالي من 75 ٪ إلى 70 ٪ ، والذي لا يزال مرتفعًا بالنسبة لشركات أشباه الموصلات؟

لخص

من منظور الماكرو ، تواجه Nvidia تهديدات تنافسية غير مسبوقة ، مما يجعل مبيعاتها الأمامية بنسبة 20X وهامش الربح الإجمالي بنسبة 75 ٪ من الصعب على نحو متزايد تبرير تقييمها المرتفع.ظهرت جميع مزايا الشركة في الأجهزة والبرامج والكفاءة مع الشقوق القلق.يحاول العالم – الآلاف من أذكى الأشخاص على الأرض ، بدعم من مليارات الدولارات التي لا حصر لها من الدولارات – مهاجمتهم من جميع الزوايا.

على جانب الأجهزة ، تُظهر البنى المبتكرة لـ Cerebras و Groq أن مزايا Nvidia المترابطة ، وهي حجر الزاوية في هيمنة مركز البيانات ، يمكن التحايل عليها من خلال إعادة تصميم جذري.توفر الرقائق على مستوى الذروة في الدماغ وطرق الحوسبة الحتمية لـ Groq أداءً مقنعًا دون الحاجة إلى حلول NVIDIA المعقدة للاتصال.أكثر تقليدية ، يقوم كل عميل رئيسي في NVIDIA (Google ، Amazon ، Microsoft ، Meta ، Apple) بتطوير رقائق مخصصة يمكن أن تتناول إيرادات مركز بيانات عالية الربح.لم تعد هذه المشاريع التجريبية-Amazon وحدها تقوم ببناء بنية تحتية واسعة النطاق للأنثروبور ، والتي تحتوي على أكثر من 400000 رقائق مخصصة.

يبدو أن خندق البرنامج هش على قدم المساواة.تقوض الأطر المتقدمة الجديدة مثل MLX و Triton و Jax أهمية CUDA ، وقد تكون الجهود المبذولة لتحسين برامج تشغيل AMD تطوير بدائل للأجهزة الأرخص.يعكس اتجاه التجريد المتقدم كيف تفسح لغة التجميع الطريق إلى C/C ++ ، مما يشير إلى أن هيمنة CUDA قد تكون أقصر من المتوقع.الأهم من ذلك ، نرى ارتفاع تقنية ترجمة التعليمات البرمجية المستندة إلى LLM ، والتي هي قادرة على تنفيذ رمز CUDA تلقائيًا لتشغيله على أي هدف للأجهزة ، مما قد يلغي أحد أقوى تأثيرات قفل NVIDIA.

ربما يكون الشيء الأكثر تدميراً هو الاختراق الأخير في الكفاءة من قِبل Deepseek ، والذي يحقق الأداء المشابه لأداء النموذج في حوالي 1/45 من تكلفة الحساب.هذا يدل على أن الصناعة بأكملها كانت تتفوق على موارد الحوسبة بعدة طرق.إلى جانب ظهور بنية التفكير الأكثر كفاءة من خلال نموذج سلسلة التفكير ، قد يكون الطلب الكلي للحساب أقل بكثير من التوقعات الحالية.الاقتصاديات هنا مقنعة: عندما يكون Deepseek قادرًا على تحقيق أداء مستوى GPT-4 ، في حين أن رسوم استدعاء API يتم تخفيضها بنسبة 95 ٪ ، فإنه يشير إلى أن إما عملاء NVIDIA يحترقون الأموال أو هوامش الربح بشكل غير ضروري.

ستنتج TSMC رقائقًا تنافسية لأي عميل تموله جيدًا ، ويحدد سقفًا على المزايا المعمارية لـ NVIDIA.ولكن بشكل أساسي ، يوضح التاريخ أن السوق سيجد في النهاية طرقًا لتجاوز الاختناقات الاصطناعية ، مما يؤدي إلى أرباح زائدة.بشكل عام ، تظهر هذه التهديدات أن Nvidia تواجه طريقًا أكثر وعرة للحفاظ على مسار النمو الحالي وهوامش الربح أكثر مما يوحي بتقييمها.هناك خمسة اتجاهات مختلفة للهجوم – الابتكار المعماري ، والتكامل الرأسي للعميل ، وتجريد البرامج ، وخرقات الكفاءة ، وتصنيع الديمقراطية – هناك فرصة كبيرة لأن يكون لنجاح واحد على الأقل تأثير كبير على هوامش ربح NVIDIA أو معدلات النمو.انطلاقًا من التقييم الحالي ، لم يأخذ السوق هذه المخاطر في الاعتبار.