تمكين نماذج اللغة الصغيرة من حل مهام الاستدلال المعقدة | أخبار معهد ماساتشوستس للتكنولوجيا

مع تحسن نماذج اللغة (LMs) في مهام مثل توليد الصور، والأسئلة التافهة، والرياضيات البسيطة، قد تعتقد أن التفكير البشري هو قاب قوسين أو أدنى. وفي الواقع، ما زالوا يتخلفون عنا بفارق كبير في المهام المعقدة. حاول لعب سودوكو بواحد، على سبيل المثال، حيث تقوم بملء الأرقام من واحد إلى تسعة بطريقة يظهر كل منها مرة واحدة فقط عبر الأعمدة والصفوف والأقسام في شبكة ذات تسعة في تسعة. إما أن خصمك ذو الذكاء الاصطناعي إما سيفشل في ملء المربعات من تلقاء نفسه أو يفعل ذلك بشكل غير فعال، على الرغم من أنه يمكنه التحقق مما إذا كنت قد ملأت المربعات الخاصة بك بشكل صحيح.
سواء كان LM يحاول حل الألغاز المتقدمة، أو تصميم الجزيئات، أو كتابة البراهين الرياضية، فإن النظام يكافح للإجابة على الطلبات المفتوحة التي لها قواعد صارمة يجب اتباعها. النموذج أفضل في إخبار المستخدمين بكيفية التعامل مع هذه التحديات بدلاً من تجربتها بنفسه. علاوة على ذلك، يتطلب حل المشكلات العملي من LMs أن يأخذوا في الاعتبار مجموعة واسعة من الخيارات مع اتباع القيود. لا تستطيع الكائنات الحية الصغيرة القيام بذلك بشكل موثوق من تلقاء نفسها؛ يمكن لنماذج اللغات الكبيرة (LLMs) في بعض الأحيان القيام بذلك، خاصة إذا تم تحسينها للقيام بمهام التفكير المنطقي، ولكنها تستغرق بعض الوقت للاستجابة، وتستخدم الكثير من قوة الحوسبة.
قاد هذا المأزق الباحثين من مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) إلى تطوير نهج تعاوني حيث يقوم ماجستير إدارة الأعمال بالتخطيط، ثم يقسم العمل القانوني لهذه الاستراتيجية بين استراتيجيات أصغر. تساعد طريقتهم LMs الصغيرة على تقديم استجابات أكثر دقة من LLMs الرائدة مثل OpenAI’s GPT-4o، والاقتراب من دقة أنظمة الاستدلال العليا مثل o1، مع كونها أكثر كفاءة من كليهما. يحتوي إطار عملهم، المسمى “القيود التوزيعية عن طريق البرمجة الاستدلالية باستخدام نماذج اللغة” (أو “DisCIPL”)، على نموذج كبير يوجه النماذج “التابعة” الأصغر نحو استجابات دقيقة عند كتابة أشياء مثل النصوص المبسطة، وقوائم البقالة مع الميزانيات، ومسارات السفر.
تشبه الأعمال الداخلية لـ DisCIPL إلى حد كبير التعاقد مع شركة لوظيفة معينة. أنت تقدم طلبًا لنموذج “الرئيس”، وهو يفكر بعناية في كيفية تنفيذ هذا المشروع. بعد ذلك، ينقل LLM هذه التعليمات والإرشادات بطريقة واضحة إلى النماذج الأصغر. فهو يصحح مخرجات LMs التابعة عند الحاجة – على سبيل المثال، استبدال عبارة أحد النماذج التي لا تتناسب مع قصيدة بخيار أفضل من نموذج آخر.
تتواصل LLM مع أتباعها باستخدام لغة يفهمونها جميعًا – وهي لغة برمجة للتحكم في LMs تسمى “LLaMPPL”. يتيح هذا البرنامج، الذي تم تطويره بواسطة مشروع الحوسبة الاحتمالية التابع لمعهد ماساتشوستس للتكنولوجيا في عام 2023، للمستخدمين تشفير قواعد محددة لتوجيه النموذج نحو النتيجة المرجوة. على سبيل المثال، يمكن استخدام LLaMPPL لإنتاج تعليمات برمجية خالية من الأخطاء من خلال دمج قواعد لغة معينة ضمن تعليماتها. يتم تشفير التوجيهات مثل “اكتب ثمانية أسطر من الشعر حيث يحتوي كل سطر على ثماني كلمات بالضبط” في LLaMPPL، مع وضع نماذج أصغر في قائمة الانتظار للمساهمة في أجزاء مختلفة من الإجابة.
يقول غابرييل جراند، طالب الدكتوراه في معهد ماساتشوستس للتكنولوجيا، وهو المؤلف الرئيسي لورقة بحثية تقدم هذا العمل، إن DisCIPL يسمح للكائنات الحية بتوجيه بعضها البعض نحو أفضل الاستجابات، مما يحسن كفاءتها الإجمالية. يضيف جراند، وهو أيضًا باحث في CSAIL: “إننا نعمل على تحسين كفاءة الاستدلال الخاصة بـ LM، لا سيما في العديد من التطبيقات الحديثة لهذه النماذج التي تتضمن توليد مخرجات تخضع لقيود”. “تستهلك النماذج اللغوية المزيد من الطاقة حيث يستخدمها الناس أكثر، مما يعني أننا بحاجة إلى نماذج يمكنها تقديم إجابات دقيقة مع استخدام الحد الأدنى من قوة الحوسبة.”
يقول آلان سوهر، الأستاذ المساعد بجامعة كاليفورنيا في بيركلي، والذي لم يشارك في البحث: “من المثير حقًا رؤية بدائل جديدة لاستدلال نموذج اللغة القياسي”. “يدعو هذا العمل إلى أساليب جديدة لنمذجة اللغة وماجستير اللغة الإنجليزية التي تقلل بشكل كبير من زمن الوصول للاستدلال عبر الموازاة، وتتطلب معلمات أقل بكثير من ماجستير اللغة الحالية، بل وتحسن أداء المهمة عبر الاستدلال المتسلسل القياسي. ويقدم العمل أيضًا فرصًا لاستكشاف الشفافية، وقابلية التفسير، وإمكانية التحكم في مخرجات النموذج، والتي لا تزال مشكلة كبيرة مفتوحة في نشر هذه التقنيات. “
قصة المستضعف
قد تظن أن الكائنات الحية الأكبر حجمًا “أفضل” في المطالبات المعقدة من الأصغر حجمًا عندما يتعلق الأمر بالدقة والكفاءة. يقترح DisCIPL وجهة نظر مضادة مفاجئة لهذه المهام: إذا تمكنت من الجمع بين نقاط القوة في النماذج الأصغر بدلاً من ذلك، فقد ترى زيادة في الكفاءة مع نتائج مماثلة.
لاحظ الباحثون أنه، من الناحية النظرية، يمكنك توصيل العشرات من LMs للعمل معًا في إطار عمل DisCIPL، بغض النظر عن الحجم. في تجارب الكتابة والاستدلال، استخدموا GPT-4o باعتباره “مخطط LM”، وهو أحد النماذج التي تساعد ChatGPT في توليد الاستجابات. لقد قامت بطرح أفكار لخطة لعدة نماذج “Llama-3.2-1B” (أنظمة أصغر طورتها شركة Meta)، حيث قامت تلك LMs بملء كل كلمة (أو رمز مميز) من الاستجابة.
تنافس هذا النهج الجماعي مع ثلاثة مناهج مماثلة: خط الأساس للتابع فقط المدعوم من Llama-3.2-1B، وGPT-4o الذي يعمل بمفرده، ونظام الاستدلال o1 الرائد في الصناعة الذي يساعد ChatGPT على اكتشاف أسئلة أكثر تعقيدًا، مثل طلبات الترميز والمسائل الرياضية.
قدم DisCIPL أولاً القدرة على كتابة الجمل والفقرات التي تتبع قواعد واضحة. تم إعطاء النماذج مطالبات محددة للغاية – على سبيل المثال، كتابة جملة تحتوي على 18 كلمة بالضبط، حيث يجب أن تكون الكلمة الرابعة “غلاسكو”، والكلمة الثامنة يجب أن تكون “في”، والكلمة الحادية عشرة يجب أن تكون “و”. كان النظام ماهرًا بشكل ملحوظ في التعامل مع هذا الطلب، وصياغة مخرجات متماسكة مع تحقيق الدقة والتماسك على غرار o1.
أسرع وأرخص وأفضل
وكشفت هذه التجربة أيضًا أن المكونات الرئيسية لـDisCIPL كانت أرخص بكثير من الأنظمة الحديثة. على سبيل المثال، في حين أن نماذج الاستدلال الموجودة مثل OpenAI’s o1 تؤدي الاستدلال في النص، فإن DisCIPL “أسباب” عن طريق كتابة كود بايثون، وهو أكثر إحكاما. من الناحية العملية، وجد الباحثون أن DisCIPL أدى إلى استدلال أقصر بنسبة 40.1% وتوفير في التكاليف بنسبة 80.2% مقارنة بـ o1.
تنبع مكاسب كفاءة DisCIPL جزئيًا من استخدام نماذج Llama الصغيرة كأتباع، والتي تكون أرخص بما يتراوح بين 1000 إلى 10000 مرة لكل رمز مميز من نماذج الاستدلال المماثلة. وهذا يعني أن DisCIPL أكثر “قابلية للتطوير” – فقد تمكن الباحثون من تشغيل العشرات من نماذج اللاما بالتوازي مقابل جزء بسيط من التكلفة.
لم تكن هذه هي النتائج المفاجئة الوحيدة، وفقًا لباحثي CSAIL. كان أداء نظامهم جيدًا أيضًا مقابل o1 في المهام الواقعية، مثل إعداد قوائم المكونات، والتخطيط لمسار رحلة السفر، وكتابة مقترحات المنح مع حدود الكلمات. وفي الوقت نفسه، واجه GPT-4o هذه الطلبات، ومع اختبارات الكتابة، لم يتمكن غالبًا من وضع الكلمات الرئيسية في الأجزاء الصحيحة من الجمل. انتهى الخط الأساسي للتابع فقط بشكل أساسي في المركز الأخير في جميع المجالات، حيث واجه صعوبات في اتباع التعليمات.
يقول المؤلف الرئيسي جاكوب أندرياس، وهو أستاذ مشارك في الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا وباحث رئيسي في CSAIL: “على مدى السنوات العديدة الماضية، شهدنا بعض النتائج المثيرة للإعجاب من الأساليب التي تستخدم نماذج اللغة لإضفاء الطابع الرسمي التلقائي على المشكلات في الرياضيات والروبوتات من خلال تمثيلها بالرمز”. “ما أجده أكثر إثارة في هذه الورقة هو حقيقة أنه يمكننا الآن استخدام LMs لإضفاء الطابع الرسمي التلقائي على إنشاء النص نفسه، مما يتيح نفس أنواع مكاسب الكفاءة والضمانات التي رأيناها في هذه المجالات الأخرى.”
في المستقبل، يخطط الباحثون لتوسيع هذا الإطار إلى نهج أكثر تكرارية، حيث يمكنك استخدام نفس النموذج مثل كل من القائد والتابعين. ويضيف جراند أن برنامج DisCIPL يمكن توسيعه ليشمل مهام الاستدلال الرياضي، حيث يصعب التحقق من الإجابات. كما أنهم يعتزمون اختبار النظام من حيث قدرته على تلبية تفضيلات المستخدمين الغامضة، بدلاً من اتباع القيود الصارمة، والتي لا يمكن تحديدها في التعليمات البرمجية بشكل واضح. وبالتفكير بشكل أكبر، يأمل الفريق في استخدام أكبر النماذج المتاحة، على الرغم من أنهم لاحظوا أن مثل هذه التجارب مكلفة من الناحية الحسابية.
كتب جراند وأندرياس الورقة جنبًا إلى جنب مع الباحث الرئيسي في CSAIL وأستاذ معهد ماساتشوستس للتكنولوجيا جوشوا تينينباوم، بالإضافة إلى عالم الأبحاث الرئيسي في قسم الدماغ والعلوم المعرفية في معهد ماساتشوستس للتكنولوجيا فيكاش مانسينغكا والأستاذ المساعد بجامعة ييل أليكس ليو SM ’20 دكتوراه ’25. قدم باحثو CSAIL العمل في مؤتمر نمذجة اللغة في أكتوبر وفي ورشة عمل IVADO “نشر الوكلاء المستقلين: الدروس والمخاطر وتأثير العالم الحقيقي” في نوفمبر.
تم دعم عملهم جزئيًا من قبل MIT Quest for Intelligence، ومؤسسة Siegel Family، ومختبر MIT-IBM Watson AI Lab، وزمالة Sloan للأبحاث، وIntel، ومكتب القوات الجوية للبحث العلمي، ووكالة مشاريع الأبحاث الدفاعية المتقدمة، ومكتب الأبحاث البحرية، والمؤسسة الوطنية للعلوم.