طريقة جديدة لزيادة قدرات النماذج اللغوية الكبيرة | أخبار معهد ماساتشوستس للتكنولوجيا


تستخدم معظم اللغات موضع الكلمة وبنية الجملة لاستخراج المعنى. على سبيل المثال، عبارة “جلست القطة على الصندوق” ليست هي نفسها عبارة “كان الصندوق على القطة”. عبر نص طويل، مثل وثيقة مالية أو رواية، من المحتمل أن يتطور بناء جملة هذه الكلمات.

وبالمثل، قد يقوم شخص ما بتتبع المتغيرات في جزء من التعليمات البرمجية أو اتباع التعليمات التي تحتوي على إجراءات شرطية. هذه أمثلة على تغيرات الحالة والتفكير المتسلسل الذي نتوقع أن تتفوق فيه أنظمة الذكاء الاصطناعي الحديثة؛ ومع ذلك، فإن آلية الانتباه الحالية والمتطورة داخل المحولات – وهي البنية الأساسية المستخدمة في نماذج اللغات الكبيرة (LLMs) لتحديد أهمية الكلمات – لها قيود نظرية وتجريبية عندما يتعلق الأمر بمثل هذه القدرات.

تسمح آلية الاهتمام لـ LLM بالنظر إلى الأجزاء السابقة من الاستعلام أو المستند، وبناءً على تدريبها، تحديد التفاصيل والكلمات الأكثر أهمية؛ ومع ذلك، هذه الآلية وحدها لا تفهم ترتيب الكلمات. فهو “يرى” جميع الكلمات المدخلة، والمعروفة أيضًا باسم الرموز المميزة، في نفس الوقت ويتعامل معها بالترتيب الذي تم تقديمه بها، لذلك طور الباحثون تقنيات لتشفير معلومات الموقع. وهذا هو المفتاح للمجالات شديدة التنظيم، مثل اللغة. لكن الطريقة السائدة لتشفير الموضع، والتي تسمى تشفير الموضع الدوار (RoPE)، تأخذ في الاعتبار فقط المسافة النسبية بين الرموز المميزة في التسلسل وتكون مستقلة عن بيانات الإدخال. وهذا يعني أنه، على سبيل المثال، الكلمات التي تفصل بينها أربعة مواضع، مثل “قطة” و”مربع” في المثال أعلاه، ستتلقى جميعها نفس التدوير الرياضي الثابت الخاص بتلك المسافة النسبية.

الآن، أنتجت الأبحاث التي أجراها معهد ماساتشوستس للتكنولوجيا ومختبر واتسون للذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا وآي بي إم تقنية تشفير تُعرف باسم “PaTH Attention” التي تجعل المعلومات الموضعية قابلة للتكيف ومدركة للسياق وليست ثابتة، كما هو الحال مع RoPE.

“تتيح المحولات وضع نماذج دقيقة وقابلة للتطوير للعديد من المجالات، ولكنها تعاني من هذه القيود في مواجهة تتبع الحالة، وهي فئة من الظواهر التي يعتقد أنها تكمن وراء القدرات المهمة التي نريدها في أنظمة الذكاء الاصطناعي لدينا. لذا فإن السؤال المهم هو: كيف يمكننا الحفاظ على قابلية التوسع وكفاءة المحولات، مع تمكين تتبع الحالة؟ ” يقول المؤلف الرئيسي للورقة يون كيم، وهو أستاذ مشارك في قسم الهندسة الكهربائية وعلوم الكمبيوتر (EECS)، وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL)، وباحث في مختبر MIT-IBM Watson AI Lab.

تم تقديم ورقة جديدة حول هذا العمل في وقت سابق من هذا الشهر في مؤتمر أنظمة معالجة المعلومات العصبية (NeurIPS). من بين المؤلفين المشاركين لكيم المؤلف الرئيسي سونغلين يانغ، وهو طالب دراسات عليا في EECS ومتدرب سابق في البرنامج الصيفي لـ MIT-IBM Watson AI Lab؛ كايو ون من جامعة ستانفورد؛ ليليانغ رن من مايكروسوفت؛ وييكانغ شين، وشون تان، ومايانك ميشرا، وراميسوار باندا من أبحاث IBM ومختبر MIT-IBM Watson AI Lab.

الطريق إلى الفهم

بدلاً من تعيين دوران ثابت لكل كلمة بناءً على المسافة النسبية بين الرموز المميزة، كما يفعل RoPE، يتميز PaTH Attention بالمرونة، حيث يتعامل مع الكلمات البينية كمسار يتكون من تحويلات صغيرة تعتمد على البيانات. كل تحويل، يعتمد على عملية رياضية تسمى انعكاس صاحب المنزل، يعمل كمرآة صغيرة يتم ضبطها اعتمادًا على محتوى كل رمز مميز تمر به. يمكن أن تؤثر كل خطوة في التسلسل على كيفية تفسير النموذج للمعلومات لاحقًا. يتيح التأثير التراكمي للنظام وضع نموذج لكيفية تغير المعنى على طول المسار بين الكلمات، وليس فقط مدى تباعدها. يسمح هذا النهج للمحولات بتتبع كيفية تغير الكيانات والعلاقات مع مرور الوقت، مما يمنحها إحساسًا بـ “الذاكرة الموضعية”. فكر في هذا على أنه المشي في طريق أثناء تجربة بيئتك وكيف تؤثر عليك. علاوة على ذلك، قام الفريق أيضًا بتطوير خوارزمية فعالة للأجهزة لحساب درجات الانتباه بشكل أكثر كفاءة بين كل زوج من الرموز المميزة بحيث يتم ضغط التحويل الرياضي التراكمي من PaTH Attention وتقسيمه إلى حسابات أصغر بحيث يكون متوافقًا مع المعالجة السريعة على وحدات معالجة الرسومات.

بعد ذلك، استكشف باحثو MIT-IBM أداء PaTH Attention في المهام الاصطناعية والواقعية، بما في ذلك الاستدلال ومعايير السياق الطويل والتدريب الكامل على LLM لمعرفة ما إذا كان قد أدى إلى تحسين قدرة النموذج على تتبع المعلومات بمرور الوقت. اختبر الفريق قدرته على اتباع أحدث أمر “الكتابة” على الرغم من العديد من خطوات التشتيت واختبارات الاستدعاء متعددة الخطوات، وهي مهام صعبة بالنسبة لطرق التشفير الموضعي القياسية مثل RoPE. وقام الباحثون أيضًا بتدريب طلاب الماجستير في القانون متوسطي الحجم ومقارنتهم بالطرق الأخرى. أدى PaTH Attention إلى تحسين مستوى الحيرة وتفوق على الأساليب الأخرى في تحليل المعايير التي لم يتم التدريب عليها. كما قاموا أيضًا بتقييم الاسترجاع والاستدلال والاستقرار من خلال مدخلات تصل إلى عشرات الآلاف من الرموز المميزة. أثبت PaTH Attention باستمرار قدرته على الوعي بالمحتوى.

يقول كيم: “لقد وجدنا أنه سواء في المهام التشخيصية المصممة لاختبار حدود المحولات أو في مهام نمذجة اللغة في العالم الحقيقي، كان نهجنا الجديد قادرًا على التفوق في الأداء على آليات الانتباه الحالية، مع الحفاظ على كفاءتها”. علاوة على ذلك، “سأكون متحمسًا لمعرفة ما إذا كانت هذه الأنواع من ترميزات الموضع المعتمدة على البيانات، مثل PATH، تعمل على تحسين أداء المحولات في المجالات المنظمة مثل علم الأحياء، في [analyzing] البروتينات أو الحمض النووي.”

التفكير بشكل أكبر وأكثر كفاءة

بعد ذلك، قام الباحثون بالتحقيق في كيفية أداء آلية انتباه PaTH إذا كانت تحاكي الإدراك البشري بشكل مشابه، حيث نتجاهل المعلومات القديمة أو الأقل أهمية عند اتخاذ القرارات. للقيام بذلك، قاموا بدمج PaTH Attention مع نظام آخر لتشفير الموضع يُعرف باسم محول النسيان (FoX)، والذي يسمح للنماذج “بالنسيان” بشكل انتقائي. يضيف نظام PaTH-FoX الناتج طريقة لتقليل وزن المعلومات بطريقة تعتمد على البيانات، مما يحقق نتائج قوية عبر الاستدلال وفهم السياق الطويل ومعايير نمذجة اللغة. بهذه الطريقة، يعمل PaTH Attention على توسيع القوة التعبيرية لمعماريات المحولات.

يقول كيم إن مثل هذا البحث هو جزء من جهد أوسع لتطوير “الشيء الكبير التالي” في الذكاء الاصطناعي. ويوضح أن المحرك الرئيسي لكل من ثورتي التعلم العميق والذكاء الاصطناعي التوليدي كان إنشاء “لبنات بناء ذات أغراض عامة يمكن تطبيقها على مجالات واسعة”، مثل “طبقات الالتفاف، RNN [recurrent neural network] الطبقات “، ومؤخرا، المحولات. وبالنظر إلى المستقبل، يشير كيم إلى أن اعتبارات مثل الدقة والتعبير والمرونة وقابلية تطوير الأجهزة كانت وستظل ضرورية. وعلى حد تعبيره، فإن “المشروع الأساسي لأبحاث الهندسة المعمارية الحديثة يحاول التوصل إلى هذه البدائيات الجديدة التي تحافظ على التعبيرية أو تحسنها، في حين تكون قابلة للتطوير أيضًا”.

تم دعم هذا العمل جزئيًا من قبل MIT-IBM Watson AI Lab وبرنامج AI2050 في Schmidt Sciences.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى