يتعلم الذكاء الاصطناعي كيف ترتبط الرؤية والصوت ، دون تدخل بشري | أخبار معهد ماساتشوستس للتكنولوجيا


يتعلم البشر بطبيعة الحال من خلال إجراء اتصالات بين البصر والصوت. على سبيل المثال ، يمكننا مشاهدة شخص ما يلعب التشيلو والتعرف على أن حركات عازف التشيلو تولد الموسيقى التي نسمعها.

نهج جديد طوره باحثون من معهد ماساتشوستس للتكنولوجيا وأماكن أخرى يحسن قدرة نموذج الذكاء الاصطناعي على التعلم بنفس الطريقة. قد يكون هذا مفيدًا في التطبيقات مثل الصحافة وإنتاج الأفلام ، حيث يمكن أن يساعد النموذج في تنسيق المحتوى متعدد الوسائط من خلال استرجاع الفيديو والصوت التلقائي.

على المدى الطويل ، يمكن استخدام هذا العمل لتحسين قدرة الروبوت على فهم البيئات في العالم الحقيقي ، حيث غالبًا ما تكون المعلومات السمعية والبصرية متصلة بشكل وثيق.

عند تحسين العمل المسبق من مجموعتهم ، أنشأ الباحثون طريقة تساعد نماذج تعلم الآلات على محاذاة بيانات الصوت والبصرية المقابلة من مقاطع الفيديو دون الحاجة إلى الملصقات البشرية.

قاموا بتعديل كيفية تدريب نموذجهم الأصلي بحيث يتعلم مراسلات حبيبية أدق بين إطار فيديو معين والصوت الذي يحدث في تلك اللحظة. قام الباحثون أيضًا ببعض التعديلات المعمارية التي تساعد النظام على موازنة هدفين تعليميين متميزين ، مما يحسن الأداء.

مجتمعة ، هذه التحسينات البسيطة نسبيا تعزز دقة نهجها في مهام استرجاع الفيديو وفي تصنيف الإجراء في المشاهد السمعية البصرية. على سبيل المثال ، يمكن أن تتطابق الطريقة الجديدة تلقائيًا ودقيق مع صوت الباب الذي يصطدم بإغلاقه في مقطع فيديو.

“نحن نبني أنظمة منظمة العفو الدولية التي يمكنها معالجة العالم مثلما يفعل البشر ، من حيث وجود معلومات صوتية ومرئية على حد سواء وتكون قادرة على معالجة كل من الطرائق بسلاسة. نتطلع إلى الأمام ، إذا استطعنا دمج هذه التقنية الصوتية والبصرية في بعض الأدوات التي نستخدمها على أساس يومي ، فإنها يمكن أن تفتح الكثير من التطبيقات الجديدة. بحث.

انضم إلى الورقة من قبل المؤلف الرئيسي إدسون أراوجو ، طالب دراسات عليا في جامعة غوته في ألمانيا ؛ يوان غونغ ، معهد ماساتشوستس للتكنولوجيا السابق بعد دكتوراه ؛ Saurabhchand Bhati ، معهد معهد ماساتشوستس للتكنولوجيا الحالي ؛ صموئيل توماس ، براين كينجسبري ، وليونيد كارلينسكي من IBM Research ؛ روجيو فيريس ، العالم الرئيسي والمدير في مختبر MIT-IBM Watson AI ؛ جيمس جلاس ، كبير عالم الأبحاث ورئيس مجموعة أنظمة اللغة المنطوقة في معهد ماساتشوستس للتكنولوجيا لعلوم الكمبيوتر والذكاء الاصطناعي (CSAIL) ؛ وكبير مؤلف هيلد كوين ، أستاذ علوم الكمبيوتر بجامعة غوته وأستاذ تابع في مختبر MIT-IBM Watson AI. سيتم تقديم العمل في مؤتمر رؤية الكمبيوتر والتعرف على الأنماط.

مزامنة

يعتمد هذا العمل على طريقة تعلم الآلة التي طورها الباحثون قبل بضع سنوات ، والتي وفرت طريقة فعالة لتدريب نموذج متعدد الوسائط لمعالجة البيانات الصوتية والبصرية في وقت واحد دون الحاجة إلى الملصقات البشرية.

يقوم الباحثون بتغذية هذا النموذج ، المسمى Cav-Mae ، مقاطع الفيديو غير المخصصة وترميز البيانات المرئية والصوتية بشكل منفصل في تمثيلات تسمى الرموز. باستخدام الصوت الطبيعي من التسجيل ، يتعلم النموذج تلقائيًا تعيين أزواج المقابلة من الرموز الصوتية والبصرية القريبة من بعضها داخل مساحة التمثيل الداخلي.

وجدوا أن استخدام هدفين للتعلم يوازن بين عملية التعلم للنموذج ، والتي تمكن Cav-MAE من فهم البيانات الصوتية والبصرية المقابلة مع تحسين قدرتها على استرداد مقاطع الفيديو التي تطابق استعلامات المستخدم.

لكن Cav-Mae يعامل العينات الصوتية والبصرية كوحدة واحدة ، لذلك يتم تعيين مقطع فيديو مدته 10 ثوان وصوت الأبواب التي يتم تعيينها معًا ، حتى لو حدث هذا الحدث الصوتي في ثانية واحدة فقط من الفيديو.

في طرازهم المحسن ، الذي يطلق عليه Cav-MAE Sync ، يقوم الباحثون بتقسيم الصوت إلى نوافذ أصغر قبل أن يحسب النموذج تمثيلاته للبيانات ، بحيث يولد تمثيلات منفصلة تتوافق مع كل نافذة أصغر من الصوت.

أثناء التدريب ، يتعلم النموذج ربط إطار فيديو واحد مع الصوت الذي يحدث خلال هذا الإطار فقط.

يقول أراوجو: “من خلال القيام بذلك ، يتعلم النموذج مراسلات حبيبة أدق ، والتي تساعد في الأداء لاحقًا عندما نجمع هذه المعلومات”.

كما قاموا بدمج التحسينات المعمارية التي تساعد النموذج على تحقيق التوازن بين أهدافهما التعليمية.

مضيفا “غرفة التذبذب”

يتضمن النموذج هدفًا متناقضًا ، حيث يتعلم ربط البيانات الصوتية والبصرية المماثلة ، وهدف إعادة الإعمار يهدف إلى استرداد بيانات الصوت والبصرية المحددة بناءً على استعلامات المستخدم.

في Cav-Mae Sync ، قدم الباحثون نوعين جديدين من تمثيل البيانات ، أو الرموز المميزة ، لتحسين قدرة التعلم للنموذج.

وهي تشمل “الرموز العالمية” المخصصة التي تساعد في هدف التعلم التباين و “تسجيل الرموز” المخصصة التي تساعد النموذج على التركيز على التفاصيل المهمة لهدف إعادة الإعمار.

“في الأساس ، نضيف مساحة أكبر قليلاً إلى النموذج حتى يتمكن من أداء كل من هاتين المهمتين ، التناقضين والترميمين ، بشكل أكثر استقلالية قليلاً. وقد استفاد ذلك بشكل عام” ، يضيف Araujo.

في حين أن الباحثين كان لديهم بعض الحدس من شأنه أن يحسن أداء مزامنة Cav-MAE ، إلا أنه استغرق مجموعة دقيقة من الاستراتيجيات لتغيير النموذج في الاتجاه الذي أرادوا أن يذهبوا إليه.

يقول روديتشنكو: “نظرًا لأن لدينا طرائق متعددة ، نحتاج إلى نموذج جيد لكلا الطرفين بأنفسهم ، لكننا نحتاج أيضًا إلى جعلهم يدمجون معًا والتعاون”.

في النهاية ، حسنت تحسيناتها من قدرة النموذج على استرداد مقاطع الفيديو استنادًا إلى استعلام صوتي والتنبؤ بفئة مشهد صوتي مرئي ، مثل نباح الكلاب أو تشغيل أداة.

كانت نتائجها أكثر دقة من عملها السابق ، كما أنها كانت أفضل من الأساليب الأكثر تعقيدًا والحديثة التي تتطلب كميات أكبر من بيانات التدريب.

يقول أراوجو: “في بعض الأحيان ، فإن الأفكار البسيطة للغاية أو الأنماط الصغيرة التي تراها في البيانات لها قيمة كبيرة عند تطبيقها فوق نموذج تعمل عليه”.

في المستقبل ، يرغب الباحثون في دمج نماذج جديدة تولد تمثيلات بيانات أفضل في مزامنة CAV-MAE ، والتي قد تؤدي إلى تحسين الأداء. إنهم يريدون أيضًا تمكين نظامهم من التعامل مع البيانات النصية ، والتي ستكون خطوة مهمة نحو إنشاء نموذج لغة سهلة البصري.

يتم تمويل هذا العمل ، جزئياً ، من قبل وزارة التعليم والبحث الفيدرالية الألمانية ومختبر MIT-IBM Watson AI.

رابط المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى