يأخذ المؤلفون صفحة من الأنثروبيين في ادعاءات انتهاك شركة Apple للأعمال من خلال تدريب الذكاء الاصطناعي على الكتب المقرصنة – IPWatchdog.com


“لم تعوض شركة Apple المبدعين عن استخدام أعمالهم المحمية بحقوق الطبع والنشر وأخفت مصادر مجموعات بيانات التدريب الخاصة بهم لتجنب التدقيق القانوني.” – شكوى

أخذ إشارة من الأخيرة بارتز ضد الأنثروبي الملحمة، قدم مؤلفو كتاب علم الأعصاب وأساتذة في جامعة ولاية نيويورك شكوى جماعية في 9 أكتوبر أمام المحكمة الجزئية الأمريكية للمنطقة الشمالية من كاليفورنيا، زاعمين أن شركة أبل ارتكبت انتهاكًا جماعيًا لحقوق الطبع والنشر باستخدام الكتب المقرصنة لتدريب أنظمة الذكاء الاصطناعي الخاصة بها. ادعى المدعيان سوزانا مارتينيز كوندي وستيفن ماكنيك أن شركة أبل قامت ببناء منصة Apple Intelligence الخاصة بها، بما في ذلك OpenELM وFoundation Models، عن طريق عمل نسخ غير مصرح بها من الأعمال المحمية بحقوق الطبع والنشر دون إذن أو تعويض.

انتهكت شركة Apple المواد المحمية بحقوق الطبع والنشر لأعضاء Martinez-Conde وMacknik وClass من خلال إعادة إنتاج أعمالهم المسجلة دون الحصول على ترخيص لبناء قواعد بيانات للمواد التدريبية، وفقًا للملف. كان من الأمور الأساسية في هذه الادعاءات استخدام شركة Apple لمجموعات البيانات التي تحتوي على Books3، والتي تم وصفها بأنها “مكتبة ظل” سيئة السمعة، وهي مجموعة بيانات من الكتب المقرصنة والمحمية بحقوق الطبع والنشر. تحتوي مجموعة البيانات هذه، المستمدة من أداة تعقب خاصة تسمى Bibliotik، على ما يقرب من 196,640 كتابًا، بما في ذلك كتاب مارتينيز كوندي وماكينك الأكثر مبيعًا على مستوى العالم، حيل العقل: ما يكشفه علم أعصاب السحر عن خداعنا اليومي.

ووفقا للدعوى القضائية، أشارت الوثائق الخاصة بشركة أبل إلى استخدامها للمواد المخالفة. ذكرت بطاقة نموذج Apple ومستودع GitHub لنماذج اللغة المفتوحة الفعالة (OpenELM) أن مجموعة بيانات التدريب المسبق تتضمن Pile ومجموعة فرعية من RedPajama، والتي تضمنت Books3، وهو مكون معروف جيدًا في Pile، من خلال مجموعة بيانات برعاية منظمة الأبحاث EleutherAI.

علاوة على ذلك، تم وصف مكون “الكتب” في مجموعة بيانات RedPajama على أنه نسخة مباشرة من مجموعة بيانات Books3. وباستخدام مجموعات البيانات هذه، قامت شركة أبل بتدريب نماذج OpenELM الخاصة بها على مجموعة معروفة من الأعمال المقرصنة، وبالتالي تنتهك بشكل مباشر حقوق الطبع والنشر لآلاف المؤلفين، كما يجادل مارتينيز كوندي وماكنيك.

تمت إزالة Books3 من موقع الويب الذي يستضيف كل نموذج من نماذج OpenELM، Hugging Face، في أكتوبر 2023 مع رسالة تفيد بأنه “لم يعد موجودًا ولم يعد من الممكن الوصول إليه بسبب انتهاك حقوق الطبع والنشر المُبلغ عنه”. اعترف منشئ مجموعة البيانات، شون بريسر، بمخاوف حقوق الطبع والنشر، مشيرًا إلى “أننا تقريبًا لم نصدر مجموعات البيانات على الإطلاق بسبب مخاوف حقوق الطبع والنشر”.

امتدت الادعاءات إلى نماذج مؤسسة Apple، والتي تعتبر أساسية لميزات Apple Intelligence المدمجة في منتجاتها. حددت ورقة بحثية أصدرتها شركة Apple في يوليو 2024، ورقة نموذج اللغة الأساسية (FLM)، ثلاثة مصادر لبيانات التدريب الخاصة بها: البيانات المرخصة من الناشرين، و”مجموعات البيانات المنسقة المتاحة للجمهور أو مفتوحة المصدر”، والمعلومات التي تم الزحف إليها بواسطة زاحف الويب Applebot. زعمت الشكوى أن المصطلحين “متاح للجمهور” و”مفتوح المصدر” يُستخدمان بشكل شائع للإشارة بشكل خاطئ إلى أن المؤلف قد أتاح الأعمال للعامة في صناعة الذكاء الاصطناعي للمحتوى المقرصن.

تم وصف البيانات المرخصة من شركة Apple بأنها “كمية محدودة” ولم يتم استخدامها خلال ما تسميه شركة Apple “التدريب المسبق الأساسي” ولكن خلال مرحلة لاحقة تسمى “التدريب المسبق المستمر”، وفقًا للشكوى.

Applebot، وهو برنامج للزحف على الويب كان يجمع بيانات الإنترنت منذ ما يقرب من عقد من الزمان، تعرض لتدقيق خاص. وذكرت الشكوى أن شركة Apple كشفت فقط في يونيو 2024 عن أن هذه البيانات المسروقة كانت تُستخدم لتدريب الذكاء الاصطناعي. كما زعمت أيضًا أن نماذج مؤسسة Apple قد تم تدريبها بوقت طويل قبل إصدار ورقة FLM في يوليو 2024 التي تصفها. بحلول الوقت الذي كشفت فيه شركة Apple عن هذا الاستخدام في يونيو 2024، كان الأوان قد فات بالنسبة لأي إلغاء الاشتراك، حيث كانت Apple قد قامت بالفعل باستخلاص البيانات وتدريب نماذج اللغة عليها.

ذكرت ورقة FLM أن Applebot “تستخدم إستراتيجيات زحف متقدمة لإعطاء الأولوية للمحتوى عالي الجودة والمتنوع” وأن “التصفية عالية الجودة تلعب دورًا حاسمًا في الأداء العام للنموذج.” استخدمت شركة Apple “المصنفات القائمة على النماذج” لتصفية هذه البيانات المسروقة من أجل الجودة، ويتم تدريب هذه المصنفات نفسها على مجموعات البيانات التي تتضمن أعمالًا محمية بحقوق الطبع والنشر غير مرخصة، حسبما زعم الملف.

ينمو سوق ترخيص بيانات التدريب على الذكاء الاصطناعي بسرعة، حيث يقدر بعض الباحثين قيمتها بنحو 2.5 مليار دولار ويتوقعون أن تصل إلى ما يقرب من 30 مليار دولار في غضون عقد من الزمن. على الرغم من هذا النمو، لم تقم شركة آبل بترخيص كتب المؤلفين، وهو ما يتناقض بشكل حاد مع صفقتها المبلغ عنها مع Shutterstock، والتي تقدر قيمتها بما بين 25 مليون دولار و50 مليون دولار، للصور، ومفاوضاتها مع ناشري الأخبار مثل Condé Nast و NBC News، وفقًا للشكوى.

وجاء في الشكوى أن “آبل لم تعوض المبدعين عن استخدام أعمالهم المحمية بحقوق الطبع والنشر وأخفت مصادر مجموعات بيانات التدريب الخاصة بهم لتجنب التدقيق القانوني”. “الكتابة الجيدة في بيانات التدريب تجعل مخرجات الذكاء الاصطناعي أفضل والنماذج أكثر قيمة”، ولهذا السبب يتم إعطاء الأولوية للأعمال المحمية بحقوق الطبع والنشر عالية الجودة للتدريب.

وقال مارتينيز كوندي وماكنيك إن سلوك شركة أبل أضر بشكل مباشر بسوق أعمال المؤلفين. سوف تتنافس مخرجات شركة Apple Intelligence مع سوق الكتب التي ألفها الإنسان وتضعفها، مما يسلط الضوء على المشكلة المستمرة المتمثلة في “الكتب الزائفة منخفضة الجودة” والملخصات غير المصرح بها التي ينتجها الذكاء الاصطناعي والتي تغمر الأسواق عبر الإنترنت. في اليوم التالي لتقديم شركة أبل رسميًا خدمة Apple Intelligence، زادت قيمة الشركة بما يزيد عن 200 مليار دولار، وهو ما تم وصفه في الدعوى بأنه “اليوم الأكثر ربحًا في تاريخ الشركة”.

كما دربت شركة آبل نماذجها على نسخ غير مصرح بها من الكتب الإلكترونية التي تبيعها للمستخدمين من خلال خدمة Apple Books، كما يزعم المدعون. وقالت الشكوى إن نسخ ملفات الكتب الإلكترونية واستخدامها لأي غرض يتجاوز النطاق الصريح والمحدود لترخيص Apple لبيعها يشكل انتهاكًا لحقوق الطبع والنشر.

يسعى Martinez-Conde وMacknik إلى تمثيل فئة من جميع مالكي حقوق الطبع والنشر المسجلة في الولايات المتحدة لأي عمل تستخدمه شركة Apple دون تصريح لتدريب نماذج الذكاء الاصطناعي الخاصة بها. إنهم يسعون للحصول على تعويضات قانونية عن الانتهاك المتعمد والأمر القضائي وتدمير جميع نماذج الذكاء الاصطناعي ومجموعات بيانات التدريب التي تم إنشاؤها باستخدام الأعمال المحمية بحقوق الطبع والنشر، بما في ذلك OpenELM وFoundation Models.

أشارت الشكوى إلى القرار الأخير في بارتز ضد الأنثروبيمؤكداً أن «الشخص الذي ينسخ الكتاب المدرسي من موقع قرصان قد قام بالتعدي بالفعل، توقف». في هذه الحالة، تمت الموافقة مبدئيًا مؤخرًا على “أكبر عملية استرداد لحقوق الطبع والنشر تم الإبلاغ عنها علنًا في التاريخ، وأكبر من أي تسوية جماعية أخرى لحقوق الطبع والنشر أو أي قضية فردية لحقوق الطبع والنشر تم رفع دعوى قضائية عليها لحكم نهائي”.

مصدر الصورة: إيداع الصور
معرف الصورة: 730100126
المؤلف: محمد عليمك

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى