كيف يمكن أن تتسرّب البيانات من منصات إنشاء الصّور
نشر مجموعة من الباحثين في جامعات أميركية وسويسرية بالتعاون مع شركة غوغل وشركتها الفرعية DeepMind دراسة يوضّح كيف يمكن أن تتسرّب البيانات من منصات إنشاء الصّور التي تستند في عملها إلى نماذج الذكاء الاصطناعي التوليديّ مثل :
الذكاء الاصطناعي التوليدي
تعمل هذه المنصات جميعها بالطريقة نفسها التي تعتمد على جانب المستخدم الذي يكتب مطالبة نصيّة محدّدة، على سبيل المثال:
وقد دّربت نماذج الذكاء الاصطناعي التوليدي المستخدمة في هذه المنصات على عدد كبير جدا من الصور التي تحمل وصفًا محدّدًا سابقًا، وتكمن فكرة الشبكات العصبية في قدرتها على إنشاء صور جديدة وفريدة بعد معالجة كمية هائلة من بيانات التدريب.ورغم ذلك، تُظهر الدراسة الجديدة أن هذه الصور ليست دائما فريدة، وفي بعض الحالات، يمكن أن تقوم الشبكة العصبية بإعادة إنتاج صورة مطابقة تمامًا لصورة سابقة استخدمت في التّدريب، وهذا يعني أن الشبكات العصبية قد تكشف عن المعلومات الخاصة دون قصد.
توصيفات دقيقة
وتتحدّى هذه الدّراسة وجهات النّظر القائلة إن نماذج الذكاء الاصطناعي المستخدمة في توليد الصور لا تحفظ بيانات التدريب الخاصة بها، وإن بيانات التدريب قد تظل خاصة إذا لم يُكشف عنها.
يمكن أن تكون نتائج أنظمة التعلّم العميق مدهشة بالنّسبة لغير المتخصّصين، ويمكن أن يظنّوا أنها سحريّة، ولكن في الواقع، ليس هناك أي سحر في الأمر، فجميع الشبكات العصبية تستند في عملها إلى المبدأ نفسه، وهو التدريب باستخدام مجموعة كبيرة من البيانات، وتوصيفات دقيقة لكل صورة، على سبيل المثال:
" سلاسل من صور القطط والكلاب ".
وبعد التدريب، تعرض الشبكة العصبية صورة جديدة ويُطلب منها تحديد هل هي لقطة أم كلب، ومن هذه النقطة المتواضعة ينتقل مُطوّرو هذه النماذج إلى سيناريوهات أكثر تعقيدًا، فيقومون بإنشاء صورة لحيوان أليف غير موجود بالفعل باستخدام الخوارزمية التي دربت على العديد من صور القطط. وتُجرى هذه التجارب ليس فقط باستخدام الصور، ولكن أيضًا بالنصوص ومقاطع الفيديو وحتى الصوت.
بيانات التّدريب
نقطة البداية لجميع الشبكات العصبية هي مجموعة بيانات التدريب، إذ لا تستطيع الشبكات العصبية إنشاء كائنات جديدة من العدم على سبيل المثال:
لإنشاء صورة لقطة يجب على الخوارزميّة دراسة آلاف الصّور الفوتوغرافية أو الرّسومات الحقيقية للقطط.
نماذج التّعلّم الآليّ
يولي الباحثون في بحثهم نماذج التعلم الآلي اهتمامًا خاصًا، ويعملون على النحو التالي:
" تشويه بيانات التّدريب - وهي صور الأشخاص والسيارات والمنازل وما إلى ذلك – عن طريق إضافة تشويش وبعد ذلك تُدرّب الشّبكة العصبية على استعادة هذه الصّور إلى حالتها الأصليّة ".
وتتيح هذه الطريقة إمكانية إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل بالمقارنة مع الخوارزميات في الشبكات التنافسية التوليدية، على سبيل المثال هو ميلها الأكبر لتسريب البيانات. إذ يمكن استخراج البيانات الأصلية منها بثلاث طرق مختلفة على الأقل، وهي:
ومع ذلك، أظهر الباحثون طرقًا لاسترداد صور التدريب التي ظهرت مرة واحدة فقط في المجموعة الأصلية، فمن بين 500 صورة اختبرها الباحثون أعادت الخوارزمية بشكل عشوائي إنشاء ثلاثة منها.
رفع دعوى قضائيّة
في جانفي 2023 رفع ثلاثة فنانين دعوى قضائية ضد منصات توليد الصور التي تستند في عملها إلى الذكاء الاصطناعي بسبب استخدام صورهم الموجودة عبر الإنترنت لتدريب نماذجها دون أي احترام لحقوق التأليف والنشر.
وتستطيع الشبكة العصبية بالفعل نسخ أسلوب فنان معين، ومن ثم تحرمه من الدّخل. وتشير الورقة البحثية إلى أنه في بعض الحالات تستطيع الخوارزميات، لأسباب مختلفة، التورط في الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.
لذلك قدم الباحثون توصيات لتعزيز خصوصية مجموعة التدريب الأصلية:
ناحيّة الأمان
من ناحيّة الأمان، تقدّم الدّراسة مجموعة محدّدة من الحقائق عن نموذج واحد فقط للتعلم الآلي. وبتوسيع المفهوم ليشمل جميع الخوارزميات المتشابهة، نصل إلى موقف مثير للاهتمام. فليس من الصعب تخيل سيناريو يُسلّم فيه مساعد ذكيّ لمشغل شبكة هاتف محمول معلومات الشركة الحساسة استجابة لاستعلام المستخدم، أو كتابة مطالبة نصية خادعة لشبكة عصبية عامة لإنشاء نسخة من جواز سفر شخص ما.
ومع ذلك يؤكد الباحثون أن مثل هذه المشكلات لا تزال نظرية في الوقت الحاضر. لكن هناك مشاكل أخرى حقيقة ونعاني منها الآن، إذ تُستخدم نماذج توليد النصوص مثل ChatGPT الآن لكتابة تعليمات برمجيّة ضارّة حقيقيّة. ويساعد Github Copilot المبرمجين في كتابة التعليمات البرمجيّة باستخدام كمية هائلة من البرامج المفتوحة المصدر كمدخلات ولا تحترم الأداة دائمًا حقوق التأليف والنشر وخصوصية المؤلفين الذين انتهى الأمر بوجود تعليماتهم البرمجية في مجموعة موسّعة.
اختبار الخوارزمية
اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقّق من أنها لا تعيد إنتاجها بدقة دون قصد. من المؤكد أن منصات الفن التوليدي أثارت نقاشا مثيرًا للاهتمام خلال الفترة الأخيرة، نقاشا يجب فيه البحث عن توازن بين الفنانين ومطوّري التكنولوجيا.