أثار “ChatGPT” و”DALL-E2” -المنتجان التقنيان الجديدان من “OpenAI” اللذين حظيا بشعبية كبيرة- اهتمامًا كبيرًا من وسائل الإعلام ومستخدمي وسائل التواصل الاجتماعي. تستمر النقاشات حيال ما يمكن تحقيقه من خلال هذه التقنيات، والوظائف التي قد تحل محلها، وكيفية التعامل مع قضايا حقوق النشر، وكيف يمكنها زيادة التحيزات الموجودة في المجالات الرقمية والتقنية والصحفية.
جربت جلوبال فويسز “DALL-E2″ -الذكاء الصنعي المولد للصور- لرؤية كيفية تشكيله الصور باستخدام لغات مختلفة. كتبنا الجملة ذاتها بتسع لغات مختلفة: “لوحة زيتية لخيال امرأة حزينة أمام النافذة.”
ههنا النتائج التي حصلنا عليها:
الإنجليزية:
الإسبانية: Pintura al óleo de la sombra de una mujer en duelo ante la ventana
التشيكية: Olejomalba stínu truchlící ženy u okna
الروسية: Картина маслом силуэт скорбящей женщины у окна
الإندونيسية: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela
الصينية المبسطة: 窗边悲痛女人的影子油画
الكازاخية: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi
الأوزبكية: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi
الماليالامية: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്
من الواضح أن بعض الصور مختلفة جدًا عن النص الأصلي، وقد يكون السبب في ذلك عدم توفر البيانات الكافية باللغات الأصلية. وضح مخترعو “DALL-E2″ خلال مقابلة مع صحيفة تك كرنش أن النموذج الذي تعمل التقنية عليه يسمى “CLIP” -الاختصار الإنجليزي “تدريب مسبق لغوي صوري متباين”. تم تدريب CLIP على 400 مليون زوج من الصور بأوصاف نصية مستخرجة من الإنترنت. تقول OpenAI على موقعها:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
أظهر GPT-3 إمكانية استخدام اللغة لتوجيه شبكة عصبية كبيرة لأداء مجموعة متنوعة من مهام إنشاء النص، أما GPT للصور، فأظهر أنه يمكن استخدام نفس نوع الشبكة العصبية أيضًا لإنشاء صور ذات مصداقية عالية، ونحن نمد هذه النتائج لنوضح أن التلاعب بالمفاهيم البصرية من خلال اللغة بات الآن في متناول اليد.
تقول العالمة الكبيرة لدى OpenAI، إليا سوتسكيف، في مقابلة مع مجلة MIT Technological Review: “نحن نعيش في عالم بصري”.
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
على المدى الطويل، سيكون بإمكانك الحصول على نماذج تفهم كل من النصوص والصور، وسيتمكن الذكاء الاصطناعي من استيعاب اللغة بشكل أفضل لقدرته على فهم الكلمات والجمل.
نظرًا للاختلاف الكبير في النتائج باختلاف اللغات، يبدو أن تركيز استخراج البيانات التي يعتمد عليها النموذج كان على اللغات الأكثر انتشارًا، مثل الإنجليزية أو الإسبانية، لا اللغات الأقل شيوعًا، وعليه لم تكن العديد من الصور الموصوفة بوصف أوزبكي أو ماليالامي حاضرة في البيانات الأصلية التي تم تدريب الذكاء الاصطناعي عليها. إن خُطط للنموذج أن يعمل بالمزيد من اللغات، يجب التركيز على تدريبه على المزيد من الصور بأوصاف مغايرة للإنجليزية، وإلا فإن المستخدمين الكازاخ سيواصلون الحصول على صور الطبخ بدلًا من امرأة، ومتحدثي المالايالامية سيحصلون على صور للطبيعة. من الواضح أن الصور الروسية مجسدة بطريقة ما، والصور الإندونيسية فيها عدة فتيات جالسات. تفوز التشيكية بجائزة الابتكار بصور مرطبان الزيت، والصور الصينية رعبٌ محض.
بالطبع، لا يمكننا -بناءً على ما سبق- الادعاء بأن “OpenAI” عنصرية، فإن ما رأيناه هو أنها لم تستقبل كفاية من البيانات بلغات غير الانجليزية. الآن، لا نستطيع الحكم إن كانت ستبقى على حالها، لكننا نحث على خلاف ذلك.