في أفريقيا 2000 لغة، والذكاء الاصطناعي يشمل أقل من 20 منها

mobile phone

هاتف ذكي يعرض منشورًا على إحدى منصات التواصل الاجتماعي مكتوبًا بلغة “الجعزية”، يظهر فوقه تنبيه آلي يحذر من المحتوى، في إشارة رمزية للتحديات التي تواجه الإشراف على المحتوى في أنظمة الكتابة الأفريقية. تصوير: برايد تشاميسا. مستخدمة بإذن.

بقلم برايد تشاميسا

هذا المنشور جزء من سلسلة “في دائرة الضوء”  لشهر أبريل/نيسان 2026 من جلوبال فويسزتحت عنوان “منظورات بشرية حول الذكاء الاصطناعي”. تقدم هذه السلسلة رؤى حول كيفية استخدام الذكاء الاصطناعي في دول الأغلبية العالمية، وكيف يؤثر استخدامه وتطبيقه على المجتمعات الفردية، وما قد تعنيه تجربة الذكاء الاصطناعي هذه للأجيال القادمة، والمزيد. يمكنكم دعم هذه التغطية بالتبرع هنا.

قضى بيركيت تسيجاي أيامه في مشاهدة مقاطع فيديو لم يفهمها.

وُظف للإشراف على المحتوى في منصة تيك توك بمركز الشركة في كينيا، أحد المراكز الرئيسية لمراجعة المحتوى المدعومة بالذكاء الاصطناعي في أفريقيا. كان يتحدث اللغة الأمهرية، اللغة الرسمية في إثيوبيا، لكن مقاطع الفيديو في قائمته كانت من أنحاء القارة بلغات مثل اللوو، والدهولو، والكيكويو، والدينكا، وعشرات اللغات الأخرى. وعندما لا يظهر في المشاهد البصرية أي خطأ واضح، ولم يبلغ أحد عن الفيديو، كان يتركه عادًة. أما عندما يتلقى الفيديو بلاغات عديدة، فإنه يقوم بإزالته. لقد ترك العمل منذ ذلك الحين، وهو صريح بشأن ما رآه: النظام كان يبذل قصارى جهده ولكن دون أي فهم حقيقي تقريبًا للمحتوى الذي كان يحكم عليه.

تُعد روايته، التي أوردتها صحيفة كريستيان ساينس مونيتور في مارس/آذار 2026، لقطة واحدة لمشكلة أوسع نطاقًا بكثير؛ أفريقيا تضم أكثر من 2000 لغة، بينما بُنيت أنظمة الذكاء الاصطناعي التي تشرف على المحتوى في القارة بشكل أساسي على بيانات باللغة الإنجليزية، مع تغطية محدودة لحفنة من اللغات العالمية. وقد وجدت دراسة أُجريت عام 2025 بعنوان “حالة نماذج اللغات الكبيرة للغات الأفريقية”، والتي قارنت بين نماذج لغوية كبرى، أن 42 لغة أفريقية فقط تظهر بأي شكل ملموس عبر الأنظمة التي تمت مراجعتها. وتُعالج أربع لغات فقط — وهي الأمهرية، والسواحيلية، والأفريقانية، والمالغاشية — بدرجة ما من الاتساق. وهذا يترك أكثر من 98% من لغات أفريقيا غير مرئية فعليًا لأنظمة الإشراف التي تقرر ما يُسمح ببقائه وما يجب إزالته.

العواقب تقع على عاتق أشخاص حقيقيين.

لغة الخوارزمية

ينشر جاكسون بوسولو، صانع محتوى كيني على منصة تيك توك ، باللغة السواحيلية، وتتركز معظم منشوراته حول السياسة. أحد صباحات شهر فبراير/شباط 2025، استيقظ ليجد حسابه قد اختفى تمامًا؛ دون سابق إنذار أو أي تفسير. قدم استئنافًا، وفي نهاية المطاف استُعيد الحساب، لكنه لم يعرف أبدًا سبب حذفه أو حتى سبب استعادته.

حالته ليست استثنائية؛ وفقًا لبيانات إنفاذ إرشادات المجتمع الخاصة بتيك توك للربع الأول من عام 2025، وكما أوردت صحيفة بزنس ديلي أفريكا ، قامت المنصة في الفترة ما بين يناير/كانون الثاني ومارس/آذار 2025 بإزالة أكثر من 450 ألف مقطع فيديو من كينيا وحدها، وحظرت أكثر من 43 ألف حساب. بحلول الربع الثاني، ارتفع عدد عمليات الإزالة ليصل إلى 592 ألف حالة. تعزو المنصة معظم هذه الإجراءات إلى الأنظمة الآلية. وقد صرحت تيك توك لصحيفة كريستيان ساينس مونيتور بأنها تستخدم مزيجًا من التكنولوجيا والإشراف البشري عبر لغات عديدة، وأنها تعمل باستمرار على توسيع نطاق تغطيتها. مع ذلك، رفضت المنصة تحديد اللغات الأفريقية التي تغطيها أدوات الإشراف المدعومة بالذكاء الاصطناعي فعليًا.

عندما لا يتمكن نظام الإشراف من معالجة لغة معينة، يقل احتمال قيامه بتحديد المحتوى لإحالته إلى مراجعة بشرية. بدلًا من ذلك، يعتمد النظام على إشارات غير مباشرة مثل بلاغات المستخدمين، أو التلميحات البصرية، أو الأنماط الصوتية المستمدة من لغات يتقن التعرف عليها بالفعل.

وضحت ميرسي موتيمي، المدير التنفيذي لمختبر الرقابة — مجموعة كينية للدفاع القانوني تركز على التكنولوجيا— الأمر، حيث قالت:

We are talking about an algorithm trained predominantly in English, being trusted to take down harmful content, while a huge percentage of TikTok users in Kenya are using TikTok in their mother tongue.

نتحدث عن خوارزمية تم تدريبها بشكل أساسي باللغة الإنجليزية، ويتم الوثوق بها لإزالة المحتوى الضار، بينما تستخدم نسبة هائلة من مستخدمي تيك توك في كينيا المنصة بلغاتهم الأم.

لا تكمن المشكلة في النتائج الإيجابية الخاطئة فقط، بل في المحتوى المحذوف دون وجه حق، بالإضافة للنتائج السلبية الخاطئة؛ وهي المحتوى الضار المنشور بلغات لا يستطيع النظام تحليلها، الذي يظل متاحًا لأن الفيديو لا يحتوي على أي محفزات تستدعي المراجعة. في إثيوبيا، انتشرت ادعاءات كاذبة على فيسبوك تزعم استيلاء القوات الإثيوبية على ميناء إريتري على البحر الأحمر، وانتشرت هذه الأخبار على نطاق واسع قبل أن يفندها مدققو الحقائق. وثق الباحثون هذا النمط مرارًا: خطاب كراهية باللغة السواحيلية يمر دون اكتشاف، فجوات إشرافية في لغات محدودة الموارد مثل لغة الهوسا، ومنشورات باللغات المحلية يتم تصنيفها بشكل خاطئ من قبل أنظمة تدربت بشكل أساسي على اللغة الإنجليزية.

أظهرت أبحاث إثنوغرافية أجريت مع ممارسي تجربة المستخدم (UX) في ست دول أفريقية أن نماذج اللغات الكبيرة المدربة بشكل أساسي على اللغة الإنجليزية غالبًا ما تواجه صعوبة في التعامل مع المدخلات باللغات الأفريقية. وفي أحد الأمثلة، أدى إدراج كلمة واحدة فقط من لغة اليوروبا  ضمن نص مكتوب بالإنجليزية إلى نتائج غير دقيقة؛ تراوحت ما بين ترجمات خاطئة جزئيًا واستجابات لا صلة لها بالموضوع، مما يسلط الضوء على القيود التي تواجهها هذه النماذج في التعامل مع النصوص متعددة اللغات أو ذات الخصوصية الثقافية. فماذا يحدث إذًا عندما يُطلب من هذا النموذج نفسه الحكم على ما إذا كان منشور ما ينتهك معايير المجتمع؟

map of Africa showing AI training data representation

خريطة حرارية لأفريقيا تظهر صحراء البيانات: تمثل المناطق البرتقالية الأقاليم التي تقل نسبة تمثيلها في مجموعات بيانات تدريب الذكاء الاصطناعي العالمية عن 2%، بينما يبرز اللون الأزرق المخضر (تيل) جيوب التغطية المتركزة حول المراكز الحضرية والتقنية الرئيسية. تصوير برايد تشاميسا. تُستخدم بعد الحصول على إذن.

من يتحمل التكلفة؟

إن عبء نظام الإشراف، الذي لا يستطيع قراءة اللغات الأفريقية لا يتم تقاسمه بالتساوي؛ بل يقع العبء الأكبر على عاتق صناع المحتوى، والصحفيين، والمستخدمين العاديين الذين يتواصلون بتلك اللغات.

بالنسبة لصناع المحتوى، يعني هذا بناء جمهور في سياق تظهر فيه الخوارزمية لا مبالاة بالمحتوى الفعلي لعملك، وتستجيب بشكل أساسي للإشارات الصادرة باللغة الإنجليزية. فقد وجدت بولين أونيانغو، وهي صانعة محتوى كينية أخرى، أن أشهرًا من النشر بلغة اللو لم تحقق أي تفاعل خوارزمي تقريبًا، حيث كان محتواها غير مرئي فعليًا. هذه ليست مجرد مشكلة تتعلق بالعدالة؛ بل إنها تشكل طبيعة ما يتم إنتاجه، وما يتم تضخيمه، وقصص من هي التي تصل إلى الجمهور.

بالنسبة للصحفيين والمجتمع المدني، يعني هذا أن المعلومات المضللة باللغات الأفريقية يمكن أن تحظى بانتشار أوسع. فالمنصات التي تضم مئات الملايين من المستخدمين في القارة تكون أبطأ في اتخاذ إجراءات ضد المحتوى الضار المنشور بلغات لا تستطيع أنظمتها تحليلها. ووصف مدققو حقائق أجرت بوينتر مقابلات معهم قضاء ساعات في تتبع منشورات فيسبوك باللغة الأمهرية يدويًا خلال فترات التوتر السياسي في إثيوبيا، وهو عمل كان ينبغي لأنظمة المنصة أن ترصده تلقائيًا.

بالنسبة للمنصات نفسها، هناك بُعد يتعلق بالامتثال لم يُناقش بشكل كافٍ. يتطلب قانون الذكاء الاصطناعي التابع للاتحاد الأوروبي، الذي دخل حيز التنفيذ في أغسطس/آب 2024، أن تكون أنظمة الذكاء الاصطناعي غير تمييزية، وأن تكون بيانات التدريب ممثلة للسكان الذين سيؤثر عليهم النظام. كما يتطلب قانون الخدمات الرقمية (DSA)، المفعل بالفعل منذ فبراير/شباط 2024، من المنصات شرح قرارات الإشراف على المحتوى للمستخدمين المتأثرين. فإذا كان النظام لا يستطيع تحديد اللغة التي كُتب بها المنشور، فلن يتمكن من تقديم تفسير ذي معنى لسبب حذف ذلك المنشور. هذه ليست التزامات مستقبلية افتراضية؛ بل هي تنطبق الآن على أي منصة لديها مستخدمون أوروبيون، والمجتمعات الناطقة باللغات الأفريقية موجودة ونشطة في أوروبا.

ما الذي يتم فعله حقًا؟

هناك عمل جاري، ولكنه مشتت ويعاني من نقص مـزمن في الموارد.

تعمل مجموعات بحثية مثل أفريقيا إن إل بي — سلسلة ورش عمل تابعة لمؤتمرات كبرى في اللغويات الحاسوبية—على إنتاج مجموعات بيانات ونماذج قياس ونماذج لغوية متعددة اللغات خاصة باللغات الأفريقية. وقد تضمنت ورشة عمل أفريقيا إن إل بي لعام 2025 أبحاثًا حول اكتشاف خطاب الكراهية بلُغتي الهوسا والإيغبو، وتصنيف الأخبار باللغة السواحيلية، والتعرف على الكلام للغات محدودة الموارد. كما تعمل فرق أكاديمية في جامعات بريتوريا ونيروبي وأديس أبابا على بناء بيانات تدريب للغات لا تتوفر لها أي بيانات تقريبًا.

كما توجد بعض الجهود التجارية التي تسير على هذا النهج؛ فقد دخلت كوهير، وهي شركة كندية للذكاء الاصطناعي تعمل على تطوير نماذج لغوية كبيرة، في شراكة مع هوسا إن إل بي لدمج مجموعات البيانات باللغات الأفريقية في نموذجها المتعدد اللغات آيا (Aya). وتعتمد صناعة تسمية البيانات ، التي تُقدر قيمتها عالميًا بحوالي 2.8 مليار دولار، بشكل كبير على عمال في كينيا ونيجيريا ودول أفريقية أخرى لتصنيف البيانات التي تتعلم منها أنظمة الذكاء الاصطناعي. ومع ذلك، نادرًا ما يرى هؤلاء العمال لغاتهم تنعكس في مخرجات الأنظمة التي ساعدوا في تدريبها.

تلتزم استراتيجية الذكاء الاصطناعي القارية للاتحاد الأفريقي، التي تمت الموافقة عليها في يوليو/تموز 2024، بنهج يركز على الإنسان وتضع سيادة البيانات كأولوية. كما تشير استراتيجية الاتحاد الأفريقي واستراتيجيات الذكاء الاصطناعي الوطنية التي تلتها، بما في ذلك استراتيجية نيجيريا في أبريل/نيسان 2025، إلى التنوع اللغوي كأمر يحتاج إلى معالجة. لكن وثائق الاستراتيجيات ليست نماذج؛ فهي لا تستطيع بمفردها سد الفجوة بين ما يمكن للأنظمة القيام به وما تتطلبه لغات القارة.

تعتمد صناعة تصنيف البيانات بشكل كبير على العمال في دول مثل كينيا لوسم البيانات التي تتعلم منها أنظمة الذكاء الاصطناعي، ومع ذلك، نادرًا ما يرى هؤلاء العمال أنفسهم لغاتهم تنعكس في الأنظمة التي يساهمون في تدريبها.

مشكلة قابلة للحل، ولكن لم يقرر أحد حلها بعد

فجوة اللغات في الإشراف على محتوى الذكاء الاصطناعي ليست لغزًا؛ فهي مشكلة معروفة ولها سبب معروف: اقتصاديات بناء أنظمة الذكاء الاصطناعي فضلت تاريخيًا لغات ذات كميات كبيرة من النصوص الرقمية، بينما تفتقر معظم اللغات الأفريقية لذلك بشدة. فاللغة الإنجليزية تهيمن، بينما تحظى اللغات الفرنسية والصينية والعربية ببعض التغطية، أما ما تبقى فيبقى تواجده هامشيًا.

ما يجعل هذه اللحظة مختلفة هو أن الضغوط التنظيمية بدأت تتصاعد من خارج أفريقيا بطرق قد تفرض التغيير أخيرًا. فالتزامات عدم التمييز المنصوص عليها في قانون الذكاء الاصطناعي التابع للاتحاد الأوروبي تنطبق على بيانات التدريب؛ فإذا تم تدريب نظام ما على بيانات لا تمثل السكان الذين سيخدمهم، فإن الجهات التي تقوم بتشغيله تواجه مخاطر محتملة تتعلق بالامتثال. كما أن متطلبات الشفافية في قانون الخدمات الرقمية (DSA) تعني أن المنصات بحاجة إلى شرح قراراتها، بما في ذلك القرارات التي اتخذتها الأنظمة التي ربما اعتمدت على التخمين بدلًا من الفهم.

لا يحل أي من هذا المشكلة تلقائيًا، ولكنه يخلق، وللمرة الأولى، تبعات مالية ملموسة جراء تجاهلها. فالعواقب المادية أصبحت واقعًا؛ والمنصات التي لطالما تعاملت مع التغطية اللغوية الأفريقية كرفاهية ثانوية وليس كمتطلب جوهري، قد تجد أن الحفاظ على هذا الموقف يزداد صعوبة، لا سيما حين يصبح بوسع الجهات التنظيمية مطالبتها ببيانات أداء تفصيلية ومصنفة بحسب اللغات والمجتمعات.

كما توجد حجة أخرى، لا تعتمد على القوانين واللوائح إطلاقًا؛ فأفريقيا أحد أسرع المناطق نموًا في استخدام وسائل التواصل الاجتماعي. لذا، يجب على المنصات التي تطمح للتوسع في القارة خلال العقد القادم أن تقدم خدمات تلائم الشعوب التي تعيش هناك حقًا. إن نظام الإشراف الذي يتعامل مع لغات مثل السواحيلية، واليوربا، والأمهرية كحالات هامشية، ليس نظامًا مُصممًا للجمهور الأفريقي، بل هو نظام صُمم لغيرهم ثم جرى نشره في أفريقيا.

هذه فجوة تستحق أن تُسمّى بمسمياتها الصريحة؛ ليس لأن التسمية كافية وحدها، بل لأن الخطوة الأولى في سبيل حل أي مشكلة تبدأ من الإقرار بأنها مشكلة قائمة، وليست مجرد ضريبة مقبولة أو مقايضة عابرة.

إخلاء مسؤولية: يعمل المؤلف في مجال بناء تقنيات الإشراف على المحتوى. والآراء والتحليلات الواردة في هذا المقال هي آراءه الشخصية، وقد استمدها من أبحاث متاحة للعموم.

برايد تشاميسا، باحث في مجال الذكاء الاصطناعي ومؤسس منصة “VidSentry”، منصة ذكاء اصطناعي تعمل على بناء أدوات للإشراف على محتوى الفيديو تراعي السياق الثقافي واللغوي للمحتوى باللغات الأفريقية. يقيم تشاميسا في مدينة كيب تاون، وهو حاصل على جائزة (GradStar) ضمن قائمة أفضل 100 شخص.

ابدأ المحادثة

الرجاء تسجيل الدخول »

شروط الاستخدام

  • جميع التعليقات تخضع للتدقيق. الرجاء عدم إرسال التعليق أكثر من مرة كي لا يعتبر تعليق مزعج.
  • الرجاء معاملة الآخرين باحترام. التعليقات التي تحوي تحريضاً على الكره، فواحش أو هجوم شخصي لن يتم نشرها.