كيف يمكنك تعليم شخص ما قراءة لغة إذا لم يكن هناك ما يقرأه؟ هذه هي المشكلة التي تواجه المطورين في جميع أنحاء القارة الأفريقية الذين يحاولون تدريب الذكاء الاصطناعي على فهم المطالبات باللغات المحلية والاستجابة لها.
لتدريب نموذج اللغة، تحتاج إلى البيانات. بالنسبة للغة مثل الإنجليزية، فإن المقالات والكتب والأدلة التي يمكن الوصول إليها بسهولة على الإنترنت توفر للمطورين إمدادات جاهزة. ولكن بالنسبة لمعظم اللغات الإفريقية – والتي يقدر عددها بما يتراوح بين 1500 إلى 3000 لغة – فإن الموارد المكتوبة المتاحة قليلة. يستخدم فوكوسي ماريفيت، أستاذ علوم الكمبيوتر في جامعة بريتوريا، في جنوب أفريقيا، عدد مقالات ويكيبيديا المتاحة لتوضيح كمية البيانات المتاحة. بالنسبة للغة الإنجليزية، هناك أكثر من 7 ملايين مقالة. والتغرينية، التي يتحدث بها حوالي 9 ملايين شخص في إثيوبيا وإريتريا، لديها 335 لغة. وبالنسبة لأكان، اللغة الأم الأكثر انتشارًا في غانا، لا يوجد أي منها.
ومن بين هذه الآلاف من اللغات، هناك 42 لغة فقط مدعومة حاليًا في نموذج اللغة. من بين 23 مخطوطة وأبجدية في أفريقيا، هناك ثلاثة فقط متاحة – اللاتينية والعربية والجعزية (المستخدمة في القرن الأفريقي). أوكولو، مؤسسة معهد تكنيكالتشر، وهو معهد أبحاث يعمل على تعزيز المساواة العالمية في الذكاء الاصطناعي، “يأتي هذا التخلف من وجهة نظر مالية. على الرغم من أن عدد المتحدثين باللغة السواحيلية أكبر من عدد المتحدثين بالفنلندية، إلا أن فنلندا تعد سوقا أفضل لشركات مثل أبل وجوجل”.
ويحذر أوكولو من أنه إذا لم يتم تطوير المزيد من النماذج اللغوية، فقد يكون التأثير في جميع أنحاء القارة رهيبًا. وقالت لشبكة CNN: “سنستمر في رؤية الأشخاص محرومين من الفرص”. وبينما تتطلع القارة إلى تطوير بنيتها التحتية وقدراتها الخاصة بالذكاء الاصطناعي، فإن أولئك الذين لا يتحدثون إحدى هذه اللغات الـ 42 يخاطرون بالتخلف عن الركب.
ولتجنب ذلك، يقول أوكولو إن مطوري الذكاء الاصطناعي في جميع أنحاء القارة “يتعين عليهم إعادة تصور الطريقة التي نتبعها في تطوير النماذج في المقام الأول”.
وهذا ما فعلته ماريفيت. قادت ماريفيت الذراع الجنوب أفريقية لمشروع African Next Voices، الذي قام بتسجيلات لـ 18 لغة في جنوب أفريقيا وكينيا ونيجيريا. على مدار عامين، جمعت الفرق الثلاثة 9000 ساعة من التسجيلات من أشخاص من مختلف الأعمار والمواقع، مما أدى إلى إنشاء مجموعة بيانات ستكون متاحة لمطوري الذكاء الاصطناعي في جميع أنحاء القارة لاستخدامها في تدريب النماذج.
في بعض الأحيان، كان الباحثون يعطون المتحدثين الأصليين نصوصًا لقراءتها، ولكن في الغالب كانوا يعطونهم إرشادات سريعة ويسجلون إجاباتهم، والتي تم بعد ذلك نسخها. بالنسبة إلى لغة إيسينديبيلي، التي يتحدث بها سكان جنوب أفريقيا وزيمبابوي، فقد واجهوا صعوبة كبيرة في العثور على موارد مكتوبة لدرجة أنهم لجأوا إلى دليل حكومي لرعاة الماعز للمساعدة في كتابة مطالباتهم.
لم تجمع African Next Voices بيانات كافية لتدريب نموذج لغة كبير (LLM) مثل ChatGPT أو Gemini، والذي يمكنه تغطية آلاف المواضيع بالتفصيل. ومع ذلك، تقول ماريفيت إنهم ركزوا تسجيلاتهم على موضوعات محددة، مثل الصحة والزراعة، والتي كانت تعتبر الأكثر أهمية.
إن استخدام مجموعة بيانات صغيرة لإنشاء نموذج معمم سيؤدي إلى معدل خطأ مرتفع، لكن مجموعات البيانات الصغيرة المركزة يمكن أن تكون دقيقة للغاية ضمن النطاق المحدود للنموذج المتخصص، كما أوضح نيالينج موروسي، وهو زميل باحث في معهد أبحاث الذكاء الاصطناعي الموزع (DAIR)، وهو غير تابع لمشروع الأصوات التالية الأفريقية.
إنها بالنسبة لها مسألة “تحديد أولويات الخطأ”. وقالت موروسي: “إذا أراد شخص ما فقط معرفة ما يحدث في وسط مدينة نيروبي، فيمكنني أن أتسامح مع الأخطاء هناك”، ولكن الأخطاء في النماذج التي تتعامل مع موضوعات مثل الأعمال المصرفية أو الرعاية الصحية يمكن أن يكون لها عواقب وخيمة.
وقال موروسي لشبكة CNN: “نحن بحاجة للتأكد من أن الأشخاص الذين يبنون هذه النماذج يفهمون العواقب، وأنهم يفهمون الثقافات بما يكفي لفهم حجم هذه الأخطاء”.
وتقول إن الكلمات والرموز لها معاني متعددة. على سبيل المثال، يرتبط صليب سانت جورج بسياسات الجناح اليميني في المملكة المتحدة، وهو أمر غير واضح لشخص من غانا أو ليسوتو. هذه المشكلة شائعة بشكل خاص مع اللغات ذات الموارد المنخفضة. وتقول: “هناك الكثير من المعرفة السياقية، والقليل من التوثيق”.
وجدت دراسة أجرتها DAIR أن مواقع التواصل الاجتماعي فشلت في التعرف على خطاب الكراهية المتعلق بالعنف العرقي في إثيوبيا وإزالته جزئيًا لأن الأنظمة الآلية والمشرفين البشريين لم يكونوا على دراية بالمصطلحات العامية المستخدمة.
يقول موروسي إنه بدون هذا الفهم الثقافي، من المستحيل جعل “أنظمة الذكاء الاصطناعي تعمل وتصدر أحكامًا تتماشى مع معتقداتنا وقيمنا”.
على الرغم من أن العديد من الأفارقة يتحدثون لغات متعددة، بما في ذلك اللغات الأفريقية والأوروبية التي تدعمها نماذج اللغة بالفعل، يعتقد موروسي أن الهدف يجب أن يكون جعل الذكاء الاصطناعي متاحًا بجميع اللغات، “حتى بالنسبة للغات التي بها متحدث واحد”. كل اللغات تستحق التمثيل أو الحفاظ عليها
ومع ذلك، فإن نقص البيانات ليس هو التحدي الوحيد الذي يواجه مطوري الذكاء الاصطناعي الأفارقة. لا يتم تدوين معظم اللغات الأفريقية من خلال القواميس أو الدراسات النحوية. في كينيارواندا، لغة رواندا، هناك ثلاث طرق شائعة لتهجئة اسم البلد: أوراندا، وأورواندا، ويو رواندا. وبدون قواعد التهجئة، تصبح معالجة النصوص الأساسية صعبة.
مشكلة أخرى هي عدم وجود مراكز البيانات. وحذر الاتحاد الأفريقي في عام 2024 من أنه تم تلبية 10% فقط من الطلب على مراكز البيانات في القارة، مما يمثل عنق الزجاجة أمام آمال أفريقيا في مجال الذكاء الاصطناعي.
ويكمن القلق بالنسبة لشركة ماريفيت في أنه إذا لم يتم إنشاء نماذج لهذه اللغات الأصغر حجما، فإنها “سوف تختفي”. ويضيف أنه عندما يتعلق الأمر بالمطورين الذين يقومون بإنشاء مجموعات بيانات للغات التي قد لا تحتوي حتى على أنظمة للكتابة، “فسيتعين على النموذج أن يتغير”.
انتهى مشروع الأصوات الأفريقية التالية للتو من جمع بياناته ونسخها. يقول Marivate إنه لا يعمل حاليًا على لغات جديدة، لكنه يفكر بالفعل في اللغة التالية.
