ادخال اللغة العربية لعالم الذكاء الاصطناعي!!!!!

برفيسور: أيوب الحمادي
الاربعاء ، ١٣ نوفمبر ٢٠١٩ الساعة ٠٢:٠٥ صباحاً

النص الرقمي يقدم العديد من المزايا اقلها إنها مدمجة ومتعددة الاستخدامات وسهلة التحليل والمعالجة و التفسير. ومع ذلك فانه حتى اليوم هناك العديد من الوثائق في شكلها الورقي لم يتم تحويلها الى نصوص رقمية وبالذات في النصوص التاريخية على الرغم من وجود حلول قوية للكشف التلقائي عن المواد المطبوعة إلا أن التعرف على المخطوطات العربية لا يزال يمثل مشكلة معقدة.

فعلى سبيل المثال ينطبق هذا بشكل خاص على النصوص المتماسكة مثل تلك الموجودة في المجموعات والكتب التاريخية واذكر هنا وثائق الارشيف العثماني والحديث عن اكثر من ١٠٠ مليون وثيقة مكتوبة بحروف عربية. وانطلاقا من ذلك تعد قواعد البيانات الملائمة و الواسعة ذات أهمية كبيرة سواء للتقييم التجريبي أو لتدريب حلول التعرف التلقائي للحروف والكلمات والمحتوى بطرق الذكاء الاصطناعي ونعني هنا الكلمات المكتوبة بخط اليد كون ذلك يسهل عملية تحويل الوثائق التاريخية اقلها الى نصوص رقمية ومن ثم تفسيرها وتحليلها بطرق الذكاء الاصطناعي كونها كنز ثقافي يمثل سلوك ونهج بشري مهم لأمم مختلفة وحقب تاريخية متعددة .

و نظرًا للتعقيد المرتبط باللغة العربية فان قواعد البيانات الحالية تحتوي دائمًا على قيود على النطاق و المفردات المستخدمة ومستوى تفاصيل الحقائق الأساسية المرفقة وكل ذلك مهم جدا للخلايا العصبية الاصطناعية في انظمة التعلم التلقائي. لذلك انطلقنا هنا من استراتيجية واحدة لمعالجة هذا هو إنشاء عينات اصطناعية لانتاج كلمات عربية لعشرات الالف والتي يجب ان تعكس اننا جمعنا خطوط يد ل ٥٠ الف شخص وبوثائق تاريخية.

تم تقديم مقاربة جديدة هنا لتوليف الكتابة اليدوية العربية والتي مثلت مساهمة مهمة في البحث العلمي في هذا المجال كون المقاربات الحالية تجمع مقتطفات من الحروف العربية فقط (والتي تسمح فقط ببعض التوليفات المختلفة) و لا تنتج مخطوطات كاملة كما وصلنا اليها. في المقابل فإن النظام المقدم في ابحاثنا يجعل من الممكن توليد عدد كبير من التوليفات المختلفة للكلمات العربية أو الجمل أو الصفحات النصية ذات العمود الواحد.

و يتضمن على سبيل التبسيط هنا ان النهج او النظام يولد رسائل جديدة لكل توليف بالإضافة إلى تعديلات على الحروف الكاملة على سبيل المثال عن طريق تغيير ميل الخط. علاوة على ذلك فان الانظمة الذكية التي تم تصميمها تقدم طرق لمحاكاة الاختلافات صبغت لتعتمد على المواد, بيحث ينتج خطوط تاريخية و وثائق يمكن اعتبارها نقطة لانتاج محاكاة حقيقة .

هذا قادنا اي نظام التوليف بنجاح لاستكمال بنك البيانات IESK arDB - و الذي هو قاعدة بيانات متاحة مجانًا للباحثين تم إنشاؤها منا بجهود ٨ سنوات للذكاء الاصطناعي بخصوص معرفة الحروف والكلمات العربية المكتوبة للنصوص التاريخية. هذا البنك يستخدم الان من اكثر من ٣٠ مركز بحث دولي الى الان. بالإضافة إلى ذلك فان انظمتنا تقييم الأساليب المستندة إلى التجزئة للاعتراف التلقائي للمخطوطات العربية وتطويرها باستخدام عينات حقيقية و تركيبية. و على وجه الخصوص يشكل تصنيف الحروف حسب الميزات المحسّنة والمصنف المستندة إلى نماذج نطلق عليه النماذجات النشطة .

وتم اضافة انظمة الكشف عن الأخطاء و تصحيحها استنادًا إلى مفهوم السياق للكلمة بالإضافة إلى تقديم مقاربة محسّنة لتجزئة الخطوط والكلمات كما يسمح النظام بناء على بياناتنا الكشف عن الخطوط المنحنية للنص. ماورد هو مختصر لرسالة دكتوراه عندي قام بها احد الالمان "في الصورة " وبعد نشر ١٦ بحث في مجلات و مؤتمرات قلنا له الان يكفي. فخور بطلابي فلم يخرج احد من عندي الا و معه سيرة ذاتية محترمة و يفتخر بما انجز.

و مرتاح من نفسي انني لم اترك شخص اختار ان يكون معي في منتصف الطريق. وبذلك نكون قدمنا ما نقدر من بيانات اللغة العربية للذكاء الاصطناعي واليوم هذا صار ثاني رسالة دكتوراه في ادخال اللغة العربية لعالم الذكاء الاصطناعي في مجموعتي, كلفتني اموال طائلة و لسنوات اقتطعتها من مشاريع صناعية او من مدخرات مجموعتي, و الباقي تكملوا انتم ;)

الحجر الصحفي في زمن الحوثي