المنح:مشروع/منح تنفيذ استراتيجية الحركة/مسرد الويكي/التقرير
Accepted

خطة التنفيذ
خططنا خلال هذا المشروع لتطوير أداةٍ مبتكرةٍ لإدارة المصطلحات وتوحيدها على ويكيبيديا العربية. تهدف هذه الأداة إلى تقليص الوقت اللازم لترجمة المقالات بشكلٍ ملحوظ، إضافةً إلى تحسين اتساق المحتوى وسهولة قراءته. وقد حددنا ثلاث مراحل للمشروع، وقد نُفذت المرحلة الأولى بنجاح.
المرحلة 1: النموذج الأولي لأداة قاعدة المصطلحات

يونيو 2024 - يوليو 2025 (اكتملت)
نجحنا في تطوير نموذجٍ أوليٍ عمليٍ لأداة إدارة المصطلحات. تحتوي أداتنا على قاعدة بياناتٍ تضم 950 ألف مصطلحٍ باللغات العربيَّة والإنجليزيَّة والفرنسيَّة. وتضمنت هذه المرحلة الخطوات التالية:
- البحث الأولي عن المستخدمين وتقييم احتياجاتهم: أجرينا مقابلاتٍ نوعية موسعة لتأكيد نقاط الضعف في الترجمة وتطوير الحلول التقنية المبتكرة التي نقترحها.
- جمع البيانات: أعددنا قائمةً بالقواميس المتاحة التي نهدف إلى تضمينها في قاعدة مصطلحاتنا. استخدمنا مجموعةً موجودة تضم أكثر من 1000 قاموس يستخدمها حاليًا مستخدمو ويكيبيديا العربية.
- رقمنة القواميس: رقمنّا عشرات القواميس، واستعنا بمدققين لغويين للتحقق من النص الناتج عن تعرُّف المحارف البصري (OCR)، ومراجعين لضمان دقة أرقام الصفحات.
- تصميم قاعدة البيانات: صممنا قاعدة بيانات علائقية بلغة الاستعلامات المهيكلة (SQL) يمكنها استرجاع المصطلحات وتجميعها بناءً على الخصائص الصرفية التي حددناها مسبقًا.
- الاختبار: أجرينا العديد من الاستعلامات للتحقق من صحة بياناتنا ومتانة تصميم قاعدة البيانات وعملية تجميع المصطلحات.
- تصميم الواجهة الأمامية: بذل مبرمجونا جهدًا كبيرًا في تصميم الواجهة الأمامية للأداة، والتي تتضمن موقع تول فورج مستقلًا، بالإضافة إلى أداةٍ على ويكيبيديا يتمكن المحررون من الوصول إليها مباشرةً من داخل الموسوعة.
- الإطلاق وتحليل الملاحظات: عملنا منذ إطلاق الأداة في مارس 2025 على الترويج لها بشكلٍ واسع، إضافةً إلى جمع الملاحظات وتحليل النتائج وإصلاح الأخطاء والمشكلات الصغيرة، مع تأجيل بعضها إلى مراحل لاحقة.
المرحلة 2: الأداة الافتراضية مع التحليل النحوي
يوليو 2025 - يونيو 2026
اختتمنا المرحلة الحالية من مشروعنا بتحقيق هدفنا المخطط له، وهو إصدارُ نموذجٍ أوليٍ عمليٍ لأداة إدارة المصطلحات، والتي لاقت استحسانًا واسعًا من مجتمع ويكيبيديا العربية. بعد بحثٍ مُفصّل مع المستخدمين وتأملات الفريق، قررنا التركيز على ثلاثة أهدافٍ للمرحلة الثانية من مشروعنا (والتي نسعى حاليًا للحصول على مزيدٍ من التمويل):
- جعل «مسرد الويكي» أداةً افتراضيةً: نهدف إلى جعل «مسرد الويكي» أداةً معتمدةً بشكلٍ واسعٍ قدر الإمكان، مما يعني أن هدفنا النهائي هو أن تصبح أداةً افتراضيةً على ويكيبيديا العربية. يتطلب تحقيق هذا الهدف اختباراتٍ دقيقةً واستكشافًا للأخطاء التقنية وإصلاحها، مما يتطلب موارد تطوير برمجيَّة واسعة.
- توسيع قاعدة بيانات القاموس: تضم قاعدة بياناتنا حاليًا 50 قاموسًا تحتوي على قرابة مليون مصطلح، لكننا ما زلنا نُدرك أن مجالاتٍ مُختلفة (مثل الذكاء الاصطناعي) غائبةٌ إلى حدٍ كبير حتى من هذه المجموعة الكبيرة نسبيًا. نهدف إلى رقمنة المزيد من القواميس أو إيجاد طرقٍ أكثر لجمع البيانات.
- التحليل والتجزئة الصرفيَّة: لطالما كان المحلل الصرفي عنصرًا أساسيًا في بنيتنا المخطط لها منذ البداية. اللغة العربية غنية صرفيًا، ويتطلب توحيد مصطلحات الترجمة تحليلًا صرفيًا لتحديد الكلمات والسياق المرتبطين. نعمل مع لغويين عرب لاختيار أفضل المحللات الصرفيَّة.
المرحلة 3: الاسترجاع حسب السياق والقائم على الأنطولوجيا
يوليو 2026 - منتصف 2027
نسعى في المرحلة الثالثة والأخيرة من التطوير إلى إنشاء أداةٍ واعيةٍ بالسياق وموجهةٍ بالأنطولوجيا، لا تساعد فقط في توحيد ترجمات المصطلحات، بل تُمثل أيضًا خريطة للعلاقات الدلالية الغنية عبر اللغات. أثبتت اختباراتنا الأولية باستخدام نماذج لغوية كبيرة أن بنية لغة الاستعلامات المهيكلة وحدها لا تُمكّن من مطابقة المصطلحات دلاليًا بدقة تتجاوز 75-85%، وهي نسبةٌ غير كافيةٍ لتطبيقات الإنتاج. لذلك، سيكون المنتج النهائي للمشروع أنطولوجيا شاملة للغة العربية، مع بنية بيانية وتكامل مع الشبكة العصبية الرسوميَّة لتحقيق استرجاع متقدم.
- تطوير قاعدة بيانات رسوميَّة: سنعيد هيكلة قاعدة بيانات علائقية بلغة الاستعلامات المهيكلة لدينا إلى قاعدة بيانات رسوميَّة تعكس العلاقات الدلاليَّة والصرفيَّة الغنية بين مصطلحات اللغة العربية. سيؤدي ذلك إلى إنشاء خريطةٍ للترابطات الغنية التي تعكس كيفية استخدام كلماتٍ مختلفة تمامًا في سياقاتٍ متشابهة دلاليًا.
- تدريب شبكة عصبية شبكية: سنُدرب شبكة عصبية شبكيَّة (GNN) لتحسين استرجاع المصطلحات الأكثر دقةٍ ضمن سياقٍ محدد. ستُمكّننا بنية الشبكة العصبية الشبكيَّة من مطابقة الكلمات ذات المعاني المتطابقة بغض النظر عن تركيبها الصرفي.
- التمييز والترجمة حسب السياق: بدلاً من البحث في قاعدة البيانات، سيتمكن محررو ويكيبيديا من تمييز الكلمات والحصول على ترجمةٍ فعالة بناءً على السياق. ستُمكّن هذه الترجمة عالية الوعي بالسياق من الترجمة بكفاءةٍ أعلى بكثيرٍ من أي وقت مضى.
- منشور بحثي: قد تُشكّل نتائج عملنا إضافةً قيّمة لجهود البحث في الأنطولوجيات والشبكات العصبية الشبكيَّة، وهو مجالٌ استكشافي متنامٍ لاستخدام نماذج اللغة مع قواعد بيانات رسوميَّة لتحسين الاسترجاع.
نتائج الأداة
الأهداف الأصلية
- تطوير أداة لإدارة مصطلحات ويكيبيديا: تطوير إضافة أو أداة لمساعدة محرري ويكيبيديا العربية على الوصول إلى البيانات المعجميَّة أثناء التحرير.
- تمكين محرري ويكيبيديا العربية من توحيد المصطلحات متعددة اللغات: السماح للمحررين باختيار ترجماتٍ أكثر معيارية واتساقًا للمصطلحات الأجنبية، وخاصةً في المقالات التقنية.
- توفير وقت الترجمة: تقليل الوقت اللازم لترجمة محتوى ويكيبيديا عبر تسريع عملية البحث عن المصطلحات واتخاذ القرار بشأنها.
- تحسين مقروئية ويكيبيديا العربية: من خلال جعل استخدام المصطلحات أكثر اتساقًا وموثوقيةً وشموليةً في المقالات جميعها.
المخرجات والنتائج


- تطوير أداة ويكيبيديَّة متكاملة للبحث عن المصطلحات وتوحيدها: إطلاق أداة كاملة الوظائف لمحرري ويكيبيديا العربية في مارس 2025، تُتيح الوصول إلى قاعدة المصطلحات من داخل ويكيبيديا.
- جمع قاعدة بيانات قاموسيَّة ومعجميَّة: بناء قاعدة بيانات مفتوحة المصدر تضم حوالي 50 قاموسًا وأكثر من 900 ألف مصطلح باللغات العربيَّة والإنجليزيَّة والفرنسيَّة.
- معدل استخدام 3% من مستخدمي ويكيبيديا العربية: يستخدم الأداة حاليًا أكثر من 100 شخص، أي 3% من إجمالي المستخدمين النشطين في ويكيبيديا العربية.
- ردود فعل إيجابية هائلة: استطلعنا آراء 20% من مستخدمي الأداة اعتبارًا من أبريل 2025، وحصلت على تقييماتٍ إيجابية تراوحت بين 90-95% لسهولة الاستخدام وتجربة المستخدم وتأثيرها على جودة الترجمة والوقت.
- توفير مئات الساعات: قدّر المستخدمون انخفاضًا في متوسط الوقت اللازم لترجمة المقالات من اللغات الأجنبية بنسبة 15%.
إشراك الأطراف المعنيَّة
- مستخدمو ويكيبيديا العربية: تحدثنا مع محرري ومترجمي ويكيبيديا العربية في كل خطوةٍ من خطوات المشروع. خلال مرحلة التفكير، أجرينا مقابلاتٍ نوعية موسعة لتأكيد نقاط الضعف في الترجمة وتحسين الحلول التقنية المبتكرة التي نقترحها. خلال مرحلة التطوير، تواصلنا مع المجتمع بانتظامٍ للحصول على التحديثات. بعد إطلاقنا للأداة في مارس 2025، تلقينا 50 ردًا ضمن نقاشٍ تفاعلي على الميدان، حيث اختبر المستخدمون الأدوات بشكلٍ حيوي، وأشادوا بتأثيرها، وحددوا الأخطاء، بل وعملوا معنا بحماسٍ لإضافة الأداة رسميًا لتكون أداةً ويكيبيديَّة وجعل الكود البرمجي مفتوح المصدر.
- حركة ويكيميديا: قدمنا نسخة أولية من عملنا في مؤتمر ويكي أمريكا الشمالية في إنديانابوليس في أكتوبر 2024، مما ألهم المجتمعات في جميع أنحاء العالم حول أهمية دمج التقنيات المتقدمة في أدوات ترجمة الويكي.
- خبراء معالجة اللغة الطبيعية واللغويات: تواصلنا مع مجموعة معالجة اللغة الطبيعية في جامعة كولومبيا، وهي مجموعةُ ذات اهتمام تاريخي قوي باللغة العربية، للحصول على إرشاداتٍ من الخبراء حول عملنا. كما استعنا بمؤسسي مشروع الأنطولوجيا العربية (من جامعة بيرزيت)، ولغويين يعملون على معجم الدوحة التاريخي، وأعضاء من مجمع دمشق للغات كمستشارين طوال فترة المشروع. ساعدنا هؤلاء المستشارون في تحديد أحدث الأدوات لمعالجة اللغة العربية، بما في ذلك أدوات التحليل النحوي والصرفي.
- مجتمع أبحاث ويكيميديا: قُبل عرضنا في فعالية ورشة عمل ويكي مايو 2025، حيث عرضنا عملنا على باحثي ويكيميديا. الورقة البحثية متاحةٌ الآن على الإنترنت لتكون وسيلةً لتوصيل منهجيتنا ونتائجنا إلى المجتمع الأكاديمي، وكذلك لإلهام المزيد من الأعمال المستقبليَّة التي تبني على ما أنجزناه.
- فرق مؤسسة ويكيميديا: أجرينا محادثاتٍ مع مختلف أعضاء مؤسسة ويكيميديا خلال مرحلة التفكير والتطوير. وقد شارك أعضاء فريق اللغة خصوصًا في مراحل مختلفة، بما في ذلك نيكلاس وأمير. وقد قدم كلاهما نصائح قيّمة حول أهمية المشروع لأداة ترجمة المحتوى بالإضافة إلى أهمية ربطه بويكي بيانات، وربما امتداد البيانات المعجميَّة مستقبلًا.
المخرجات
يرجى الإجابة على الأسئلة التالية:
أين نشرت مسودة خطتك؟ شارك رابطها هنا:
- أنشأنا صفحةً على ويكيبيديا العربية تُفصّل ميزات أداتنا ونتائجها
- نشرنا بحثًا حول مشروع «مسرد الويكي» (doi:10.48550/arXiv.2505.20369)
ما هي مبادرة استراتيجية الحركة التي تدعمها مسودة الخطة هذه؟
- 43. التجريب المستمر، والتقنية، والشراكات في مجال المحتوى والصيغ والأجهزة: جرّب هذا المشروع تطبيق تقنية اللغة لحل مشكلة عالقة في توحيد المفردات. واستخدمت منهجية تصميم مرنة لدعم هذا الهدف التجريبي، مما أدى إلى تطوير أداة جديدة ساهمت في تحقيق التوصية التاسعة: الابتكار في المعرفة الحرة.
ما هي الأنشطة التي أنجزتها لإنتاج مسودة الخطة هذه؟
- إطلاق الأداة: أُطلق نموذجٌ أوليٌ مبتكر لأداةٍ تبناه أكثر من 100 مستخدم في ويكيبيديا العربية (حوالي 3% من إجمالي قاعدة المستخدمين النشطين).
- استطلاع النتائج - انخفاض وقت الترجمة بنسبة 15%: أُجري بحثًا بعد الإطلاق، وكشف عن انخفاض وقت الترجمة بنسبة 15% بفضل أداة «مسرد الويكي»، و90-95% من التقييمات الإيجابية للجوانب المختلفة للأداة.
- نشر بحث: قُدّم ملخص بحث في ورشة عمل ويكي 2025، ونشرت ورقةٌ حول هذا الموضوع.
- رقمنة القواميس: رقمنة وإضافة ما يقرب من 50 قاموسًا إلى جانب بيانات ببليوغرافية مفصلة.
- شركاء خبراء في معالجة اللغة الطبيعية: شراكة مع خبراء في معالجة اللغة الطبيعية لضمان منهجية سليمة في بناء قواعد البيانات ورسم الخرائط الدلالية للمصطلحات والتحليل النحوي وغيرها.
- أبحاث المستخدم وجمع متطلبات المنتج: أمضينا عامًا واحدًا في إجراء بحث المستخدم، وتجميع متطلبات المنتج، وجمع البيانات، وتطوير الواجهة الأمامية للأداة.
في أي قنواتٍ مجتمعيَّة أعلنت عن مسودة خطتك؟
- ميدان التقنية في ويكيبيديا العربيَّة
- مجموعة ويكيبيديا العربية على فيسبوك
- عرض ملخص في ورشة عمل ويكي 2025
- نشرُ ورقةٍ بحثيَّة حول مشروع «مسرد الويكي» (doi:10.48550/arXiv.2505.20369)
التفاصيل الماليَّة
إنفاق المنحة
يرجى توضيح مقدار ما أنفقته من تمويل المنحة على النفقات المعتمدة، وإبلاغنا بكيفية إنفاقها.
فيما يلي جدول نفقات المنحة:
| العنصر | الميزانية الأصلية | الميزانية الفعلية | تعليق إضافي |
|---|---|---|---|
| تطوير البرمجيات | 4,000 | 5,000 | عملنا أكثر من 50 ساعة زيادةً على الهدف الأصلي وهو 150 ساعة |
| التدقيق اللغوي لتعرُّف المحارف البصري (OCR) | 3,000 | 2,000 | |
| البحث | 1,500 | ||
| التنسيق | 1,500 | ||
| التوثيق | 1,250 | يتضمن 100 دولار أمريكي لتصميم الرسوميات | |
| مستشارو معالجة اللغة الطبيعية (NLP) | 1,000 | 400 | تصنيف البيانات البشرية |
| القواميس | 500 | 450 | |
| الترجمة | 250 | 200 | |
| أدوات عبر الإنترنت | 250 | 0 | |
| الإجمالي | 13,000 | 10,000 | كانت الميزانية المعتمدة أقل بثلاثة آلاف دولار من المبلغ المطلوب، والذي أُبلغنا به في البداية. لم تُؤخذ الخصميات الدقيقة في الاعتبار، إذ كان علينا التحلي بالمرونة فيما يتعلق بما يمكننا تخفيضه. |
التمويل المتبقي
هل لديك أي تمويلٍ متبقٍ من المنحة؟
- لا يوجد تمويلٌ متبقٍ
إضافات أخرى
هل ترغب بمشاركتنا أيُ شيءٍ آخر حول مشروعك؟