A fine-tuned AI model that translates English text into four authentic Saudi Arabic dialects: Najdi, Hijazi, Eastern, and Southern. Trained on 31,000+ sentence pairs with a BLEU score of 30.04.
The Saudi Dialect AI Translator is a fine-tuned NLP model built on the NLLB-200 architecture. It translates English text into authentic regional Saudi Arabic dialects, preserving colloquial vocabulary and regional expressions.
Supported Saudi Dialects:
- Najdi (النجدية) — Central Saudi Arabia
- Hijazi (الحجازية) — Western Saudi Arabia (Jeddah, Makkah)
- Eastern (الشرقية) — Eastern Province
- Southern (الجنوبية) — Southwestern regions
Model Highlights:
- Architecture: NLLB-200 (Meta AI) fine-tuned
- Training Dataset: 31,000+ English-Saudi dialect pairs
- 1,000 original SauDial dataset pairs
- 30,000 synthetically generated pairs
- BLEU Score: 30.04
- Hosted on Hugging Face Spaces (live demo available)
Applications:
- Localization of content for Saudi audiences
- Training data generation for other Arabic NLP models
- Dialect research and linguistic studies
- Chatbots targeting regional Saudi users
مترجم اللهجة السعودية هو نموذج NLP مضبوط الضبط الدقيق مبني على بنية NLLB-200 من Meta AI. يترجم النصوص الإنجليزية إلى لهجات سعودية إقليمية أصيلة، محافظاً على المفردات العامية والتعبيرات المحلية.
اللهجات السعودية المدعومة:
- النجدية — وسط المملكة العربية السعودية
- الحجازية — غرب المملكة (جدة، مكة المكرمة)
- الشرقية — المنطقة الشرقية
- الجنوبية — المناطق الجنوبية الغربية
أبرز مواصفات النموذج:
- البنية المعمارية: NLLB-200 مع ضبط دقيق
- مجموعة بيانات التدريب: أكثر من 31,000 زوج إنجليزي-سعودي (1,000 أصلية + 30,000 مولّدة اصطناعياً)
- درجة BLEU: 30.04
- مستضاف على Hugging Face Spaces مع عرض توضيحي مباشر
التطبيقات:
- توطين المحتوى للجماهير السعودية
- توليد بيانات التدريب لنماذج NLP العربية
- البحث في اللهجات والدراسات اللغوية
- روبوتات المحادثة المستهدفة للمستخدمين السعوديين الإقليميين
Technologies Used
Interested in this project? Want source code, deployment, or collaboration? Reach out.