Darija Smartly Translator: L'interprète qui comprend les subtilités de la Darija Marocaine
5 min
12 avr. 2025
Zhor Yasmine MAHDI, Meriame ZAOUIA, Ibtihal NAIME, Hicham TAHIRI

Aujourd’hui, nous dévoilons Darija Smartly Translator, un modèle de langage multilingue spécialement conçu pour traiter le darija marocain — avec un support complet à la fois pour l’écriture en alphabet arabe et en alphabet latin (Arabizi).
Ce modèle est pensé pour accompagner les locuteurs de darija là où ils se trouvent — en ligne, en mouvement, et dans leur propre manière de s’exprimer.
Pour la première fois, des millions de personnes peuvent interagir avec un système d’IA qui comprend et génère leur dialecte du quotidien — de façon naturelle et précise.
Pourquoi le Darija ?
Le darija est parlé quotidiennement par plus de 40 millions de personnes, mais reste largement ignoré par les systèmes d’IA traditionnels.
Ce n’est pas seulement un dialecte — c’est une langue vivante, sans orthographe standardisée, écrite librement en alphabet arabe ou en Arabizi, selon la personne, le contexte ou le support utilisé.
Cette variabilité rend le traitement du darija difficile pour les modèles classiques — et c’est précisément pour cela que Darija Smartly Translator a été créé.
Nous ne nous sommes pas contentés d’entraîner le modèle sur des données brutes ou réutilisées.
Nous avons construit l’un des corpus les plus complets et les plus diversifiés jamais réalisés pour le darija marocain.
Avec plus d’un million de phrases alignées entre l’écriture arabe, l’Arabizi et l’anglais, notre base de données couvre un large éventail d’usages — des conversations informelles aux instructions précises, du langage des réseaux sociaux aux textes narratifs.
Darija Smartly Translator n’est pas un modèle généraliste simplement adapté au darija.
C’est un modèle qui comprend le darija selon ses propres codes — à travers les écritures, les styles et les contextes.
Un nouveau standard pour la traduction du Darija
Pour évaluer l’efficacité de Darija Smartly Translator, nous avons mené des tests approfondis dans quatre directions de traduction principales :
● Darija (écriture arabe) → Anglais
● Darija (Arabizi) → Anglais
● Anglais → Darija (écriture arabe)
● Anglais → Darija (Arabizi)
Nous avons comparé notre modèle aux meilleurs systèmes existants — dont GPT-4o, la famille Jais, Jais-Adapted et Atlas-Chat-9B — en utilisant cinq métriques complémentaires : BLEU, BERTScore, chrF, TER et METEOR.
Les résultats montrent que Darija Smartly Translator offre des performances compétitives, et souvent à la pointe du secteur — en particulier pour les traductions vers le darija, où il surpasse largement tous les autres modèles.
Metric | Direction | Jais-family | Jais-Adapted | GPT-4o | Atlas-Chat-9B | Darija Smartly |
BLEU | Darija (Arabic) → English | 27.88 | 36.80 | 65.35 | 34.52 | 64.23 |
Darija (Arabizi) → English | 2.98 | 4.93 | 35.67 | 12.78 | 46.59 | |
English → Darija (Arabic) | 2.76 | 6.76 | 10.51 | 25.11 | 74.38 | |
English → Darija (Arabizi) | 1.52 | 1.98 | 3.87 | 1.92 | 19.25 | |
Darija → English (Avg) | 15.43 | 20.84 | 53.70 | 23.64 | 52.74 | |
English → Darija (Avg) | 2.14 | 4.37 | 7.28 | 13.52 | 61.72 | |
BERTScore | Darija (Arabic) → English | 92.60 | 94.00 | 97.20 | 95.00 | 96.94 |
Darija (Arabizi) → English | 83.70 | 84.00 | 93.40 | 89.00 | 93.3 | |
English → Darija (Arabic) | 64.40 | 75.00 | 80.30 | 83.00 | 92.1 | |
English → Darija (Arabizi) | 76.00 | 76.00 | 84.30 | 71.00 | 91.8 | |
Darija → English (Avg) | 88.10 | 89.00 | 95.70 | 92.00 | 94 | |
English → Darija (Avg) | 70.20 | 75.00 | 82.20 | 77.00 | 92 | |
chrF | Darija (Arabic) → English | 54.18 | 61.59 | 82.47 | 60.27 | 79.91 |
Darija (Arabizi) → English | 20.11 | 25.09 | 63.12 | 36.00 | 60.79 | |
English → Darija (Arabic) | 11.87 | 33.75 | 45.86 | 53.60 | 80.91 | |
English → Darija (Arabizi) | 11.15 | 10.06 | 28.22 | 0.93 | 60.53 | |
Darija → English (Avg) | 37.15 | 43.32 | 74.87 | 48.13 | 67.45 | |
English → Darija (Avg) | 11.51 | 21.91 | 37.28 | 27.27 | 76.23 | |
TER ↓ | Darija (Arabic) → English | 62.73 | 52.21 | 34.35 | 50.72 | 24.66 |
Darija (Arabizi) → English | 119.80 | 142.07 | 75.16 | 90.83 | 54.08 | |
English → Darija (Arabic) | 146.07 | 107.04 | 78.79 | 65.91 | 26.16 | |
English → Darija (Arabizi) | 139.31 | 165.38 | 105.75 | 105.54 | 56.24 | |
Darija → English (Avg) | 91.27 | 97.19 | 50.38 | 70.79 | 43.82 | |
English → Darija (Avg) | 142.69 | 136.20 | 91.90 | 85.72 | 33.07 | |
METEOR | Darija (Arabic) → English | 51.56 | 60.92 | 82.19 | 59.12 | 80.83 |
Darija (Arabizi) → English | 9.58 | 16.36 | 60.25 | 30.49 | 58.93 | |
English → Darija (Arabic) | 4.85 | 16.63 | 26.69 | 39.89 | 76.92 | |
English → Darija (Arabizi) | 0.97 | 1.86 | 10.05 | 0.33 | 42.95 | |
Darija → English (Avg) | 30.57 | 38.61 | 73.58 | 44.79 | 66.56 | |
English → Darija (Avg) | 2.91 | 9.25 | 18.60 | 20.12 | 68.97 |
Visualisation des résultats
Pour mieux illustrer les différences de performance entre les modèles, nous avons représenté graphiquement les résultats moyens pour les traductions dans les deux sens :
Darija → Anglais
Anglais → Darija

Fig1 : Scores des traductions Darija → Anglais

Fig2 : Scores des traductions Anglais → Darija
Dans les deux sens de traduction, notre modèle démontre une robustesse constante, notamment dans les contextes informels — en prenant en compte les variations d’orthographe, les emojis et les expressions utilisées au quotidien.
Si GPT-4o reste en tête sur certains indicateurs pour la traduction Darija → Anglais, notre modèle réduit considérablement l’écart et surpasse tous les autres modèles pour les traductions dans le sens inverse (Anglais → Darija).
Démo en ligne : Le Darija en action
Pour rendre ce modèle accessible à tous, nous avons lancé une démo publique :
👉 darija.smartly.ma
Conclusion
Ce travail présente un modèle de traduction multilingue spécialement adapté aux spécificités linguistiques du darija marocain, à la fois en écriture arabe et en Arabizi (alphabet latin).
Notre approche repose sur :
la construction d’un corpus d’entraînement dédié
la prise en compte des variations d’écriture
l’adaptation aux usages informels du quotidien
Le système développé est conçu pour répondre à des cas d’usage concrets tels que :
la traduction en temps réel
les interfaces de messagerie
les agents conversationnels en dialecte arabe, notamment pour les environnements à faibles ressources
Perspectives
Les futurs développements viseront à :
améliorer la normalisation de l’Arabizi
étendre la couverture aux variantes régionales du darija
intégrer des fonctionnalités vocales
évaluer les performances du modèle sur des tâches avancées comme le dialogue ou la génération de résumés
Ce modèle contribue à un effort plus large visant à étendre les technologies linguistiques aux dialectes sous-représentés, de manière évolutive, accessible et reproductible.
L'article scientifique est dispoble ici: Article PDF
Un modèle d’IA multilingue innovant qui comprend et traduit le darija marocain — en arabe ou en Arabizi — avec précision
Zhor Yasmine MAHDI, Meriame ZAOUIA, Ibtihal NAIME, Hicham TAHIRI