Projet CORTINA

Protocole

Vous pouvez essayer les démonstrateurs ou retourner à la page principale.

Contenu

Généralités
1ère phase : vérification de la version
2ème phase : correction orthographique
- Correction de mots isolés
- Correction de textes
3ème phase : terminaison de la communication

Généralités

Représentation des données

Pour communiquer, le client et le serveur CORTINA échangent des messages contenant des données des types primitifs Java « char » et « int ». Le type « char » permet de représenter l´ensemble des caractères du code Unicode, un code 16 bits, tandis que le type « int » permet de représenter les nombres entiers signés qui peuvent être représentés sur 32 bits en complément à deux. Dans les deux cas, le mode de transmission utilisé est le mode gros-boutiste (big-endian).

Les clients qui sont implémentés sur des plateformes utilisant un autre code de caractères, par exemple un code ASCII (7 ou 8 bits), et un autre mode de transmission, par exemple le mode petit-boutiste (little-endian), doivent nécessairement procéder aux conversions de types appropriées. C´est ce que fait, en l´occurrence, notre client pour Word sous Windows.

Lorsque le client et le serveur doivent échanger une chaîne de caractères, ils transmettent d´abord le nombre de caractères composant la chaîne, sous forme d´un entier, suivi des caractères de la chaîne, du premier au dernier.

Structure du dialogue client/serveur

Le dialogue entre le client et le serveur passe par un certain nombre de phases qui sont détaillées dans les paragraphes suivants. Chaque phase consiste en un échange de requêtes du client et de réponses du serveur. Toutes les requêtes et réponses sont indentifiées par un entier et peuvent être suivies d´informations supplémentaires.

1ère phase : vérification de la version

Cette phase doit permettre au client CORTINA de vérifier si le protocole qu´il implémente est toujours supporté. En effet, comme les clients CORTINA peuvent être téléchargés gratuitement, nous ne contrôlons pas du tout la diffusion de ces clients. Dans la mesure où, d´une part, nous souhaitons conserver toute liberté pour faire évoluer le serveur de correction CORTINA (ainsi que, de manière sousjacente, le protocole CORTINA) et, d´autre part, nous voulons éviter à l´utilisateur la surprise de se retrouver soudainement avec un client qui ne fonctionne plus sans qu´il ne sache pourquoi, le premier échange de message permet au client de savoir s´il dialogue avec un seveur qui est capable de lui répondre comme il s´y attend.

Requête

Pour vérifier la version, le client doit envoyer une requête de vérification de version au serveur suivi de la version :

Un entier identifiant la requête : 10000
Un entier indiquant le nombre de caractères de la chaîne désignant la version du client
Séquence de caractès désignant la version du client

La figure suivante montre le message envoyé au serveur par un client qui implémente le protocole CORTINA version 1.0 (les valeurs sont indiquées en hexadécimal) :

Réponses

Le serveur peut répondre de trois manières différentes :

Le protocole correspond au protocole actuellement implanté par le serveur. Le client n´a rien de particulier à faire et peut commencer la correction orthographique proprement dite.
Le protocole ne correspond pas au protocole actuellement implanté par le serveur mais il est encore supporté. Le client devrait recommander à l´utilisateur de télécharger prochainement une version plus récente du client. Toutefois, le client peut encore procéder normalement à la correction orthographique.
Le protocole ne correspond pas au protocole actuellement implanté par le serveur et il n´est plus supporté. Le client devrait demander à l´utilisateur de télécharger une version plus récente du client et arrêter les traitements.

La réponse du serveur est composée d´un entier identifiant la réponse :

Protocole à jour : 100
Protocole obsolète mais encore supporté : 101
Protocole obsolète et plus supporté : 102

La figure suivante montre le message (en hexadécimal) envoyé au client par un serveur qui implémente la même version de protocole que le client :

Si le client entame le dialogue avec une autre requête que la vérification de version, le serveur répond que la requête est illégale. Dans ce cas aussi, la réponse est composée d´un entier unique identifiant la réponse :

Requête illégale : 10

La figure suivante montre le message (en hexadécimal) envoyé au client par un serveur qui refuse de traiter une requête avant d´avoir procédé à la vérification de version :

2ème phase : correction orthographique

Si la version du protocole est toujours supportée par le serveur, le client peut procéder à des corrections orthographiques. Il peut utiliser le serveur de deux manières différentes :

En mode « correction de mots isolés ».
En mode « correction de textes ».

Correction de mots isolés

Le mode « correction de mots isolés » est le mode le plus simple. Dans ce mode, le client envoie des mots à vérifier au serveur qui répond, pour chaque mot, s´il a retrouvé ou non le mot dans le dictionnaire et, sinon, fournit les mots du dictionnaire les plus proches des mots à vérifier. La vérification se fait indépendamment de tout contexte, c´est-à-dire des mots ou signes de ponctuation qui se trouvent à gauche ou à droite du mot à vérifier.

Requêtes

Pour cela, le client doit envoyer une requête de vérification de mot isolé au serveur suivie du mot à vérifier :

Un entier identifiant la requête : 11100, 11200 ou 11300
Un entier indiquant le nombre de caractères de la chaîne représentant le mot
Séquence de caractès représentant le mot

Les diverses requêtes permettent de limiter le nombre d´alternatives fournies par le serveur de trois façons différentes :

Le serveur peut ne fournir qu´un nombre d´alternatives qui ne dépasse pas un certain maximum : 11100
Le serveur peut ne fournir que les alternatives dont la distance au mot à vérifier ne dépasse pas un certain maximum : 11200
Le serveur peut combiner les deux critères et ne fournir qu´un nombre d´alternatives qui ne dépasse pas un maximum et où, pour toutes les alternatives, la distance au mot à vérifier ne dépasse pas un autre maximum : 11300

Il est à noter que les divers maxima sont des paramètres de fonctionnement du serveur et non pas des données transmises par le client.

La figure suivante montre le message envoyé au serveur par un client qui demande au serveur de vérifier si le mot « Moien » est correctement orthographié (les valeurs sont indiquées en hexadécimal) et de limiter à un certain maximum le nombre d´alternatives proposées en cas de non-reconnaissance (requête 11100) :

Réponse

Le serveur répond à cette requête en envoyant au client un entier qui indique si le mot est un mot du dictionnaire ou non :

entier indiquant que le mot appartient au dictionnaire : 0
(il n´y a pas de liste d´alternatives).
entier indiquant que le mot n´appartient pas au dictionnaire : 1
(il y a une liste d´alternatives).

Dans le deuxième cas, la réponse est suivie de l´ensemble des alternatives, ensemble trié dans l´ordre décroissant des distances des alternatives au mot à vérifier.

La figure suivante montre le message (en hexadécimal) envoyé au client par un serveur qui l´informe que le mot qu´il devait vérifier appartient bien au dictionnaire :

La liste des alternatives, si le mot à vérifier n´appartenait pas au dictionnaire, est composée de :

Un entier indiquant le nombre d´alternatives.
La liste des alternatives avec, pour chaque alternative :

Un entier indiquant le nombre de caractères de l´alternative.
Les caractères de l´alternative.

La figure suivante montre le message (en hexadécimal) envoyé au client par un serveur qui l´informe que le mot qu´il devait vérifier n´appartient pas au dictionnaire et qu´il y a deux alternatives, les mots « Moien » et « Miel » :

Le fait que le mot ait été trouvé ou non, le nombre d´alternatives et les alternatives proposées dépendent bien sûr de l´état du dictionnaire au moment de la vérification. Actuellement, ce dernier évolue encore régulièrement.

Correction de textes

Le mode « correction de textes » est un peu plus élaboré que le mode « correction de mots isolés », dans la mesure où on y prend en compte des informations contextuelles. Toutefois, ce contexte est fort limité et il ne s´agit pas de faire de la correction grammaticale. En effet, le serveur prend en compte le contexte uniquement pour traiter deux phénomènes :

Utilisation de majuscules en début de phrase.
Suppression de la lettre terminale « n » devant certains mots (Äifeler Regel).

Afin de traiter ces deux phénomènes, le serveur de correction gère un contexte de quatre mots : l´antépénultième, le précédent, le courant et le suivant. Il est à noter que la notion de mot est à prendre au sens large dans le contexte de la correction de textes. Toute séquence de caractères non blancs (les caractères blancs sont des caractères tels que l´espace, la tabulation etc.) est à prendre en considération pour la correction. Notamment, les caractères de ponctuation ont une importance capitale : un point en fin de phrase force l´utilisation de majuscules en début de phrase suivante, une virgule derrière un mot empêche l´application de la « Äifeler Regel » à ce mot et ainsi de suite. D´autres séquences de caractères non blancs qui ne sont pas des mots, par exemple les nombres, influent également sur le processus de correction. De ce fait, toutes ces séquences doivent apparaître dans le contexte même si elles ne sont pas destinés à être vérifiées. Comme on va le voir ci-dessous, le client a, par conséquent, la possiblité, dans le cadre de la correction de textes, de transmettre des mots au serveur qu´il souhaite uniquement inclure dans le contexte sans les faire vérifier.

Initialisation du contexte

La première chose à faire lorsqu´un client CORTINA souhaite faire corriger un texte consiste à initialiser le contexte. En effet, au début de l´examen d´un texte, aucun mot n´a encore été vérifié. Par conséquent, le client doit informer le serveur qu´il souhaite entamer le traitement avec un contexte vierge.