Feature #3522

Mis à jour par Serge Heiden il y a presque 2 ans

FR:

* encoder les paragraphes dans les textes de 1975 et 1987
* homogénéiser les guillemets « » "
* améliorer tokenisation des clitiques et t euphoniques



*Tokenizer*

* tirets : https://forge.cbp.ens-lyon.fr/redmine/issues/3005
* clitiques : https://forge.cbp.ens-lyon.fr/redmine/issues/2940, https://forge.cbp.ens-lyon.fr/redmine/issues/217
* common cases : https://forge.cbp.ens-lyon.fr/redmine/issues/1779
* abréviations et mots multi-tokens : https://forge.cbp.ens-lyon.fr/redmine/issues/3520

Retour