Feature #3522

Mis à jour par Benedicte Pincemin il y a presque 2 ans

FR:

* encoder les paragraphes dans les textes de 1975 et 1987
* homogénéiser les guillemets « » "
* améliorer tokenisation des clitiques et t euphoniques

*Tokenizer*

* tirets : https://forge.cbp.ens-lyon.fr/redmine/issues/3005
* clitiques : https://forge.cbp.ens-lyon.fr/redmine/issues/2940, https://forge.cbp.ens-lyon.fr/redmine/issues/217
* t euphonique : https://forge.cbp.ens-lyon.fr/redmine/issues/3090
*
common cases : https://forge.cbp.ens-lyon.fr/redmine/issues/1779
* abréviations et mots multi-tokens : https://forge.cbp.ens-lyon.fr/redmine/issues/3520

Retour