Feature #3522
Mis à jour par Serge Heiden il y a presque 2 ans
FR:
* encoder les paragraphes dans les textes de 1975 et 1987
* homogénéiser les guillemets « » "
* améliorer tokenisation des clitiques et t euphoniques
*Tokenizer*
* tirets : https://forge.cbp.ens-lyon.fr/redmine/issues/3005
* clitiques : https://forge.cbp.ens-lyon.fr/redmine/issues/2940, https://forge.cbp.ens-lyon.fr/redmine/issues/217
* common cases : https://forge.cbp.ens-lyon.fr/redmine/issues/1779
* abréviations et mots multi-tokens : https://forge.cbp.ens-lyon.fr/redmine/issues/3520
* encoder les paragraphes dans les textes de 1975 et 1987
* homogénéiser les guillemets « » "
* améliorer tokenisation des clitiques et t euphoniques
*Tokenizer*
* tirets : https://forge.cbp.ens-lyon.fr/redmine/issues/3005
* clitiques : https://forge.cbp.ens-lyon.fr/redmine/issues/2940, https://forge.cbp.ens-lyon.fr/redmine/issues/217
* common cases : https://forge.cbp.ens-lyon.fr/redmine/issues/1779
* abréviations et mots multi-tokens : https://forge.cbp.ens-lyon.fr/redmine/issues/3520