Feature #3522
VOEUX corpus, enhance
Statut: | New | Début: | 30/11/2023 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 0% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.8.4 |
Description
FR:
- encoder les paragraphes dans les textes de 1975 et 1987
- homogénéiser les guillemets « » "
- améliorer tokenisation des clitiques et t euphoniques
Tokenizer
- tirets : https://forge.cbp.ens-lyon.fr/redmine/issues/3005
- clitiques : https://forge.cbp.ens-lyon.fr/redmine/issues/2940, https://forge.cbp.ens-lyon.fr/redmine/issues/217
- t euphonique : https://forge.cbp.ens-lyon.fr/redmine/issues/3090
- common cases : https://forge.cbp.ens-lyon.fr/redmine/issues/1779
- abréviations et mots multi-tokens : https://forge.cbp.ens-lyon.fr/redmine/issues/3520
Historique
#1 Mis à jour par Serge Heiden il y a presque 2 ans
- Description mis à jour (diff)
#2 Mis à jour par Benedicte Pincemin il y a presque 2 ans
- Description mis à jour (diff)
#3 Mis à jour par Matthieu Decorde il y a presque 2 ans
- Version cible changé de TXM 0.8.4 à TXM 0.8.3
#4 Mis à jour par Matthieu Decorde il y a presque 2 ans
- Version cible changé de TXM 0.8.3 à TXM 0.8.4