Feature #1636
RCP: X.X, word tag and skip tokenization import parameters
Statut: | Closed | Début: | 08/01/2016 | |
---|---|---|---|---|
Priorité: | Normal | Echéance: | ||
Assigné à: | - | % réalisé: | 100% |
|
Catégorie: | Import | Temps passé: | - | |
Version cible: | TXM 0.7.8 |
Description
See specifications at https://groupes.renater.fr/wiki/txm-info/public/import_xtz#modify_the_import_form.
Add new import parameters:- word tag: specify the XML element that encode words
- don't tokenize : if selected, no tokenization is done (no W element created)
Solution¶
Available only in the XTZ+CSV import.
Change the "Lexical Segmentation":
Unités lexicales- Balise de mots : w
- Segmenter [o]/n
- Caractères séparateurs
- Espaces
- Ponctuations
- Caractères d'élision
- Caractères de fin de phrase
- Caractères séparateurs
- Words tag : w
- Tokenize [o]/n
- Separator characters
- Spaces
- Punctuations
- Elision characters
- End of sentence characters
- Separator characters
Demandes liées
Historique
#1 Mis à jour par Matthieu Decorde il y a plus de 9 ans
- % réalisé changé de 0 à 80
#2 Mis à jour par Alexey Lavrentev il y a plus de 9 ans
- Description mis à jour (diff)
#3 Mis à jour par Sebastien Jacquot il y a plus d'un an
- Statut changé de New à Closed
#4 Mis à jour par Sebastien Jacquot il y a plus d'un an
- % réalisé changé de 80 à 100