Documents
User documentation
Test OCR + transformation en RTF
30/09/2015 22:58
Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format RTF
Test OCR + transformation en TXT
30/09/2015 22:59
Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format TXT brut (encoding UTF-8)
Test OCR + transformation en XML office
30/09/2015 23:00
Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format XML (windows)
Test OCR (format de sortie .docx)
01/10/2015 23:00
Fichiers sortis (OUT) de l'OCR (service d'Huma-Num). Un certain nombre d'avertissements sont notés dans le fichier "Log", cela peut concerner le réalignement conseillé de l'image, la mauvaise detection de la langue ou police, etc ...
Corpus test pour TXM
01/10/2015 23:24
A titre d'exemple pour importer dans TXM, voici un corpus comprenant :
- les 8 fichiers (passe OCR)
- et ceux (PDF texte) déjà transformés en .txt
avec des métadonnées très pauvres : - id (correspond au nom du fichier, clé d'identification plus courte qu'un nom)
...
Corpus TXM (dernière version 2015 de Renaud Morel)
08/06/2017 14:20
Corpus PEDT (pdf) - sources 1
08/06/2017 09:56
Corpus PEDT (pdf) - sources 2
08/06/2017 09:58
Sources Barcelona - T1
11/07/2017 16:19
4 archives (.zip) :
- page 7 à page 44
- page 265 à page 302
- page 305 à page 343
- page 344 à 407
Sources Barcelona - T2
11/07/2017 16:25
Trois archives (.zip) :
- page 161 à page 230
- page 231 à page 265
- page 266 à page 314
Sources Barcelona - T3 (fr)
11/07/2017 16:28
Sources Barcelona - T4
11/07/2017 16:31
Barcelona - Métadonnées
11/07/2017 17:48
Le fichier des métadonnées (inventaire des sources) contient plusieurs onglets,
- un par source (t1, t2, t3, t4)
- et un onglet par fichier de métadonnées pour TXM (txm_fr, txm_ca)
- ainsi que le descriptif global des sources
Corpus TXM "Barcelona" en catalan
11/07/2017 18:13
Corpus TXM "Barcelona" en français
11/07/2017 18:14