Documents

User documentation

Test OCR + transformation en RTF

30/09/2015 22:58

Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format RTF

Test OCR + transformation en TXT

30/09/2015 22:59

Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format TXT brut (encoding UTF-8)

Test OCR + transformation en XML office

30/09/2015 23:00

Après l'OCR, passage dans OfficeWord pour obtenir des fichiers au format XML (windows)

Test OCR (format de sortie .docx)

01/10/2015 23:00

Fichiers sortis (OUT) de l'OCR (service d'Huma-Num). Un certain nombre d'avertissements sont notés dans le fichier "Log", cela peut concerner le réalignement conseillé de l'image, la mauvaise detection de la langue ou police, etc ...

Corpus test pour TXM

01/10/2015 23:24

A titre d'exemple pour importer dans TXM, voici un corpus comprenant :
  • les 8 fichiers (passe OCR)
  • et ceux (PDF texte) déjà transformés en .txt
    avec des métadonnées très pauvres :
  • id (correspond au nom du fichier, clé d'identification plus courte qu'un nom)
    ...

Corpus TXM (dernière version 2015 de Renaud Morel)

08/06/2017 14:20

Corpus PEDT (pdf) - sources 1

08/06/2017 09:56

Corpus PEDT (pdf) - sources 2

08/06/2017 09:58

Sources Barcelona - T1

11/07/2017 16:19

4 archives (.zip) :
  • page 7 à page 44
  • page 265 à page 302
  • page 305 à page 343
  • page 344 à 407

Sources Barcelona - T2

11/07/2017 16:25

Trois archives (.zip) :
  • page 161 à page 230
  • page 231 à page 265
  • page 266 à page 314

Sources Barcelona - T3 (fr)

11/07/2017 16:28

Sources Barcelona - T4

11/07/2017 16:31

Barcelona - Métadonnées

11/07/2017 17:48

Le fichier des métadonnées (inventaire des sources) contient plusieurs onglets,
  • un par source (t1, t2, t3, t4)
  • et un onglet par fichier de métadonnées pour TXM (txm_fr, txm_ca)
  • ainsi que le descriptif global des sources

Corpus TXM "Barcelona" en catalan

11/07/2017 18:13

Corpus TXM "Barcelona" en français

11/07/2017 18:14