« Précédent -
Version 3/15
(diff) -
Suivant » -
Version actuelle
Francois Robert, 26/09/2018 11:58
Wiki¶
Récupération des données du fichier PDF¶
Utilisation du service OCR d'Huma-Num¶
- avec Filezilla, placer dans le dossier "ocr" de l'espace commun : triangle@mygrid.huma-num.fr, le fichier pdf source
- puis en ligne de commande, exécuter ainsi :
$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml
puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/
Conception du modèle des données¶
Les rubriques types sont les suivantes :
N° d'ordre:
Date de dépôt:
Référence d'enliassement :
Date de l'acte:
Nature de l'acte:
Rédacteur
Disposition n° x de la formalité
Disposants
Numéro :
Désignation des Personnes :
Date de Naissance ou N° d'identité :
Bénéficiaire(s)
Numéro :
Désignation des Personnes :
Date de Naissance ou N° d'identité :
Immeubles
Bénéficiaires :
Droits :
Désignation cadastrale :
Volume :
Lot :
sachant qu'il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.