Wiki

Version 2 (Severine Gedzelman, 17/07/2018 17:25) → Version 3/15 (Francois Robert, 26/09/2018 11:58)

h1. Wiki

h2. Récupération des données du fichier PDF

h3. Utilisation du service OCR d'Huma-Num

* avec Filezilla, placer dans le dossier "ocr" de l'espace commun : triangle@mygrid.huma-num.fr, le fichier pdf source

* puis en ligne de commande, exécuter ainsi :

<pre><code>
$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml

puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/
</code></pre>



h2. Conception du modèle des données



<pre><code>
Les rubriques types sont les suivantes :
N° d'ordre:
Date de dépôt:
Référence d'enliassement :
Date de l'acte:
Nature de l'acte:
Rédacteur

Disposition n° x de la formalité

Disposants
Numéro :
Désignation des Personnes :
Date de Naissance ou N° d'identité :

Bénéficiaire(s)
Numéro :
Désignation des Personnes :
Date de Naissance ou N° d'identité :

Immeubles
Bénéficiaires :
Droits :
Désignation cadastrale :
Volume :
Lot :
</code></pre>
sachant qu'il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.