Wiki¶
Récupération des données du fichier PDF¶
Utilisation du service OCR d'Huma-Num¶
- avec Filezilla, placer dans le dossier "ocr" de l'espace commun : triangle@mygrid.huma-num.fr, le fichier pdf source
- puis en ligne de commande, exécuter ainsi :
$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml
puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/
Conception du modèle des données¶
Francois a commencé à faire de la saisie et propose ce modèle de données pour le fichier excel.
Nom colonne excel Francois | Variable code python | valeur exemple | remarque ou texte qui précède dans le pdf |
---|---|---|---|
Bureau | office | 1 (default value) | |
num | ordernum | 105 | N° d'ordre: |
Fichier | file | 1b (default value) | |
année acte | year | 2009 | laquelle parmi celles-ci : Date de dépôt, Référence d'enliassement, Date de l'acte |
nature simplifiée | |||
nature acte | nature | voir liste ci-après | Nature de l'acte: |
Donateur | donator | COURLY (acronyme de F.) | |
Donataire | beneficiary | GLH (acronyme de F.) | |
Montant | sum | 56 160 | uniquement quand il y a eu une vente |
Cadastre | registry | AO 25 | uniquement quand il y a eu un bail ou une vente |
Localisation | localization | 69001 | uniquement quand il y a eu un bail ou une vente |
Notes | notes | 55 ans, 53 450 € après la 40e année (synthèse de F.) | Complément: |
- BAIL EMPHYTEOTIQUE,
- CONSTITUTION DE SERVITUDES,
- CORRECTION DE FORMALITE,
- VENTE, CHANGEMENT DE DENOMINATION,
- ETAT DESCRIPTIF DE DIVISION EN VOLUMES,
- BAIL A CONSTRUCTION, INFIRMATION DE MISE EN INSTANCE DE REJET,
- EMPHYTEOSE,
- VENTE ET ANNULATION EDD,
- etc.
Script pour attraper les données¶
Quand- vente, chercher un prix et regarder les compléments
- bail (à construire, emphytéotique) ou emphytéose, chercher une durée
Attention il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.