Wiki

Récupération des données du fichier PDF

Utilisation du service OCR d'Huma-Num

  • puis en ligne de commande, exécuter ainsi :

$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml

puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/

Conception du modèle des données

Francois a commencé à faire de la saisie et propose ce modèle de données pour le fichier excel.

Nom colonne excel Francois Variable code python valeur exemple remarque ou texte qui précède dans le pdf
Bureau office 1 (default value)
num ordernum 105 N° d'ordre:
Fichier file 1b (default value)
année acte year 2009 laquelle parmi celles-ci : Date de dépôt, Référence d'enliassement, Date de l'acte
nature simplifiée
nature acte nature voir liste ci-après Nature de l'acte:
Donateur donator COURLY (acronyme de F.)
Donataire beneficiary GLH (acronyme de F.)
Montant sum 56 160 uniquement quand il y a eu une vente
Cadastre registry AO 25 uniquement quand il y a eu un bail ou une vente
Localisation localization 69001 uniquement quand il y a eu un bail ou une vente
Notes notes 55 ans, 53 450 € après la 40e année (synthèse de F.) Complément:
Liste des options possibles pour la nature de l'acte :
  • BAIL EMPHYTEOTIQUE,
  • CONSTITUTION DE SERVITUDES,
  • CORRECTION DE FORMALITE,
  • VENTE, CHANGEMENT DE DENOMINATION,
  • ETAT DESCRIPTIF DE DIVISION EN VOLUMES,
  • BAIL A CONSTRUCTION, INFIRMATION DE MISE EN INSTANCE DE REJET,
  • EMPHYTEOSE,
  • VENTE ET ANNULATION EDD,
  • etc.

Script pour attraper les données

Quand
  • vente, chercher un prix et regarder les compléments
  • bail (à construire, emphytéotique) ou emphytéose, chercher une durée

Attention il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.