Wiki
Version 3 (Francois Robert, 26/09/2018 11:58) → Version 4/15 (Severine Gedzelman, 17/10/2018 11:18)
h1. Wiki
h2. Récupération des données du fichier PDF
h3. Utilisation du service OCR d'Huma-Num
* avec Filezilla, placer dans le dossier "ocr" de l'espace commun : triangle@mygrid.huma-num.fr, le fichier pdf source
* puis en ligne de commande, exécuter ainsi :
<pre><code>
$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml
puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/
</code></pre>
h2. Conception du modèle des données
|_. Nom colonne excel Francois |_. Variable code python |_. valeur exemple |_. texte qui précède dans le pdf|
<pre><code>
Les rubriques types sont les suivantes :
N° d'ordre:
Date de dépôt:
Référence d'enliassement :
Date de l'acte:
Nature de l'acte:
Rédacteur
1 105 1b 2009 BAIL COURLY GLH AO 25 69001 55 ans, 53 450 € après Disposition n° x de la 40e année
1 107 1b 2009 vente vente Favre GLH 56 160 AV 40 69009
| Bureau | office | 1 (default value) | | formalité
Disposants
| num | ordernum | 105 | "N° d'ordre:" | Numéro :
| Fichier | file | 1b (default value) | | Désignation des Personnes :
| année acte | year | 2009 | laquelle parmi celles-ci Date de Naissance ou N° d'identité : "_Date de dépôt_", "_Référence d'enliassement_", "_Date de l'acte_" |
Bénéficiaire(s)
| nature simplifiée | | | | Numéro :
| nature acte | nature | voir liste ci-après | "_Nature Désignation des Personnes :
Date de l'acte:_" | Naissance ou N° d'identité :
Immeubles
| Donateur | donator | COURLY (acronyme Francois) | | Bénéficiaires :
| Donataire | beneficiary | GLH (acronyme Francois) | | Droits :
| Montant | sum | 56 160 | uniquement quand il y a eu une *vente* | Désignation cadastrale :
| Cadastre | registry | AO 25 | uniquement quand il y a eu un *bail* ou une *vente*| Volume :
| Localisation | localization | 69001 | uniquement quand il y a eu un *bail* ou une *vente* |
| Notes | notes | | "_Complément:_" |
Liste des options possibles pour la nature de l'acte Lot :
* BAIL EMPHYTEOTIQUE,
* CONSTITUTION DE SERVITUDES,
* CORRECTION DE FORMALITE,
* VENTE, CHANGEMENT DE DENOMINATION,
* ETAT DESCRIPTIF DE DIVISION EN VOLUMES,
* BAIL A CONSTRUCTION, INFIRMATION DE MISE EN INSTANCE DE REJET,
* EMPHYTEOSE,
* VENTE ET ANNULATION EDD,
* etc.
h2. Script pour attraper les données
Quand
* vente, chercher *un prix* et regarder les compléments </code></pre>
* bail (à construire, emphytéotique) ou emphytéose, chercher *une durée*
Attention il sachant qu'il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.
h2. Récupération des données du fichier PDF
h3. Utilisation du service OCR d'Huma-Num
* avec Filezilla, placer dans le dossier "ocr" de l'espace commun : triangle@mygrid.huma-num.fr, le fichier pdf source
* puis en ligne de commande, exécuter ainsi :
<pre><code>
$ ssh triangle@mygrid.huma-num.fr
$ abbyyocr11 -rl French -if GLH-Pub_Fonciere-bureau1et2_pages2-3.pdf -f XML -of test2-fr.xml
puis en local :
$ scp -p 22 triangle@mygrid.huma-num.fr:~/ocr/test2-fr.xml Documents/workspaceGit/FrancoisRobert/output/
</code></pre>
h2. Conception du modèle des données
|_. Nom colonne excel Francois |_. Variable code python |_. valeur exemple |_. texte qui précède dans le pdf|
<pre><code>
Les rubriques types sont les suivantes :
N° d'ordre:
Date de dépôt:
Référence d'enliassement :
Date de l'acte:
Nature de l'acte:
Rédacteur
1 105 1b 2009 BAIL COURLY GLH AO 25 69001 55 ans, 53 450 € après Disposition n° x de la 40e année
1 107 1b 2009 vente vente Favre GLH 56 160 AV 40 69009
| Bureau | office | 1 (default value) | | formalité
Disposants
| num | ordernum | 105 | "N° d'ordre:" | Numéro :
| Fichier | file | 1b (default value) | | Désignation des Personnes :
| année acte | year | 2009 | laquelle parmi celles-ci Date de Naissance ou N° d'identité : "_Date de dépôt_", "_Référence d'enliassement_", "_Date de l'acte_" |
Bénéficiaire(s)
| nature simplifiée | | | | Numéro :
| nature acte | nature | voir liste ci-après | "_Nature Désignation des Personnes :
Date de l'acte:_" | Naissance ou N° d'identité :
Immeubles
| Donateur | donator | COURLY (acronyme Francois) | | Bénéficiaires :
| Donataire | beneficiary | GLH (acronyme Francois) | | Droits :
| Montant | sum | 56 160 | uniquement quand il y a eu une *vente* | Désignation cadastrale :
| Cadastre | registry | AO 25 | uniquement quand il y a eu un *bail* ou une *vente*| Volume :
| Localisation | localization | 69001 | uniquement quand il y a eu un *bail* ou une *vente* |
| Notes | notes | | "_Complément:_" |
Liste des options possibles pour la nature de l'acte Lot :
* BAIL EMPHYTEOTIQUE,
* CONSTITUTION DE SERVITUDES,
* CORRECTION DE FORMALITE,
* VENTE, CHANGEMENT DE DENOMINATION,
* ETAT DESCRIPTIF DE DIVISION EN VOLUMES,
* BAIL A CONSTRUCTION, INFIRMATION DE MISE EN INSTANCE DE REJET,
* EMPHYTEOSE,
* VENTE ET ANNULATION EDD,
* etc.
h2. Script pour attraper les données
Quand
* vente, chercher *un prix* et regarder les compléments </code></pre>
* bail (à construire, emphytéotique) ou emphytéose, chercher *une durée*
Attention il sachant qu'il peut y avoir plusieurs Dispositions, Disposants, Bénéficiaires/donataires et Immeubles et Lots.