Transformation sur les premières publications

Extraction de la section "Ordine per quantità di prime pubblicazioni in rivista"

Cette extraction s'est faite à la main, en ouvrant les fichiers un par un et en sélectionnant les paragraphes dans la section intitulée "Ordine per quantità di prime pubblicazioni in rivista" et en copiant cette section dans un fichier .txt pour chaque auteur. Ex: attachment:"Act5_DeAmicis.txt"


Illustrazione Italiana (57 novelle): 1874; 1875 (3); 1876; 1879; 1883; 1884; 1886 (2); 1888; 1889; 1890; 1891; 1896 (4); 1897; 1899; 1900 (3); 1903; 1904 (5); 1905 (5); 1906 (8); 1907 (10); 1908 (5)
Nuova Antologia (14 novelle): 1868 (2); 1869 (2); 1870; 1871 (2); 1872; 1886 (2); 1891 (3); 1900
L’Italia Militare (13 novelle): 1867 (10); 1868 (3)
Nazione (3 novelle): 1868 (2); 1869
Gazzetta d’Italia: 1868
Rivista d’Italia: 1899
La Lettura: 1902
Grido: 1907 
Gazzetta Letteraria: 1881 (*si tratta di alcuni Ritratti letterari)
Cronaca Bizantina: 1886 (*si tratta di alcune pagine che poi formeranno Sull’Oceano)
La Tribuna: 1889 (*si tratta di alcune pagine che poi formeranno Sull’Oceano); 1897 (* si tratta de Gli azzurri e i rossi)

Script(s) de transformation

Grâce à la régularité des lignes écrites par Marco, dans les fichiers origine .doc (format word), à la section "premières publications", on peut facilement extraire et construire les informations avec un script Python

Exemples de ligne :


La Gazzetta del Popolo: 1906 su più numeri
Nazione (3 novelle): 1868 (2); 1869
  • Avant les ":", nom du journal
    • Si il y a des parenthèses, il s'agit d'un commentaire
  • Après les ":", liste des dates
    • chaque date est séparée par un ";"
    • chaque date peut avoir un commentaire associé entre parenthèses "(...)", si il s'agit d'un chiffre, celui-ci correspond au nombre de publications dans ce journal cette année là
Il y a une série de problèmes et il faut nettoyer/homogénéïser les données, voir Nettoyage des sources
On obtient deux fichiers :
  • attachment:table_papers.csv, généré par le script
  • attachment:table_publications.csv, généré par le script

Script "doc2base"

Lancement du script ainsi : celui-ci attend deux paramètres
  • le dossier de sortie pour les résultats "output",
  • le dossier avec les fichiers .txt en entrée "input"

$ cd ~/Documents/workspaceGit/MarcoBorelli/Transformation/FirstPublications
$ python scripts/doc2base.py output/ input/

Script "queryDB"

Un deuxième script a été préparé pour aider à fabriquer une matrice (attachment:nbpublications_perjournal_peryear.csv) avec le nombre de publications par année pour chaque journal. Après un petit travail (total de publications par année tout journaux confondu ou total de publications par journal toutes années confondues), une synthèse se trouve dans attachment:nbpublications_perjournal_peryear.xls


$ ~/ownCloud/Sev/Projets/Triangle/Doctorants/ProjetMarcoBorelli/Transformation/Step2 
$ python queryDB.py output/ input/
id_paper nom first_date last_date NB publications per journal NB Auteurs authors
Paper19 [NUOVA ANTOLOGIA] 1868 1938 121 16 Act11, Act12, Act13, Act14, Act15, Act18, Act19, Act1, Act20, Act23, Act25, Act26, Act3, Act5, Act7, Act8,
Paper26 [FANFULLA DELLA DOMENICA] 1878 1911 112 13 Act12, Act13, Act15, Act16, Act1, Act23, Act26, Act27, Act3, Act6, Act7, Act8, Act9,
Paper18 [ILLUSTRAZIONE ITALIANA] 1874 1922 90 11 Act11, Act13, Act17, Act20, Act21, Act23, Act26, Act2, Act3, Act5, Act6,
Paper83 [LA TRIBUNA] 1884 1917 53 6 Act18, Act19, Act3, Act4, Act5, Act8,
Paper52 [LA LETTURA] 1901 1936 51 8 Act14, Act18, Act19, Act2, Act3, Act5, Act7, Act8,

Prévoir de faire un bilan par auteur sur le nombre de publication par année, par journal.