Transformation sur les premières publications¶
Extraction de la section "Ordine per quantità di prime pubblicazioni in rivista"¶
Cette extraction s'est faite à la main, en ouvrant les fichiers un par un et en sélectionnant les paragraphes dans la section intitulée "Ordine per quantità di prime pubblicazioni in rivista" et en copiant cette section dans un fichier .txt pour chaque auteur. Ex: attachment:"Act5_DeAmicis.txt"
Illustrazione Italiana (57 novelle): 1874; 1875 (3); 1876; 1879; 1883; 1884; 1886 (2); 1888; 1889; 1890; 1891; 1896 (4); 1897; 1899; 1900 (3); 1903; 1904 (5); 1905 (5); 1906 (8); 1907 (10); 1908 (5)
Nuova Antologia (14 novelle): 1868 (2); 1869 (2); 1870; 1871 (2); 1872; 1886 (2); 1891 (3); 1900
L’Italia Militare (13 novelle): 1867 (10); 1868 (3)
Nazione (3 novelle): 1868 (2); 1869
Gazzetta d’Italia: 1868
Rivista d’Italia: 1899
La Lettura: 1902
Grido: 1907
Gazzetta Letteraria: 1881 (*si tratta di alcuni Ritratti letterari)
Cronaca Bizantina: 1886 (*si tratta di alcune pagine che poi formeranno Sull’Oceano)
La Tribuna: 1889 (*si tratta di alcune pagine che poi formeranno Sull’Oceano); 1897 (* si tratta de Gli azzurri e i rossi)
Script(s) de transformation¶
Grâce à la régularité des lignes écrites par Marco, dans les fichiers origine .doc (format word), à la section "premières publications", on peut facilement extraire et construire les informations avec un script Python
Exemples de ligne :
La Gazzetta del Popolo: 1906 su più numeri
Nazione (3 novelle): 1868 (2); 1869
- Avant les ":", nom du journal
- Si il y a des parenthèses, il s'agit d'un commentaire
- Après les ":", liste des dates
- chaque date est séparée par un ";"
- chaque date peut avoir un commentaire associé entre parenthèses "(...)", si il s'agit d'un chiffre, celui-ci correspond au nombre de publications dans ce journal cette année là
On obtient deux fichiers :
- attachment:table_papers.csv, généré par le script
- attachment:table_publications.csv, généré par le script
Script "doc2base"¶
Lancement du script ainsi : celui-ci attend deux paramètres- le dossier de sortie pour les résultats "output",
- le dossier avec les fichiers .txt en entrée "input"
$ cd ~/Documents/workspaceGit/MarcoBorelli/Transformation/FirstPublications
$ python scripts/doc2base.py output/ input/
Script "queryDB"¶
Un deuxième script a été préparé pour aider à fabriquer une matrice (attachment:nbpublications_perjournal_peryear.csv) avec le nombre de publications par année pour chaque journal. Après un petit travail (total de publications par année tout journaux confondu ou total de publications par journal toutes années confondues), une synthèse se trouve dans attachment:nbpublications_perjournal_peryear.xls
$ ~/ownCloud/Sev/Projets/Triangle/Doctorants/ProjetMarcoBorelli/Transformation/Step2
$ python queryDB.py output/ input/
id_paper | nom | first_date | last_date | NB publications per journal | NB Auteurs | authors |
---|---|---|---|---|---|---|
Paper19 | [NUOVA ANTOLOGIA] | 1868 | 1938 | 121 | 16 | Act11, Act12, Act13, Act14, Act15, Act18, Act19, Act1, Act20, Act23, Act25, Act26, Act3, Act5, Act7, Act8, |
Paper26 | [FANFULLA DELLA DOMENICA] | 1878 | 1911 | 112 | 13 | Act12, Act13, Act15, Act16, Act1, Act23, Act26, Act27, Act3, Act6, Act7, Act8, Act9, |
Paper18 | [ILLUSTRAZIONE ITALIANA] | 1874 | 1922 | 90 | 11 | Act11, Act13, Act17, Act20, Act21, Act23, Act26, Act2, Act3, Act5, Act6, |
Paper83 | [LA TRIBUNA] | 1884 | 1917 | 53 | 6 | Act18, Act19, Act3, Act4, Act5, Act8, |
Paper52 | [LA LETTURA] | 1901 | 1936 | 51 | 8 | Act14, Act18, Act19, Act2, Act3, Act5, Act7, Act8, |
Prévoir de faire un bilan par auteur sur le nombre de publication par année, par journal.