« Précédent - Version 57/107 (diff) - Suivant » - Version actuelle
Severine Gedzelman, 07/06/2018 10:40


Publication des nouvelles en Italie au 19ème siècle

Les nouvelles sont publiées pour la première fois dans des journaux ou revues, avant d'être republié dans un autre journal ou de trouver une maison d'édition pour une publication ultérieure. Marco Borelli étudie ces journaux et un certain nombre d'auteurs sur la période 1861 - 1920.

Objectifs

A RENSEIGNER

Si il est envisagé de publier les données (stockées en base), sur un site web. Peut-être que le système de la Page Professionelle Individuelle (PPI) de l'ENS (avec de la configuration PHP et MySQL) est une solution, voir https://perso.ens-lyon.fr/ (à discuter avec Francis Mamane)

Sources

Les sources de données peuvent être
- des index de ces journaux qui les publient à chaque fin d'année.
- d'autres travaux de recherche précédents
- des ouvrages édités par des spécialistes sur un ou plusieurs de ces auteurs
- les nouvelles elles-mêmes ?

Peut-on avoir un exemple de source (image prise aux archives, ...) ?

Marco pourrait construire une base bibliographique de ces sources avec Zotéro (voir avec Cécile) et ces sources pourront être versées dans la base de donnée (afin d'avoir un identifiant et de faire le lien avec la table de "publication")

Données construites par Marco

Marco présente dans son fichier "auteur" plusieurs sections à propos des publications de cet auteur. Attention, ce n'est pas toujours intitulé de la même manière selon les fichiers :

  1. Ordine assoluto : Nombre de publications (premières et ultérieures) (ex: commentaire dans la fiche de "Deledda" : _per quantificare la presenza della Deledda in rivista comprese le ripubblicazioni)
  2. Ordine per prime pubblicazioni : liste des journaux (et autres) qui ont permis la première publication de chaque nouvelle de l'auteur
  3. Novelle già uscite altrove ma che vengono riproposte ancora in rivista : publications ultérieures
  4. Cronologia : le nombre de publication par journal, regroupée par date

NB : Certaines sections comme Cronologia ou Ordine assoluo peuvent en réalité être calculées sur la base du détail des publications comme dans "_Ordine per prime pubblicazioni_". C'est l'objet de notre travail ici, d'extraire les données et de préparer une base de données sur laquelle Marco pourra se baser pour faire des décomptes, des croisement d'information. De même, que des ajouts, dès qu'il trouve un nouvel auteur ou une nouvelle source de publication concernant un auteur présent dans la BD. Il sera plus facile de relancer les calculs automatiquement à chaque nouvel ajout.

Nous avons eu un premier lot de Premiers lots de documents auteur , qui a permis d'étudier les types de données manipulées par Marco. Voici un Exemple de fiche d'origine.

Base de données

Plusieurs tables seront construites en partant des données situées dans les fichiers de Marco. Il faudra pour certains champs, les enrichir par la suite (VILLE, NOM, DATE, etc ...)

Table des journaux

  • id_paper : calculé automatiquement d'après le script
  • name : à compléter
  • computered_name : tout en majuscule, généré par le script pour contourner les problèmes d'ambiguïtés orthographiques
  • comment : commentaire libre possible, à compléter
  • type : type de presse (type de publications habituellement promue)
  • tirage : quotidien, hebdo, mensuel, annuel
  • start_date : année de naissance de ce journal, à compléter
  • first_date_in_file : année de la publication la plus tôt dans ce journal d'après les données de Marco
  • end_date : année de dissolution du journal à compléter (si le journal change de nom, on a une autre entrée dans la base correspond à celui-ci, une liaison possible serait à coder dans une table supplémentaire)
  • last_date_in_file : année de la publication la plus tard dans ce journal d'après les données de Marco
  • authors : liste des identifiants des auteurs ayant été publiés dans ce journal
  • city : nom de la ville à compléter

Exemples : les données de ces champs ci-après sont obtenus grâce au script python sur les données d'origine de Marco

id_paper computered_name first_date_in_file last_date_in_file authors
Paper3 [CRONACA BIZANTINA] 1882 1886 Act10, Act15, Act16, Act23, Act26, Act3, Act4, Act5,
Paper359 [IL GRILLO DEL FOCOLARE] 1907 1907 Act6,
Paper115 [LA TRIBUNA ILLUSTRATA DELLA DOMENICA] 1894 1894 Act19,
Paper116 [LA TRIBUNA ILLUSTRATA] 1891 1915 Act19, Act3, Act3, Act8, Act8, Act9,

Table des auteurs

Les données ont été extraites manuellement, depuis les fichiers de Marco, sauf les champs à compléter ultérieurement avec d'autres sources de données

  • id_actor : attribution manuelle, avec un préfixe "Act" et un numéro qui s'incrémente (on a pris l'ordre des noms)
  • nom
  • prenom
  • pseudonyme : certains auteurs sont connus par leur pseudonyme, ex: ITALO SVEVO (pour Ettore SCHMITZ), NEERA (pour Anna ZUCCARI)
  • id_viaf : identifiant fédérant d'autres identifiants de divers référentiels
  • gender : H ou F
  • birth_date
  • birth_place
  • birth_place_comment
  • death_date
  • death_place
  • death_place_comment : commentaire associé au lieu (souvent une indication précisant la région, etc...)
  • uri_wikidata
  • url_wikipedia : url de la page wikipedia fr correspondant à cet auteur, si il n'existe pas dans wikipedia fr, on donnera celle de wikipedia it
  • comment : pour l'instant il s'agit du titre de la section (si différente de ...)
id_actor nom prenom pseudonyme id_viaf gender birth_date birth_place birth_place_comment death_date death_place death_place_comment uri_wikidata url_wikipedia comment
Act22 SCHMITZ ETTORE ITALO SVEVO lien H 1861 Trieste 1928 Motta di Livenza lien lien
Act23 SERAO MATILDE lien F 1856 Patrasso 1927 Napoli lien lien Ordine per quantità di prime pubblicazioni in rivista

Table des publications

  • id_publication
  • nom : par défaut "UNKNOWN" car Marco ne recense pas cette information pour l'instant (du moins pas dans la section extraite), cette information n'est d'ailleurs pas toujours présente dans les index de journaux. Remarque : le thème pourrait être un élément distinctif à la place du nom.
  • year : on n'a pas beaucoup plus d'information
  • comment : ce qui était noté à côté à propos de la publication (entre parenthèses ou après le nombre de publi entre parenthèses)
  • id_author (clé secondaire)
  • id_paper (clé secondaire)
  • id_source : pour l'instant inexistant (il faudrait pouvoir noter la source ayant permis de récolter ces informations de publications, dans une base Zotéro par exemple)
id_publication nom year comment id_author id_paper id_source
Publi1-1 UNKNOWN 1879 Act10 Paper1
Publi1-2 UNKNOWN 1879 Act10 Paper1
Publi11-1 UNKNOWN 1885 Act10 Paper11
Publi12-1 UNKNOWN 1874 *ma uno già in «Arte in Italia» Act11 Paper12

Transformation des données vers la base

Extraction de la section "Ordine per quantità di prime pubblicazioni in rivista"

Cette extraction s'est faite à la main, en ouvrant les fichiers un par un et en sélectionnant les paragraphes dans la section intitulée "Ordine per quantità di prime pubblicazioni in rivista" et en copiant cette section dans un fichier .txt pour chaque auteur. Ex: attachment:"Act5_DeAmicis.txt"


Illustrazione Italiana (57 novelle): 1874; 1875 (3); 1876; 1879; 1883; 1884; 1886 (2); 1888; 1889; 1890; 1891; 1896 (4); 1897; 1899; 1900 (3); 1903; 1904 (5); 1905 (5); 1906 (8); 1907 (10); 1908 (5)
Nuova Antologia (14 novelle): 1868 (2); 1869 (2); 1870; 1871 (2); 1872; 1886 (2); 1891 (3); 1900
L’Italia Militare (13 novelle): 1867 (10); 1868 (3)
Nazione (3 novelle): 1868 (2); 1869
Gazzetta d’Italia: 1868
Rivista d’Italia: 1899
La Lettura: 1902
Grido: 1907 
Gazzetta Letteraria: 1881 (*si tratta di alcuni Ritratti letterari)
Cronaca Bizantina: 1886 (*si tratta di alcune pagine che poi formeranno Sull’Oceano)
La Tribuna: 1889 (*si tratta di alcune pagine che poi formeranno Sull’Oceano); 1897 (* si tratta de Gli azzurri e i rossi)

Script de transformation

Grâce à la régularité des lignes écrites par Marco, dans les fichiers origine .doc (format word), à la section "premières publications", on peut facilement extraire et construire les informations avec un script Python

Exemples de ligne :


La Gazzetta del Popolo: 1906 su più numeri
Nazione (3 novelle): 1868 (2); 1869
  • Avant les ":", nom du journal
    • Si il y a des parenthèses, il s'agit d'un commentaire
  • Après les ":", liste des dates
    • chaque date est séparée par un ";"
    • chaque date peut avoir un commentaire associé entre parenthèses "(...)", si il s'agit d'un chiffre, celui-ci correspond au nombre de publications dans ce journal cette année là
On obtient deux fichiers :
  • attachment:table_papers.csv, généré par le script
  • attachment:table_publications.csv, généré par le script

Lancement du script (celui-ci attend deux paramètres : le dossier de sortie pour les résultats, le dossier avec les fichiers .txt en entrée)


$ cd ~/ownCloud/Sev/Projets/Triangle/Doctorants/ProjetMarcoBorelli/Transformation/Step1
$ python script/doc2base.py output/ input/

Un deuxième script a été préparé pour aider à fabriquer une matrice (attachment:nbpublications_perjournal_peryear.csv) avec le nombre de publications par année pour chaque journal. Après un petit travail (total de publications par année tout journaux confondu ou total de publications par journal toutes années confondues), une synthèse se trouve dans attachment:nbpublications_perjournal_peryear.xls


$ ~/ownCloud/Sev/Projets/Triangle/Doctorants/ProjetMarcoBorelli/Transformation/Step2 
$ python queryDB.py output/ input/
id_paper nom first_date last_date NB publications per journal NB Auteurs authors
Paper19 [NUOVA ANTOLOGIA] 1868 1938 121 16 Act11, Act12, Act13, Act14, Act15, Act18, Act19, Act1, Act20, Act23, Act25, Act26, Act3, Act5, Act7, Act8,
Paper26 [FANFULLA DELLA DOMENICA] 1878 1911 112 13 Act12, Act13, Act15, Act16, Act1, Act23, Act26, Act27, Act3, Act6, Act7, Act8, Act9,
Paper18 [ILLUSTRAZIONE ITALIANA] 1874 1922 90 11 Act11, Act13, Act17, Act20, Act21, Act23, Act26, Act2, Act3, Act5, Act6,
Paper83 [LA TRIBUNA] 1884 1917 53 6 Act18, Act19, Act3, Act4, Act5, Act8,
Paper52 [LA LETTURA] 1901 1936 51 8 Act14, Act18, Act19, Act2, Act3, Act5, Act7, Act8,

Prévoir de faire un bilan par auteur sur le nombre de publication par année, par journal.

Correction de données

En amont du script, voir ce fichier de suivi :
  • correction des "," en ";" dans l'énumération des dates
  • correction des "(" collé à la date
  • suppression du ";" en fin de ligne (on aurait pu ajouter cette action en pré-traitement des lignes)
  • suppression de "novelle" dans les parenthèses (ex: chez act7_DeRoberto.txt "Il Capitan cortese (9 novelle): 1895 (4 novelle); 1896 (5 novelle); ancora 1896 *una ma già in Vita Nuova 1891") pour n'avoir qu'un nombre de publications
  • modification de chaînes ayant deux dates pour en avoir plus qu'une seule (ex: 1901 pour "1901/1902 (in due puntate)"), cette double date est placée dans un commentaire
  • synthèse sur les dates répétées en mettant un nombre de publications entre parenthèse (ex: chez act16_NavarrodellaMiraglia.txt "Capitan Fracassa (7 novelle): 1880 (5 novelle); 1881; 1881" devient "1881 (2)")

ATTENTION des erreurs d'extraction sont faites dans les commentaires qui contiennent parfois le nombre de publications, ex : "1874 (5 ma uno già in «Arte in Italia»)". Il faut donc vérifier tous les commentaires du fichier "table_publications". *Marco doit me confirmer chaque ligne nécessitant ce changement !!!!

Autres questions :
  1. Que fait-on de ce doublon de nom de journal "La Tribuna Illustrata" chez Act7_DeRoberto ?
  2. Que fait-on de ce doublon de date 1881 sur le journal : "Il Monitore" chez Act16_NavarrodellaMiraglia ?

Exemples :


### Act7_DeRoberto ###
 La Tribuna Illustrata (prima rivista):  1891
 La Tribuna Illustrata (settimanale con vari titoli dal 1893 al 1918): 1902 (la prima Tribuna Illustrata prima settimanale e poi mensile viene interrotta nel 1896, poi questo stesso titolo viene riutilizzato a partire dal 1902 per «La Tribuna Illustrata della Domenica» 1897-1901 che ancora prima era «La Tribuna. Supplemento Illustrato della Domenica» 1893-1896)

### Act16_NavarrodellaMiraglia.txt ###
Il Monitore (10): 1881 (5 novelle); sempre 1881 (* 3 novelle ma di cui 2 già su La Fronda 1880 e uno già in Capitan Fracassa 1880); 1882 (5 novelle); chez **act16_NavarrodellaMiraglia.txt** ?

En aval du script
  • A-t-on vraiment deux journaux : [RIVISTA NUOVA DI SCIENZE, LETTERE E ARTI] et [RIVISTA NUOVA DI SCIENZE, LETTERE DE ARTI] (Paper297, voir le fichier Act3).

Interrogation pour d'autres données sur les auteurs (VIAF, etc..)


SELECT 
?name 
?birth 
?death 
?person 
WHERE {      
?person dbo:birthPlace :Rome .      
?person dbo:birthDate ?birth .      
?person foaf:name ?name .      
?person dbo:deathDate ?death .      
FILTER (?birth > "1860-01-01"^^xsd:date) . } 
ORDER BY ?name

SELECT ?name ?birth ?death ?person 
WHERE {     
?person dbo:birthPlace :Rome .      
?person dbo:birthDate ?birth .      
?person foaf:name ?name .      
?person dbo:deathDate ?death .
FILTER ((?birth > "1800-01-01"^^xsd:date) &&
           contains( ?name,  "Boito" ))
} ORDER BY ?name
Exemple :

dbpedia:ontology/Writer


PREFIX bnf-onto: <http://data.bnf.fr/ontology/bnf-onto/>
SELECT distinct ?nom ?auteur ?naissance ?mort
WHERE {
  ?oeuvre dcterms:creator ?auteur.
  ?auteur bnf-onto:firstYear ?naissance .
  ?auteur bnf-onto:lastYear ?mort ;
    foaf:name ?nom.
  FILTER ((xsd:integer (?mort) < "1940"^^xsd:integer) && (xsd:integer (?naissance) > "1840"^^xsd:integer))
} 
ORDER BY DESC (?mort)

Idées pour visualiser les résultats

L'idée est de pouvoir analyser le lien entre les journaux et les auteurs à travers leurs publications. Le document suivant (attachment:Visualisations_NouvellesItalie19eme.ods) présentant quelques tableaux de synthèse, à partir d'un croisement d'informations sur les 5 auteurs suivants : Fucini, Deledda, Di Giacomo, Dossi, Misasi, Navarro.

Tableur avec le nombre de publications par journal (tous auteurs confondus)

Exemple avec les données de Fucini, Deledda, Di Giacomo, Dossi, Misasi, Navarro

La légende : une couleur = journaux publiant uniquement un auteur parmi la liste
  • En jaune : Di Giacomo (23 journaux au total)
  • En rose : Fucini (10 journaux)
  • En vert : Deledda
  • En rose : Misasi (11 journaux)
  • En orange : Dossi
  • En bleu : Navarro

sauf la couleur bleu clair = journaux publiant au moins deux auteurs.

Il sont au nombre de 8 ici :
  • Capitan Fracassa
  • Corriere del Mattino
  • Corriere di Napoli
  • Cronaca Bizantina
  • Fanfulla della Domenica
  • La Domenica Letteraria (Attention : le nom donné dans certaines fiches auteur est parfois "Domenica Letteraria")
  • La Lettura
  • Nuova Antologia

Tableur avec le nombre de publications par journal (chez un auteur)

Exemple avec Di Giacomo

Bâton représentant le nombre de publications par année

Séquences

Carte réseau

Une carte pourraient situer la relation entre les auteurs et les villes (épaisseur du trait correspond au nombre de publications de cet auteur dans ce journal, toutes dates confondues ou par période ce qui permet d'avoir une vue comparative).

table_publications_and_republications_reference.ods (54,99 ko) Severine Gedzelman, 10/08/2018 16:09

homonymsPapers.ods (27,72 ko) Severine Gedzelman, 10/08/2018 16:44

table_papers_chrono.ods (31,56 ko) Severine Gedzelman, 10/08/2018 16:44

table_sources-auteurs.ods (10,71 ko) Severine Gedzelman, 10/08/2018 16:44

table_sources.ods (11,56 ko) Severine Gedzelman, 10/08/2018 16:44