Transformation sur les re-publications¶
Extraction de la section "Novelle già uscite altrove vengono riproposte"¶
Cette extraction s'est faite à la main, en ouvrant les fichiers un par un et en sélectionnant les paragraphes dans la section intitulée grosso modo : "Novelle già uscite altrove ma che vengono ripubblicate" et en copiant cette section dans un fichier à part, un .txt pour chaque auteur.
Ex: Act8_Deledda.txt
Les sections prises en compte dans les différents fichiers auteur sont :
Auteur | Intitulé de la section |
---|---|
De Amicis (Act5) | NOVELLE O BOZZETTI RIPUBBLICATI PER LA SECONDA VOLTA |
De Marchi (Act6) | Novelle già uscite altrove ma che vengono riproposte ANCORA IN RIVISTA |
Deledda | Novelle già uscite altrove ma che vengono riproposte ANCORA IN RIVISTA |
Dossi | TESTI GIà PUBBLICATI IN GIORNALE O IN VOLUME |
Farina | NOVELLE CHE VENGONO RIPUBBLICATE |
De Roberto | Novelle già uscite altrove che vengono riproposte |
Fogazzaro* | Novelle già uscite altrove che vengono riproposte |
Navarro della Miraglia* | Novelle già uscite altrove vengono riproposte |
Pirandello | Novelle già uscite altrove (anche con titolo diverso) ma che vengono riproposte ANCORA IN RIVISTA |
Saccheti | Novelle già uscite altrove ma che vengono ripubblicate |
Serao | Novelle già uscite altrove (anche con titolo diverso) ma che vengono riproposte ANCORA IN RIVISTA |
Svevo* | Novelle già uscite altrove vengono riproposte |
Verga* | Novelle già uscite altrove vengono riproposte |
Marco a inclu dans les premières publications sous forme de commentaire des re-publications que nous avons ajouté directement à un fichier : attachment:"table_republications_ajouteALaMain", et qu'il faudra aller voir après le traitement automatique pour la fusion des données (risque de doublon).
Les sections avec les "Raccolte" (une astérisk * est indiquée lorsque cette section existe chez un auteur) ne sont pas considérées.
Complétion à venir¶
- Remarque 1 : A moins du contraire, il n'y a rien comme re-publications chez :
- Fucini
- Misasi
- Neera
- Panzacchi
- Panzini
- Pratesi
- Tozzi*
Pour Panzacchi et Neera, Marco pense qu'il trouvera et ajoutera ces informations. On pourra procéder au même traitement avec ces fichiers (le script n'a pas besoin d'être modifié).
- Remarque 2 : PROBLEME avec les données des deux auteurs suivants :
- Di Giacomo*, (il existe une section "Novelle già uscite altrove (anche con titolo diverso) ma che vengono riproposte ANCORA IN RIVISTA"),
- Tarchetti, (il existe une section "Novelle già comparse ma riproposte")
Mais il n’y a pas de dates pour les revues, seulement le nombre de re-publications et un tas de commentaire incluant des dates parfois.
Pour Di Giacomo, Marco me passera la fiche corrigée bientôt
Script de transformation¶
A peu de choses près, le script est le même pour les re-publications (voir liste des modifications plus bas), que pour les premières publications (voir la page sur les premières publications).
On obtient deux fichiers : et on demande deux fichiers en paramètre :- "table_papers_reference.csv"
- "table_publications_reference.csv" afin de prendre en compte les identifiants déjà utilisés et de se baser sur les journaux déjà générées dans le traitement des premières publications. En effet, nous aurons une dizaine de nouveaux journaux.
Le fichier "table_papers_2.csv" deviendra notre nouveau fichier de référence attachment:"table_papers_reference.ods" à mettre dans le dossier "Base" de l'espace partagé sur le cloud-triangle.
Nous lançons le script doc2base.py ainsi :
$ cd ~/Documents/workspaceGit/MarcoBorelli/Transformation/SecondPublications
$ python scripts/doc2base.py output/ input/ table_papers_reference.csv table_publications_reference.csv
Modifications dans le script¶
- construction d'un tableau basé sur le fichier "table_papers_reference.csv" pour pouvoir le modifier :
- dès qu'il y a une nouvelle entrée "paper"
- dès qu'il y a un nouvel auteur à lier à un "paper" déjà existant
- dès qu'il y a une nouvelle date à lier à un "paper" déjà existant
- construction d'un tableau basé sur le fichier "table_publications_reference.csv" pour pouvoir calculer les nouveaux identifiants, et de ne pas créer de doublons :
Le script est beaucoup plus propre car avec des petites méthodes "get/set" sur la gestion du tableau "papers".
Modifications dans les données à VERIFIER par Marco¶
Il faut vérifier les lignes où il y a des commentaires et des interrogations/trous sur la relation aux premières publications.
En vert : les publications qui ont donné lieu à plusieurs republications
En bleu : des ajouts de Séverine dans les commentaire basé sur les commentaires initiaux
En rouge : à compléter, manque ??? de relations aux premières publications
En jaune : un choix à faire parmi les différentes publications pouvant correspondre à la description de cette re-publication.