Hackathon Persée, printemps 2018

Plusieurs réunions pour préparer ce hackathon.

Rencontre "Triangle-Persée" - 11 avril 2017

Réunion avec Persée à propos des objectifs d'un Hackathon en 2018

Il y avait notamment 4-5 personnes de Persée dont
  • Viviane Boulétreau, responsable des équipes informatiques
  • Hélène Bégnis, (ex: documentaliste du LARHRA) chargée du réseau des partenaires et des projets recherche
  • le responsable de la production
  • une chargée de la communication plus générale (et aussi avec les partenaires en duo avec Hélène)
  • Cécile Almonté, une personne un peu extérieure à Persée, qui a proposé l'éditorialisation du site du triple store pour le rendre plus accessible aux utilisateurs, elle participe au master « Architecture de l’information » et est une ancienne journaliste.
Du côté de Triangle, nous étions 3,
  • Jean-Claude Zancarini,
  • François Robert
    *et Séverine Gedzelman.

NB : Samantha Saïdi avait souhaité venir, mais elle n’a pas pu à cause d’autres engagements (AHN).

En résumé,
1) Persée fera coûte que coûte le Hackathon même si ils n’arrivent pas à avoir de financement DARIAH car l’idée est de à terme développer plus de relations avec les chercheurs, avoir une meilleure idée des interfaces utiles pour la recherche ; la préparation du Hackathon est un premier moyen d’entrer en contact et de tester des germes de projets. Persée propose d’intégrer en production les prototypes qui seront sortis et pour lesquels le comité d’organisation/scientifique (dont nous ferons partie) aura voté.

2) Par rapport à l’axe « Interface Innovante », Jean-Claude a résumé les différents projets de visualisation et de manipulation de corpus présentés à la journée HN Triangle
  1. Topic Modeling - Corpus Mussolini, permet entre autres de voir l’évolution de la contribution des thèmes sur une frise chronologique,
  2. Textométrie - Correspondances Machiavel, permet entre autres la constitution de sous-corpus grâce à une interrogation mobilisant des informations plus riches que du simple « mots-clés »

Remarque : JC évoquait le fait que ces fournisseurs de documents numérisés (Revues.org + Persée) pouvaient peut-être se mettre d’accord pour proposer des fonctionnalités communes, afin que le public qui cherche un coup dans un silo de données, et un coup dans un autre, puissent bénéficier des mêmes interfaces innovantes. Il a suggéré que Persée se mette également en contact avec Gérard Vidal (ex. diffusion des savoirs).

3) Au niveau des axes, à propos de la géolocalisation, en vérité ils ont peu de données mobilisables dans l’immédiat. Il est question d’investir dans l'utilisation d’un gazetteer pour faire correspondre données géo aux noms de lieux déjà inventoriés. Cela va se faire en préparation du Hackathon, cependant il vaut mieux circoncire les tests à l’échelle d’un projet, donc la question nous revient encore d’interroger nos chercheurs sur l’utilité d’une telle manoeuvre dans leurs projets respectifs, afin d’isoler une thématique, un auteur, etc.. dans leurs données.

Remarque : Viviane a bien souligné que la production chez Persée est de qualité et souhaite le rester, même avec les fonctionnalités du liage de données avec d’autres référentiels (d’autorité et/ou participatifs tels que dbpedia), car un humain fait systématiquement la vérification manuelle.

Des réunions régulières sont donc envisagées (1 fois par mois à partir de juin jusqu’en décembre), pour préparer le terrain - sonder dans nos réseaux afin d’initier le mouvement et de répondre à de vraies questions de recherche. A noter cependant que notre participation n’est pas à prendre comme RH mais comme facilitateurs d’idées et de contacts.

Un doc. officiel circulera pour permettre d’enclencher la dynamique, en attendant voici le document répondant à l’appel.

Réunion avec présentations de deux projets Triangle - 19 juin 2017

  • Viviane Boulétreau
  • Hélène Bégnis
  • Cécile Almonté
  • Une chargée de communication
  • Un responsable traitement
  • Jean-Claude Zancarini
  • Antonin Guilloux
  • Vincent Ventresque
  • Séverine Gedzelman
  1. Rappel du fonctionnement du triple-store et de l'interface "Sparklis" du côté de Persée.
  2. Présentations des projets de nouvelles interfaces pour Foucault et du travail d'exploration statistique sur les écrits de Mussolini.
Orientations :
- personnaliser environnement de travail du chercheur
  • choix des données grâce à des interfaces de visualisation/interrogation
  • enrichissement des données par les chercheurs (annotation, correction)

Pour le Hackathon, proposera-t-on de travailler uniquement sur les métadonnées ou aussi sur les données elles-mêmes (contenu sémantique non référencé) ?

Présentation de "" et proposition de Vincent V.

Très riche présentation
  • de l'interface actuelle présentant l'inventaire des archives Foucault pour le projet LBF.
  • du nouveau prototype avec plusieurs facettes

Présentation de "Approches statistiques du corpus Mussolini" et proposition d'Antonin G.M

Il a été conclu de voir un extrait du dispositif d'Antonin, le matériel pour l'étude du Corpus Mussolini : voir EtudeMussoliniPersee.zip

1) Un extrait du corpus, sous dossier ExtraitCorpus, tel que je l'utilise: un fichier de métadonnées (ici avec trois textes) et les fichiers textes. Vous remarquerez que l'identifiant d'une entité dans le fichier de métadonnées est le nom du fichier txt, et qu'il est nommé d'après la localisation du texte dans le corpus (numéro volume, numéro section dans le volume, et numéro d'ordre dans la section). Dans ma version de travail, il y a 6000+ textes dans ce dossier, et le fichier de métadonnées en conséquence. On pourrait facilement imaginer organiser un peu plus (par exemple ne pas mettre tous les fichiers texte au même endroit, mais dans une arborescence). On peut aussi facilement ajouter des métadonnées (par exemple titre de la revue...).

2) Deux exemples de résultats tels que sortis par mon prototype (il faut à chaque fois chercher le fichier html):
a) Les résultats globaux, avec descriptions de chacun des thèmes et de l'organisation en sur-thèmes et thématiques. j'ai usé et abusé des blocs dépliants html pour faire ça, par manque d'idées. Il est clair qu'il y a beaucoup mieux à faire!
b) des résultats de l'étude sur un mot donné (ici "razza", race), avec son poids dans les différents thèmes.

Je vous ai épargné les résultats pour l'utilisation de type "outil de recommandation": je sors un simple tableau html de lignes extraites du fichier de métadonnées.

EtudeMussoliniPersee.zip (3 MB) Severine Gedzelman, 06/20/2017 12:30 pm