ANF MATE-SHS "Collecter produire des données"

ANF MATE-SHS à Fréjus, 15-18 nov. 2016

Axe 1 : « Des nouvelles sources de données, pour quoi faire ? »

Coordination : Viviane Le Hay et Hélène Mathian

Données du web, open data, données géolocalisées (carroyées), bibliométriques, ou encore relationnelles, les nouvelles sources de données émergent en nombre et rapidement depuis quelques années. La tentation est donc grande de s’emparer de ces nouvelles sources et de les exploiter, et pour cause : il s’agit d’un matériau d’une grande richesse. Pour séduisant que cela peut sembler au premier abord, il faut néanmoins se montrer prudent et revenir à la fois sur les enjeux, mais également sur les conditions favorables à un traitement rigoureux et scientifique de ces objets, en lien avec une question de recherche. La question se pose par exemple de l’origine des informations récupérables, de leur niveau de couverture, de la précision/fiabilité des métadonnées disponibles, etc.

Cette session se propose de questionner l’emploi et de revenir sur les conditions d’utilisation de cette masse de données nouvelles.

Intervention de Didier Lafleur & Muriel Roiland (CNRS, IRHT - Paris)

"*Humanités digitales et corpus écrits : le cas des textes arabes et grecs*"

Didier Lafleur () : travaille sur la transmission des textes grecs du Nouveau Testament. Ses travaux conjuguent à la fois philologie, codicologie, paléographie, histoire des bibliothèques. Il prépare actuellement le catalogue des manuscrits grecs du Nouveau Testament des Archives nationales d'Albanie (Tirana), alliant recherche fondamentale sur les manuscrits et critique textuelle néotestamentaire.

PAS DE NOTES à chaud

Intervention de Isabelle André-Poyaud (CNRS, PACTE - Grenoble)

"*Utiliser des dispositifs GPS pour appréhender la mobilité quotidienne des enfants*"

PAS DE NOTES à chaud

Intervention de Jean-Luc Manguin (CNRS, GREYC – Caen)

"*Construction et validation d'une base de données orthographiques*"

PAS DE NOTES à chaud

Jean-Luc Manguin (, https://manguin.users.greyc.fr/)

  • Publication "Les requêtes sur un site Web : un corpus pour étudier la variation orthographique"
    Actes des 6èmes journées de linguistique de corpus, 10-12 septembre 2009, Université de Bretagne Sud, Lorient.

Voir le site web : https://ortholexies.greyc.fr/

Cette étude s'organise autour de deux idées ; tout d'abord, nous montrerons qu'un corpus de requêtes sur un site Web peut constituer le support d'un travail sur la variation graphique, au même titre qu'un corpus textuel tiré de textes en ligne. Pour cela nous nous appuierons sur des résultats statistiques comparant les variations graphiques observées dans les deux corpus. A la suite de ce premier résultat, nous examinerons les variations dans la transcription d'un motif particulier du français (le "double n") et nous verrons que le nombre d'erreurs dépend de la complexité du mot à transcrire, mais pas de sa fréquence ni de sa taille. En outre, nous serons à même d'interpréter certaines variations comme un phénomène de "brouillage" par des motifs graphiques concurrents qui apparaissent dans d'autres formes lexicales.

  • Publication (2016) "Ortholexies", une base de données publique pour l'orthographe lexicale

Nous décrirons ici la construction de notre base « Ortholexies », en particulier nous examinerons les techniques utilisées pour apparier les formes erronées avec leurs formes correctes, et nous expliquerons comment nous avons comparé nos données avec d’autres sources.

Questions :
- Peut-être récolter des données socio-démographiques sur qui fait les requêtes. Cela n'explique pas tout, de plus nettoyage des adresses IP.

Remarques :
- Besoin de créer un environnement propre à cette expérimentation, car la plupart des sites, comme les ressources en ligne du CNRTL auto-complètent les mots/lettres saisi/es.

Intervention de Paul Girard & Benjamin Ooghe Tabanou, Sciences Po médialab, DIME WEB

"*Comment utiliser le World Wide Web comme terrain d'enquête ?*"

Présentation des enjeux méthodologiques liés à l’usage du Web comme terrain d’enquête, étudié avec l’outil Hyphe (http://lab.medialab.sciences-po.fr/#hyphe).

PAS DE NOTES à chaud. Voir aussi les notes de ThatCampLyon en 2014.

Voir la publication sur HAL-SHS (https://hal.archives-ouvertes.fr/hal-01293078/)

A crawler developed with and for social scientists, with an innovative “curation-oriented” approach. We expose the problems of using web-mining techniques in social science research and how to overcome those by specific features such as step-by-step corpus building and a memory structure allowing researchers to redefine dynamically the granularity of their “web entities”

Il n'est pas évident que l'unité soit le site web (crawler classique). Hyphe aide à choisir à quel niveau on se situe (retaille les URLs), redéfinir à la volée le périmètre des élements étudiés.

Intervention de Clément Plancq (CNRS, LATTICE - Montrouge)

"*Utiliser les données ouvertes (open data). Un exemple avec les débats en séance publique à l'Assemblée nationale*"

Dans ce mouvement de mise à disposition des données (administration et entreprises), parmi elles, les débats de l'assemblée nationale : http://data.assemblee-nationale.fr/travaux-parlementaires/debats (les comptes rendus de la séance publique sont fournis partiellement depuis mai 2013 et dans leur intégralité à partir d’octobre 2013 comprenant les jours, dates, numéros de séance, les thèmes de discussion, l’ensemble des orateurs (députés et ministres) et les textes des débats).

Problèmes :
> peu d'info sur la condition de production des données
> brutification des données

Voir WorkingPaper de Samuel Goëta et Jérome Denis : http://www.i-3.fr/wp-content/uploads/2016/07/WPi3_16-CSI-01-Denis-Goeta.pdf sur la "Brutification" des données. Et publication en 2013 "La fabrique de données brutes" par les mêmes auteurs.

Lisa Gitelman 2003 : "Raw data is an oxymoron" (https://mitpress.mit.edu/books/raw-data-oxymoron)
This book reminds us that data is anything but “raw,” that we shouldn’t think of data as a natural resource but as a cultural one that needs to be generated, protected, and interpreted.

Gawker 2000 ??

Axe 2 : « Collecter des données, oui, mais pour les exploiter : comment les préparer en amont ? »

Coordination : Pascale Cristofoli et Christelle Lemoine-Lardennois

Qu’ils soient qualitatifs ou quantitatifs, les données brutes et les corpus ne sont que rarement exploitables en l’état : il convient de les transformer de telle sorte qu’ils coïncident avec un objectif de recherche préalablement formulé (codages, construction d’indicateurs). Cette étape requiert à la fois le recours à des routines et de l’inventivité. Quand les données n’existent pas (encore), leur construction peut être pensée en amont, mais peut également être aménagée au fur et à mesure des analyses et de l’avancée du terrain.

Cette séquence présentera quelques cas concrets de préparation des données collectées à des fins d’exploitation (à partir de l’expérience de plusieurs intervenants qui présenteront leur manière de faire en s’appuyant sur des projets de recherche précis).

Intervention de Stéphanie Morandeau (CNRS, Droit et changement social - Nantes)

"*Collecte de données qualitatives et pertinence de leur préparation : quelle méthodologie*"

Labo sur le "droit et changement social" (juridique, historique, politique et philosophie), voir les ingénieurs en appui à la recherche : http://dcs.univ-nantes.fr/index.php?option=com_content&view=article&id=319&Itemid=396&lang=fr

Projet "Histoire du droit de travail dans les colonies françaises de 1848 jusqu'aux années 1960", avec collecte et diffusions des documents inédits des pays sous mandat français : Syrie-Liban

Sources variées : rapports, thèses, revues, bases de données, gallica, sudoc, centre d'archives (CADC, CADN)

Exemple du fond CADN, microfilm dont beaucoup d'illisibles.

Au niveau recherche, deux points de vue (du fait de la collecte) :
- point de vue sur l'organisation du travail durant mandat
- point de vue de la société des nations (quelles influences sur la politique mandataire)

Opération de classement selon le type de documents (métadonnées), et éventuellement selon la problématique (parmi les deux hypothèses) pour avoir une idée de comment on traite le sujet.

La base a été construite et publiée avec OMEKA (http://hdtcol.univ-nantes.fr) uniquement pour le groupe de recherche. Utilisation de la plateforme de numérisation à la MSH.

Espace de travail commun pour échanger les données et sélection de sources en fonction des projets de recherche.
Voir les rubriques :
- Bibliographie
- Outil de recherche avec des nuages de mots, pour aller aux textes

Préparation des données spécifiques (émane de l'intuition, par rapport au sujet, à sa discipline et en fonction des sources que l'on trouve).

Traitement partiel du sujet (comment les textes ont été interprétés, transformés dans le réel)

Intervention de François Robert (CNRS, Triangle - Lyon)

"*Retour réflexif sur une recherche ayant nécessité la constitution d'une BD relationnelle pour traiter des données complexes sur le logement*"

Problématique en constante évolution. Histoire sociale puis tend vers une histoire économique. Influence sur les sources à mobiliser ou les données à sélectionner.

Groupe de recherche : processus social.

Comité scientifique => bien pour déposer les projets mais membres fantomatiques

Facteur temps détermine les choix scientifiques ? Peur de passer à côté d'une variable (peut pas tout saisir). ANR demande de faire des planning de travail. Au départ objectif 70 immeubles, au final seulement 26. Representativité des échantillons ? Bâtis urbains, varient dans le temps !

Comment représenter dans le temps la complexité de ces entités ?

Problème sur les patronymes (même nom, est-ce que c'est le même locataire sur une longue période)

Convention avec les fournisseurs des données fait qu'elles ne sont pas toutes diffusables. Recherche sur les loyers (données quanti sont encore exploitables vs données quali).

Intervention de Paul Girard (Sciences Po Médialab - Paris)

"Des archives du commerce à des données quantifiables : une longue chaîne de transformation des données"

Présentation en ligne : http://medialab.github.io/toflit18/ANFmateSHS. Voir aussi sa publication DH 2016.

Paul Girard - Medialab (2 projets sur archives du commerce)

We present the RICardo data visualization application (http://ricardo.medialab.sciences-po.fr) designed to explore a XIXth century international trade statistics database.
The tool offers 3 levels of exploration: a World trade level, a Country level detailing the commercial partners of a chosen country, and a Bilateral level revealing the differences in mirrored trade flows.
We discuss the design choices made to provide an exploratory data analysis tool which respects and represents the data uncertainty and heterogeneity of our historical database.

Quelle modélisation choisie
Exploration visuelle des données permet d'interroger sur les données
Comme c'est un commerce bilatéral (on peut avoir des flux en miroire, entre les entités "pays"/"entreprises" ?)

Les sources détaillent tous les produits échangés, 50 000 occurrences ?
- transcription manuelle (sous-traitement)
- nettoyage (openrefine), permet de regrouper des variantes textuelles sous 1 seul terme (différents algo possibles et récursivité)
- diagnostiques des données (contrôle qualité des données avec des moyens quanti)
=> Création de scripts python pour chercher des pattern d'erreur, donne les tableaux CSV aux chercheur pour aider à repérer des erreurs

"PRENDRE SOIN DES DONNEES" : on modifie les valeurs sources mais on garde celles-ci, ainsi que mémoires de toutes les modifications.
=> Utilisation de programme pour le controle de version (ex: git), contrainte utilisation de texte brute (CSV, JSON, XML). Utilise l'environnement Github pour voir les modifications

Les données sont ensuite manipulées avec Neo4J, quel schéma ? (Neo4j is a highly scalable native graph database that leverages data relationships as first-class entities, helping enterprises build intelligent applications to meet today’s evolving data challenges.)

Mis en route d'un site pour proposer un environnement de classifications mutliples (et concurrentes) des produits, adaptés en fonction des questions du chercheur (dépend d'un point de vue, aggrégation en fonction de la question)
=> Normalisation orthographique, puis ajouter des hiérarchisations ou associations (synonymes)

Utilisation de Datascape (important dans un graphe de montrer l'absence de valeurs quand pas de données => trous et pas de pics) - la visualisation permet de repérer les problèmes, besoin de faire de la documentation des étapes.

D'autres visualisations intéressantes comme un graphe de cooccurrence de termes dans les noms de produits dans les exports de la Rochelle.

NavigoCorpus ?

Question : quel ratio entre le lemps de travail sur les outils et sur les données ?

A REVOIR

Annotation manuelle de corpus écrit : Analec (Frédérique Mélanie-Becquet)

Les expressions référentielles, Balzac "La Bourse" édité à plusieurs reprises.

Texte brut
Texte enrichi (format Glozz)
- définition d'un schéma d'annotation
Délimiter les bornes 'Donal Trump, président des EU', "cet imbecile de Donal Trump"
Référentiel ou non 'un fils' vs "le fils"

La génèse éditoriale ("médit" => juxta, outil payant) => pour la comparaison de textes... aligner voir les différences. Uniquement des repérages formelles !!! Problème du déplacement de fragment (au début dns telle version, et à la fin dans telle autre).
"Venir" est devenu "vint"

Analec, permet de superposer les deux textes. catégories => "déplacement", "suppression", "modification"... manipuler les formats pour passer d'un outil à un autre

Ex : analyse statistique (type chi2), permet de s'interroger (liée à une anomalie ou un paramètre non attendu), nous amener à reformuler des hypothèses
Export XML, le maillon avec <anchor>, inclusion de balises

Corpus MC4 (corpus de référence sur huma-num), recherche sur le format des données, requêtes que le corpus annoté (erreur ou nouvelles hypothèses)...

Statistique utilisée ? Code ouvert donc aller voir quel modèle mathématique a été utilisé...
----------

Bulletin Board OnLine (Annie-Claude Salomon)

Retour d'expérience, forum qualitatif (election présidentiel 2012). analyser réactions du public à la campagne électoral.
Enquête par sondage et entretien + forum
Typologie, enjeux énergétiques. Guide d'animation un peu comme un guide d'entretien. Donne quelques stimuli (vidéo, propre verbatim) ... Corpus hybride (taille des réponses, type de données), qualité d'export de la plateforme (créalix), critères d'extraction. Création dynamique des données. Interêt sur la nature de la prise de la parole.

Thèse en cours : Jérémy Bouillet (analyse avec Alceste) "Emergence et diffusion de normes sociales en matière d'économie d'énergie".
Atlas.ti, analyse quali.

Retour sur les panelistes ? Représentativité (appétence informatique ? friand de forum)

Projet avec les tweets.
------------------
Questions :
- part manuel, automatique
- part collectif, individuel

Valorisation de ces pratiques. espace de publication. DH => revue en socio BMS ?, en sciences po ?

Historical methods (revient sur la construction de la base). Les carnets d'hypothèse. JupYter (adjoindre des commandes R, des commentaires)
Reconnaissance institutionnelle !

Git => Sourcer, documenter les modif de données. Appropriation (sensibilisation du chercheur => technofile), Identification de publication (archive une image du compte github), pour s'y référer.

Hyphe (poster dans une conf. d'ingénieur) !!! Comment publier hors discipline (décloisonner démarches méthodologiques)... pour aller plus loin dans son travail. soumettre différentes publi dans différentes communautés (faire le lien).


Johan Ferguth (données textuelles dans projets archéo)
Extraction info textuelle (Lab de linguistique formelle)
Aoroc (fournisseurs des données brutes et utilisateurs de la base), Lattice, LLF, Inra

LLF (frenchtreebank)
Modèle d'extraction va s'enrichir au fur et à mesure des validations

http://www.chronocarto.ens.fr, orientation des fouilles (géolocalisation grâce extraction de lieux).
TreeTagger + YaTea (groupes nominaux)
Outil Tydi : Liste de candidats termes puis validation, + synonymes (générer des classes). Ex: "villa romaine" => "villa gallo-romaine"
Réflexion d'un format plus générique

Editeur d'ontologie (protégé, opentheso) XML/SKOS
En PERL, framework.

Article aux DH (T. Poibeau)
--------

Pablo Ruiz, Trouver acteurs et concepts dans un corpus (Entity Linking)
Ex: base de connaissance - wikipedia, DBpedia

Entités ? Concepts ?
Mots => homonymes
Systèmes évluation : sur github, voir publication Cornelti 2013
- Neleval
- Bat framework

Trouver les relations entre entités, ex: graphe de cooccurrences

Extraction de propositions, d'évènements etc.. Quel prédicat qui les relient (concepts - acteurs)

Pipeline de TAL (http://ixa.2.si.ehu.es/ixa-pipes/)
Etiquetage des rôles sémantiques
- agent predicat
- role negation

voir DKPro, MATE Tools (stuttgart, standford)

---------
Anne-Christine Bronner + Hélène Mathian

Cartogram (méthode) => change dimension topo en fonction des valeurs d'une variable, mais différents algo
Ingénieur plus confronté au renouvellement des outils et des méthodes. Open science change . Outils avec des multiples représentations. manière d'explorer un jeu de données
Dataviz, SIG, à cartographe
Sciences de l'information géographique - géomatique
Directive INSPIRE (recensement base de données par rapport à des thématiques), inventorier (geoportail par collectivité). Chercheurs conditionnés à exposer leurs données. Catalogue "Cargo", plus d'obligations légales. Problème du renouvellement des données. Mission d'agréger et de faire remonter à géoportail.
Analyse spatiale, méthodes pour les points et méthodes pour maillages/zonages. Interet sur leur organisation (espacé, aléatoire, etc...). Clusters spatiaux, hotspots. passage de points échantillonés vers du continu (à des surfaces).
La théorie des graphes
Entités complexes. Problème de l'autocorrélation spatiale ? du MAUP
Liens entre les lieux (origine destination)
Espace support, espace actif (école Benzécri), lebart - classification avec contrainte de contiguïté

Expérience de pensée (modèle de simulation) - domaine multiagent

------- Medialab
voir absolument Artoo et tous les autres

------------------ Groupes locaux et thématiques (Marie Cros)

existent ou en envie

- Brest
- Normandie
- Strasbourg (12 personnes env.) : cnrs + univ parmi les ingénieurs

> en phase de démarrage :
Lyon-Etienne
- Grand-Ouest

Thématiques :
- Représentations des données
- Archivage et documentation > Mate meta (environ 20 pers.) => 1er rencontre en visio , mate-meta.renater.fr (guide des bonnes pratiques), panomara des structures existantes (Ketlet, Archipolis, Plan de Gestion de Données), difficile de cadrer les objectifs (future réunion, dynamiser les échanges)
- Données du web

- Analyse de discours automatique
- Corpus oraux - textes - linguistique
- Web Sémantique
- Méthodes de production de données

Lieu de convivialité, reconnaissance institutionnelle au niveau local (aller voir CNRS et Univ.),
argent du labo (budget annuel) - réunions 5-6 fois par an.

Réseau normandie : Ateliers méthodologie sur le campus, (collègues Rouen, Caen) => plutôt ITRF. Chercher de l'argent (appel BQR pour équiper salle informatique avec plusieurs logiciels, support aux formations, groupe zotero : Analyse Automatique Discours)

-------- Jour 3 :
ADISP (Centre Maurice Aldbach) => dev. usage des données statistiques en SHS.
- Norme de documentation DDI
- Assister pour l'utilisation de ces données

Voir leur site (précision sur les documents relatifs à l'enquête)

Fournir les données sous quels formats ?
Données de l'INSEE (pas d'information sur le temps de sondage => problèmes juridiques)
Formats propiétaires (SAS), passage pour être compatible avec R. Multitude de références. Pression à l'INSEE pour diffuser sous R directement. Leur liste OPEN DATA est plus restreinte
Transformation vers CSV (pas difficile dixit Medialab). Mais R peut prendre en entrée du SAS, SPSS...

----
Ré-analyse (NVivo => Stéphanie Abrial et Alceste => Brugidou)
64 entretiens semi-directifs (retranscrits, mis à dispo par BeQuali)
Parmi "Les divers", s'interroge sur ces entretiens particulièrement (et cité par le chercheur analyste initial)
Repérer les incidents critiques (pas les codes, thèmes) : Co-occurrences de codes (ceux qui marchent jamais ensemble !!)
Beaucoup de choses pour le fonctionnement de l'outil mais pas sur "Comment on analyse les entretiens"

----
Pascal Cristofoli
Logiciel Puck (gestion et analyse de parenté)
http://kinsources.net, chercheurs alimentent cette plateforme sur les données de parenté

D'autres données (relations sociales) - parenté spirituelle ou sur transaction dans Actes notariés

Labo anthropologie, démographie historique
Question commune de conservation des données
Diversité de formats (pajek, txt, etc..) mais conversion vers un format XML (PUC)

Peut préparer son corpus pour le rendre publique, processus de filtrage (anonymisation) par rapport aux réglementations juridiques de confidentialité.

Conseil scientifique pour valider par rapport à sa visée de réutilisation (info suffisante etc..)
Affaires sensibles :
- Dépersonnaliser, quand est-ce qu'un corpus est mur pour être publié
- Valorisation ? Lien pérenne pour être cité !!! prendre en compte dans les dossiers des chercheurs

Pas encore de recul sur l'utilisation de la plateforme
Droit d'auteur pas tellement sur la donnée elle-même (en dehors de la documentation personnelle)

Et si le corpus constitué par un étudiant en thèse non financée => engagement de l'université (contrat doctoral). Quand structuration (ITA ne peut pas revendiquer prop. intellectuel). Cahier de laboratoire (qui intervient et comment) ?

Corpus Siprojuris pourrait aller dedans.

Data.gouv.fr

Logiciels libres (dataverse, cqam) = documentation/metadonnée + licence

Difficile de donner ses données (attend réciprocité, trouver une motivation pour partager) !!, Archipolis et d'autres consortiums pour répertorier déjà, signaler. La personne référente, ... Embargo. Equipe première puisse avoir le temps de publier avant de laisser ses données. Temps et coordination, métiers archivistes, chercheurs et ingénieurs.

Aspects déontologiques, peurs de réutiliser. CC Like, CC BySA

Runmycode (répliquer l'expérience) => plutôt utilisés par les économistes

Suivi des utilisations à la DISP ? (1 sur 1000), les épidémiologistes renvoient leur publi !! Modèle de citation, ex: "source INSEE" (pas d'année, insuffisant)

-----
Thomas Loi informatique t libertés :
déclaration simplifiée (cas : colloque liste des inscrits, pour les APN il faudrait faire la démarche)

- collectes indirectes ? Comité Protection de personnes CPP (la loi jardet)
- attention aux données comportant des appréciations

Jugement au cas par cas tout de même

Comité éthique
Règlement européen 2018
Privacy - Security by design (dès la conception application)
étude d'impact, inscription au registre (dans les umrs ?)
REnforcement du droit des personnes, Responsable du traitement (umr ?)
Possibilité du consentement au cours de la recherche (incidence par le futur)

demander à recontacter CIL avec changement du responsable de l'unité (Claude Gauthier)
-------
charte d'utilisation des données personnelles (PACTE)
PACTE = 9 ingénieurs BAP D
Apport du CIDSP (informatisation, apport juridique), groupe Ariane (6 ingénieurs accompagnement méthodo)
2012, entre dans une démarche qualité (procédure et création de la cellule "valorisation", mener un contrat, accord de consortium), charte d'utilisation de retranscription d'entretiens, ingénieur juriste + chargé de valo pour la construire !
Document pédagogique et synthétique (lecture pratique de la loi informatique et liberté). Mis à disposititon
Charte annexée à tout contrat (responsable scientifique + DU)
à caractère incitatif et non coercitif

Lancement d'un sondage pour savoir les pratiques de chacun ?

http://triangle.ens-lyon.fr/spip.php?rubrique614 : source et données, guide de bonnes pratiques
http://triangle.ens-lyon.fr/spip.php?article4653

Permettre au directeur de prendre connaissance des projets .. Introduire un temps pour ce volet CNIL dans le montage de projets

Diffusion à chaque nouveau doctorant. Demander à PACTE de venir le présenter lors d'un séminaire (dans les ateliers méthodo !!), contacter : , sous creative commons
===>>> remettre en route ce "livret d'accueil"
-----
Enquête dans la Protection de l'enfance (ELAP)
Sortie de placement de jeunes en protection enfance. (pas de dispositifs publiques avant 25 ans)
Travaux quali mais pas quanti.

Vidéo (sur vimeo, réalisatrice documentaire) pour expliquer la démarche de l'enquête, rassure, permet de mettre un visage etc...
données sensibles pas vraiment mais relations parents (objectif), raisons du placement (pas abordé au final)

Créer des conditions favorables (questions sur leurs activités sportives).
Ajouter dans les formules "si vous êtes d'accord". Enquête plutot qu'entretien (associe avec "psy")

----------------- NOEMI ----------------
BAP-D : 50% postes non pourvus
FSEP (fonction susceptile d'être pourvue)
Postuler sur un corpus au dessus, ou en dessous

LAMES - poste de staticien ? BAP D ou E
ESPACE (Aix, Avignon, Nice) - noemi côté développeur
Strasbourg en géographie (carto informaticien, environnemental)
NOEMI à PACTE, 28 novembre poste de Anne-Claude Salomon (BAP D accompagnement projet sociologie, sciences pol, enquetes, international), données du web et quanti

Accorde aucun détachement.

-------- REseau
Juillet 2014 - 290 inscrits
reconnu vite par INSHS, 140 candidats (sélection), 13 groupes thématiques

84 % Ingénieurs, Techniciens
8% MCF
4% Doctorants
69% BAP D, 18% BAP F, 12% BAP E
Plutôt les IE, donc plutôt jeunes
3/4 entre 31 et 50 ans

12 réunions en visio
Objectif 1 : faciliter les synergies, échanges et intéractions
Site web (anne-christine, Valérie)
Journées annuelles
Test d'un wiki

Les tuto@Mate
ANF 2017 QUESTIO (enquête par questionnaire => 30 pers.)
Aide à la préparation aux concours

Objectif 2 : être un interlocuteur identifié / reconnu et légitime

Mandat de 2 ans (investissement à 4 ans trop dur sur le temps de la carrière)
- intensifier encore les relations entre les groupes et le CoPil (pouvoir se déplacer pour accompagner les groupes)
- proposer des formations ad-hoc
Avoir des correspondants très clairs
- obtenir un budget de fonctionnement

-----
faire labellisé par MATE nos séminaires ou formations (permettre aux participants de demander des financements)

------
Sophie Duchesne Axe 6 "Données aux preuves". Sociologie politique (identités, nation, europe, politisation)
- Données, contexte(s) et preuves
- Transparence et vérification
- Politique scientifique et normalisation

Où est-ce qu'on publie sur les méthodes (en France) 'qualitative', comment receuille entretiens et analyse. Questions politique des sciences (section 40, CSInSH, C3N, CT)

Qualidata 1994, à l'initiative de BeQuali
Oppositivistes (question de bien faire les choses) / constructivistes (y a que moi qui comprend mon enquête)
Est-ce que ca existe les données ? Peut on documenter un contexte si on est parti prenante ?

Question du soupçon. Peur qu'on regarde dans leur enquête (restera jusqu'au bout)

Essayons d'abord de réfléchir sur la ré-analyse pour avancer dans le débat.
- Les chercheurs ne font pas eux-mêmes tout leur terrain
- l'information dans une enquête n'est jamais complète

Martyn Hammersley, réfléchir sur des zones de risques

Différence des données et des preuves. Retravaille sur quoi (plutôt sur les preuves) Niamh Moore, obsession sur ce contexte d'origine (du moment de l'analyse).
Mike Savage, transformation des identités en Grande Bretagne. Les conditions changent entre années 50 et 2000.

Mêmes problématiques pour les données quantitatifs.

Questionnaire sur les risques de psycho-sociaux. (dédoubler les questions)
Garder la question du "doute" !!!

Est-ce que le chiffre est une donnée ou une

Expérimentale. De données à l'information, processus (quelle est notre expertise), besoin d'une variable pour avoir cet indicateur.

Controverse sur la scientificité des méthodes qualitatives.
Openaccess, opendata, rien ne nous empêche de montrer les données (texte sur la transparency). Si la science c'est du réel, on peut répliquer. Autant bloquer au niveau de la publication (on ne peut pas tant qu'on ne livre pas les données avec).
Argument 1 : pourquoi pas donner les données (méfiance ?), inégalité (différence de faire des données et le coût pour les mettre à disposition)

Au fur et à mesure on ré-invente nos méthodes. (Quali plutôt), on n'arrive pas à imposer des façons de faire. On ne sait pas si on va trouver ce que l'on cherche.
Nos preuves = crabe qui vient chercher.
Louise Corti
Analyse secondaire (aucune idée nouvelle ?) Dennis Marsden "Mothers Alone" (1969), Cohen et Taylor Psychological survival (1972). Dit beaucoup sur la manière de voir les transformations de la parentalité
Michael Burawoy 2003. Community studies

Les effets de la vérification, rend stérile tout un terrain. Serendipity

Transparence pour but la compréhension. Est-ce que cela doit être obligatoire. On donne les éléments pour discuter !! Favoriser le dialogue ou de telles façons.

Normalisation, on n'a pas honte de ce que l'on fait. Le temps que cela prend !

Façon de faire la recherche plurielle, pas le même cout (on va directe à la plage et pas faire la crabe)

Quelle solution on a, quelle lutte collective !
SAT (société acceleration ...), faire évoluer les plateformes (à cause du norme, de managment).
Ne pas surjouer les règles, avoir conscience. Problème du formalisme (On ne devrait pas nous demander cela).
Analyse secondaire (protection des chercheurs ?). Normes qui font changer de métier => syndicat
Faut donner du sens à notre métier. Si on nous l'impose, on fait a minima.
CRHCT => conditions de travail. Risques psycho sociaux (indicateurs => données)

Colloque "Enquété, de quels droits ?"

Boltanski "nouvelles formes du capitalisme"

------------
un axe c'est travail à plusieurs, relation ingénieur - chercheur

Workflow de données :
- controle des données (Paul Girard)
- Préparation de corpus (TXM)
- pour le PHN, par rapport à des templates
- UIMA, GATE etc...

Un autre axe aurait été : données et interface (plus propre à la BAP E), voir programme de l'AHN
- faut-il les opposer, quel devenir pour celles-ci (pérénisation)
- qu'est-ce qui motive la conception d'interface

Groupe Données textuelles :
- élaboration d'une grille de comparaison (quels sont les critères, revoir le mail de Bénédicte à ce sujet)