26 mai 2016

L’irisa veut rendre les archives médias plus faciles à explorer

Pascale Sébillot et Guillaume Gravier sont tous deux chercheurs au sein de l’équipe Linkmedia de l’Irisa à Rennes. Ils cordonnent le projet LIMAH dont l’objectif est d’organiser des contenus audiovisuels ou textuels pour en faciliter l’exploration.

Comment est né le projet LIMAH ?

Guillaume : “Déjà, il faut savoir que ça se prononce “limache” (rires). On travaille depuis une dizaine d’années avec l’INA qui dispose d’une belle base de données avec 70 ans de journaux télévisés et des fiches documentaires. L’institut est bien sûr équipé d’un moteur de recherche efficace mais on avait envie d’aller plus loin dans la manière d’organiser leurs contenus, d’établir des liens entre eux, de manière à rendre leur exploration plus facile. Si cela reste une vraie problématique, même pour des spécialistes de l’archive comme l’INA, on s’est dit que ça pouvait potentiellement intéresser tous les éditeurs de contenus. LIMAH s’intéresse à toutes les formes d’archives d'actualité, que ce soit des articles de presse, des vidéos issues des journaux télévisés ou des posts publiés sur les réseaux sociaux.”

Graphe reliant des notices documentaires de l'INA

Concrètement, en quoi consiste le travail de votre équipe Linkmedia sur ce projet ?

Pascale : “À établir des relations automatiques entre des documents bruts. En analysant - grâce à des techniques provenant du traitement automatique des langues - des images ou du texte retranscrit depuis des paroles à l’aide d’un logiciel de reconnaissance automatique de la parole, on parvient à faire émerger des mots clés, des entités nommées (noms de lieux, de personnes, morales ou physiques, dates), puis on compare ces contenus entre eux de façon à déterminer, par exemple, s’il s’agit du même contenu, ou bien du même sujet, s’il y a un lien de causalité entre deux contenus, comment ils s’articulent dans une chronologie, s’ils appartiennent à une même catégorie d’événement, etc.” Vous collaborez également avec d’autres équipes de recherche. Quel est le rôle de chacun ? Pascale : “Effectivement, de nombreux partenaires sont associés au projet LIMAH*. Par exemple, le labo de psychologie expérimentale du Centre de Recherches en Psychologie, Cognition et Communication (CRPCC) de Rennes 2 travaille entre autre sur les usages de l’interface et les profils d’utilisateurs pour que la plateforme soit la plus utile et ergonomique possible. Guillaume : “Le LINA (Laboratoire Informatique de Nantes Atlantique) analyse de son côté les réseaux sociaux, la perception de l’actualité, pour savoir par exemple quelles sont les réactions positives ou négatives, ou bien éclairer le contexte (ce contenu parle de DSK mais s’agit-il du prévenu ou du directeur du FMI ?). Pascale : “En sciences humaines, il y a également une équipe du laboratoire IODE qui travaille sur le droit car les problématiques juridiques sont nombreuses quand on utilise les archives ou que l’on relie des contenus entre eux. Peut-on par exemple accrocher des tweets, c’est-à-dire les associer à quelque chose qui a été dit ? Est-ce que cela modifie ou non la nature de contenu ? On peut citer également les sociologues de l’équipe PREfics de Rennes 2 qui vont chercher à mesurer l’impact de notre interface sur le métier de journaliste, en particulier sur l’écriture.”

En quoi votre projet dépasse-t-il l’état de l’art dans le domaine de la fouille de document et de l’analyse d’archive. Qu’y a-t-il de neuf exactement dans votre approche ?

Guillaume : “La description des contenus, la transcription, l’extraction de mots et d’entités nommés, le redécoupage ou le séquençage automatique des vidéos sont des sujets bien maîtrisés aujourd’hui. En revanche, savoir comment on utilise et on affiche tout ça, comment on met les contenus en relation, pour aller plus loin qu’une simple liste ordonnée, ça reste une vraie problématique de recherche.” Pascale : “L’enjeu est d’explorer la richesse des liens entre le besoin d’information exprimé (les mots clés que vous tapez par exemple dans un moteur de recherche) et les documents proposés ou recommandés (les résultats de votre requête). On va construire un graphe qui va offrir une autre façon de se promener dans une collection.” Guillaume : “Avec des listes ordonnées comme en propose Google, on a n’a pas de notion de diversité par exemple. Les 20 premiers résultats, que vous allez voir, peuvent parler de la même chose alors que vous pouvez passer à côté d’un sujet intéressant, placé à la 200ème position...”

Concrètement, quelles applications peut-on imaginer pour les professionnels des médias à partir de vos travaux ?

Guillaume : “On peut imaginer une interface qui permette à un journaliste de Ouest-France de naviguer plus facilement dans les archives de son journal et d’enrichir ses articles. On pourrait également remonter plus facilement des commentaires diffamants sur un article.” Pascale : “En dehors du champ journalistique, on peut imaginer des usages dans le domaine pédagogique : l’’interface permettrait de construire ou assembler des contenus de manière à faciliter l’apprentissage.”

Quand cette fameuse interface sera-t-elle visible ?

Capture d'écran de l'interface texmix.irisa.fr destinée à être remplacée par l'interface LIMAH en cours de construction Guillaume : “ Une première version béta est prévue cet été. On cherche des journalistes pour jouer avec, savoir ce qui va, ce qui ne va pas. Pour l’instant, on s’est forgé une base de contenus en aspirant le traitement de trois semaines d’actu consécutives (en septembre 2014), comprenant tous les articles des grands quotidiens, les JT, des débats, Facebook et Twitter... S’il fallait le faire en vrai, il nous faudrait passer des accords avec tous les éditeurs concernés, ce qui serait sans soute très compliqué. On ne travaille donc pas sur l’exploitation ou le modèle économique de l’interface. Il nous reste à améliorer le graphe, le rendre plus exploitable, mettre des étiquettes sur les liens établis entre les articles, réfléchir encore à la manière dont on va représenter tout ça (quel rendu visuel ?), tester et re-tester, avant de proposer une nouvelle version en 2018.”

**Dernière question : votre interface pourrait-elle aussi faciliter le fact checking en temps réel pour une rédaction ?**

Guillaume : “Honnêtement, analyser et organiser les contenus sur l’actualité en temps réel, ça reste compliqué, ça suppose du temps de calcul et donc suffisamment de machines. Surtout, on risque aussi de se confronter à une dimension exponentielle : plus on ajoute des contenus dans la base, plus ça complique la comparaison avec l’existant. Pour commencer, on sera déjà contents d’avoir de vrais retours utilisateurs de la part des journalistes et des contacts avec des éditeurs pour lancer de nouveaux projets portant sur leurs archives.” *IRISA (CNRS), IODE (Telecom Bretagne), CRPCC, PREFics (Université Rennes 2), LINA (Université de Nantes)