Analyse sémantiqueGDNGrand Débat National

Grand Débat National : une opportunité pour l’analyse sémantique

Grand Débat National : une opportunité pour l’analyse sémantique (Épisode 1)

Article traduit de l’anglais principalement par Google Translate

Le Grand Débat National (GDN) est une initiative française visant à recueillir les opinions et les attitudes du citoyen français sur quatre thèmes principaux de la vie publique nationale. Chacun, même non-Français, sait de quoi il est question mais juste au cas où, voici quelques liens vers des articles généraux décrivant et précisant tout l’exercice :

Cet exercice représente, pour nous, une occasion unique d’appliquer nos technologies de traitement du langage naturel dans un contexte différent de celui traditionnel «orienté client» au sein duquel nous opérons habituellement.
L’interprétation des centaines de milliers de contributions spontanées générées par cet exercice démocratique a suscité de nombreuses polémiques, comme le souligne ce reportage (https://www.francetvinfo.fr/politique/grand-debat-national/grand- debat-national-polemique-sur-la-restitution_3396177.html).

J’ai trouvé assez surprenant le fait que la plupart des critiques concernaient la manière dont les contributions étaient lues. Mais que signifie « lire » dans un contexte où plus de 9 millions de phrases sont imposées ? Lu par les humains? A quoi cela servirait-il ? Interprété par un ordinateur ? Mais alors, avec quels algorithmes ? Soyons clairs sur ce point : sans une spécification de l’algorithme d’interprétation, toute affirmation d ’«interprétation correcte » des attitudes et des souhaits du citoyen français n’est qu’une poignée de mots dénués de sens.

Ceci est le premier épisode d’une série d’articles dans lesquels nous allons proposer une analyse transparente des textes publiés du GDN. Je souligne le mot «analyse» par opposition à «interprétation» : compte tenu de nos compétences, nous ne sommes pas en mesure de dire ce que souhaite le citoyen français car cette question implique analystes, sociologues, politiciens, etc…

Notre analyse explicite ce que les français ont dit et comment ils l’ont dit.

Le point de départ est bien entendu l’interprétation officielle du GDN, qui est disponible ici https://granddebat.fr/pages/syntheses-du-grand-debat.

L’analyse a été fournie par la société française OpinionWay en collaboration avec Qwam quant à la partie concernant l’interprétation d’informations textuelles.

Le point méthodologique crucial était bien entendu : comment donner un sens à un aussi gros volume de texte ?

OpinionWay a adopté une approche classique de catégorisation. Sur les diapositives officielles, il est indiqué :

QWAM a développé QWAM Text Analytics, un outil d’analyse automatique des données textuelles en masse (big data), faisant appel à des technologies de traitement automatique du langage naturel couplé à des techniques d’intelligence artificielle (apprentissage profond / deep learning).
Grâce à des algorithmes puissants, les notions citées par les répondants ont été relevées, analysées, triées et classées en différentes catégories et sous-catégories.

Cette approche de catégorisation (classique) imite en quelque sorte une analyse quantitative fondée sur des questions fermées. Les expressions textuelles sont « traduites » comme si elles les alternatives d’une enquête virtuelle à réponses fermées. Bien qu’elle soit courante, cette approche présente des inconvénients majeurs :

  • L’identification des catégories peut être considérablement biaisée par des choix a priori. Même s’il existe des techniques de regroupement qui peuvent aider à produire des arborescences de catégorisation qui reflètent la nature des données, la décision d’introduire une catégorie ou non est toujours une question de choix humain, avec tous les biais qui y sont associés. En passant, nous remarquons ici une différence cruciale par rapport aux questions fermées : si une option manque dans une question fermée, tout le monde le réalise. Si une catégorie manque dans un schéma de catégorisation (en ce sens que les gens parlent d’un certain sujet mais que le sujet n’apparaît pas comme une catégorie), personne ne s’en rend compte, à moins de lire toutes les réponses, ce qui n’est pas réalisable avec des corpus d’une telle dimension.
    • Pour être lisible, l’approche de catégorisation doit privilégier un sujet statistiquement important. Cela signifie que tous les signaux importants mais non statistiquement significatifs (signaux faibles) sont purement et simplement perdus.
    • Une fois que le citoyen s’est exprimé, il est extrêmement réducteur d’analyser ses réponses en les plaçant simplement dans un ensemble prédéfini de catégories. La plupart des informations contenues dans les énoncés en langage naturel sont en effet de type relationnel. Par exemple, pour le concept de «réduction des privilèges», nous avons une relation du type réduction (PRIVILEGE_TYPE, ROLE_TYPE) que pourrait s’exprimer par des phrases telles que «réduction du salaire des sénateurs», «réduction des régimes spéciaux pour les fonctionnaires», «réduction des indemnités pour parlementaires », etc. Comme les combinaisons de types de privilège et de rôle sont extrêmement nombreuses (potentiellement non finies), une approche catégorique aurait nécessairement pour effet d’aplanir cette richesse à quelques catégories telles que la réduction de salaire, la réduction de l’indemnité, etc.

De plus, l’approche de catégorisation spécifiquement adoptée dans le cas du GDN n’est pas explicitée. La phrase «grâce à de puissants algorithmes, les notions mentionnées par les répondants ont été capturées, etc.» ne fournit aucune indication sur «la manière dont» le texte a été analysé. Certains détails du flux de travail sont donnés ici https://granddebat.fr/media/default/0001/01/f73f9c2f64a8cf0b6efa24fdc80179e7426b8cc9.pdf mais, encore une fois, nous n’avons trouvé aucune mention des algorithmes de clustering et de catégorisation spécifiques. Ceci étant le cas, même avec l’inconvénient susmentionné d’une approche de catégorisation, nous avons tendance à préférer une approche telle que celle de https://grandeannotation.fr/ : une approche d’annotation traditionnelle, basée sur le crowdsourcing et la classification humaine, qui a au moins le mérite de créer un « gold standard » à exploiter dans les recherches futures. Nous avons également tendance à partager leurs critiques sur l’intelligence artificielle même si nous pensons que l’opposition «complètement humain»/«complètement artificiel» est un peu forcée, du moins tant que les algorithmes informatiques sont régis par des règles écrites par des humains.

Dans cet série d’articles, nous allons également approfondir le sujet de l’interaction entre le chercheur/analyste humain et les algorithmes informatiques dans la tâche difficile consistant à extraire des informations du corpus du GDN.

Nous soulignerons également les difficultés soulevées par certains types de langages et à quel point la paramétrisation est un aspect important du traitement automatique du langage. Cependant, dans ce « premier épisode », nous exposerons simplement la méthode que nous allons utiliser (et non l’algorithme car ils seront détaillés dans des articles spécifiques) et nous fournirons un premier instantané du corpus en termes de volume de concepts. À la fin de chaque publication, nous mettrons toujours des liens vers un tableur Excel contenant les données sur lesquelles les nuages ​​de tags, les tartes et autres visualisations sont basés. Nous décrirons également la condition dans laquelle nous donnerons un accès complet à toutes les analyses issues du GDN.

Une approche quali-quantitative

Dans cet article, nous décrivons ce que nous appelons une approche quali-quantitative de l’analyse de texte. L’idée de base est d’éviter la réduction des expressions linguistiques à un ensemble de catégories, comme s’il s’agissait des parents pauvres de questionnaires à réponses fermées. Au contraire, nous essaierons de montrer comment extraire des informations significatives des verbatims sans les « forcer » dans des catégories prédéfinies.

Cette approche présente également l’avantage de garder une relation étroite avec le noyau de chaque expression textuelle, c’est-à-dire la langue. Nous pourrions convenir que deux utilisateurs qui disent «limiter cumul des mandats» ou «interdiction du cumul abusif des mandats» expriment fondamentalement la même chose en termes de catégories, mais la manière dont le second est formulé nous en dit beaucoup plus : la contradiction apparente (si quelque chose est illégal elle est déjà interdite) est l’expression claire non seulement d’un jugement rationnel mais surtout d’une attitude exaspérée à l’égard d’un homme politique aux multiples mandats. Ce que nous appelons quali-quantitatif est de saisir ce genre d’idées.

Concrètement, notre approche s’appuiera sur le type d’analyse suivant :

  • Identification des entités : c’est la première phase de l’analyse, lorsque nous identifions les «objets» (personnes, services, rôles, etc.) dont les personnes parlent. Il est important de souligner ici qu’il ne s’agit en aucun cas d’un «sujet», mais bien de choses qui existent dans la vie réelle, comme un comité spécial, une personne ou un impôt local. Par exemple, les dix principales entités identifiées dans le GDN sont : impôt, taxe, transports en commun, déchets, chauffage, pollution, vélo, vote blanc, aides sociales, migrants. On reverra dans le futur sur l’algorithme utilisé pour telle identification.
  • Identification des caractéristiques : comment les gens caractérisent l’entité que nous venons de récupérer, en utilisant quels adjectifs, quels noms, quels verbes, etc.Par exemple, les caractéristiques associées à l’entité «réseaux sociaux» dans le GDN sont les suivantes:

Il va sans dire que ces caractéristiques peuvent être regroupées en groupes sémantiques normalisés. Par exemple, nous pourrions affirmer que “contrôle”, “régulation” et “réglementation” peuvent tous être associés à la notion abstraite de REGULATION.

  • Identification de sentiment : il s’agit de l’appréciation de l’utilisateur d’une certaine entité, éventuellement par rapport à une caractéristique (feature) donnée. Il est caractérisé uniquement en termes de polarité négative ou positive. Dans notre exemple, une phrase telle que «il faut absolument supprimer l’anonymat des réseaux sociaux qui favorise honteusement la lâcheté» serait qualifiée de «réseaux sociaux»-« anonymat »-«négatif».
    Identification des émotions : dans le marketing et l’analyse sociétale, il est important de capturer l’émotion qu’une certaine entité (ou ses caractéristiques) peut déclencher. Dans le cas du GDN, nous avons adopté les six émotions de base d’Ekman plus des émotions plus «orientée texte», telle que TRUST. Par exemple, dans la phrase suivante « Je suis les informations et moi ça me rend triste, malheureuse, et inquiète. « Nous avons détecté TRISTESSE et PEUR.
    Concepts : ce ne sont que des concepts apparaissant dans le texte, avec absolument aucun a priori lié au domaine. Les concepts sont importants pour l’analyse des cooccurrences car ils permettent d’identifier les liens entre les entités et fournissent un résumé rapide de grandes parties d’un corpus. Ceci est par exemple le concept de nuage construit sur la base de toutes les phrases qui mentionnent Castaner :    
  • Identification des Insights : C’est la phase où les compétences en analyse qualitative sont les plus pertinentes. L’étape cruciale consiste à poser des questions au corpus et à rassembler les réponses. Cependant, le chercheur/analyste doit poser les «bonnes» questions et elles ne peuvent être déduites grâce à une simple analyse statistique du corpus. Il s’agit d’un processus très interactif dans lequel l’analyste et le linguiste interagissent étroitement pour extraire des informations de haute qualité. La qualité est garantie par le fait que tout le corpus est prétraité syntaxiquement et sémantiquement et que les règles d’extraction sont affinées par des linguistes expérimentés. Par exemple, nous pourrions poser des questions telles que «de quels types de personnes /rôles/fonctions le répondant français voudraient se débarrasser ?». Nous pourrions inclure dans cette catégorie à la fois des demandes explicites de démission (principalement dans le cas d’une seule personne), mais aussi une réduction du nombre de « personnelle » dans certaines institutions. Voici par exemple un tableaux avec dix principales entités dont les gens demandent la réduction/suppression
Subject Count
Sénat 9,954
Conseil 5,502
sénateur 5,137
Élu 4,693
CESE 4,589
nombre de députés 4,380
fonctionnaire 3,914
nombre d’élus 3,764
Député 2,052
nombre de parlementaires 1,897

Il est évident que la principale préoccupation ici n’est pas les individus (les politiques) mais simplement que les gens estiment que l’infrastructure politique de l’État est trop lourde, en particulier le Sénat. En ce qui concerne les personnalités, il apparaît que la demande de démission du président français Macron n’apparaît qu’en 14ème position, suivie de près par le Premier ministre en 15ème. Cependant, ces données doivent être maniées avec précaution. Ces statistiques proviennent d’une analyse fine de l’ensemble du corpus du GDN, mais aucune normalisation n’a encore été réalisée. Ainsi, pour l’instant, «Sénat» et «Sénateurs» ne sont pas considérés comme la même entité, de même que «Président», «Macron» et «chef». Au moment de la rédaction de ce rapport, nous attendons un groupe d’experts pour décider du type de catégories à regrouper. C’était juste un exemple pour montrer ce que nous entendons par «informations de haute qualité»

Premier aperçu

Dans les prochaines semaines, nous fournirons une analyse fine du corpus GDN sous différents angles. Pour l’instant, nous ne ferons que fournir des informations peu détaillées à ce sujet. Le jeu de données a été téléchargé le 10/04/2019 sur le site https://granddebat.fr/pages/donnees-ouvertes À partir de ces liens :

Aucun nettoyage de données n’a été effectué lors de l’importation, mais en général, nous n’avons analysé que les textes représentant une réponse à une question demandant uniquement du texte. Des questions mixtes telles que «autre» n’ont pas été prises en compte (la liste de toutes les questions comptabilisées est téléchargeable à la fin de cet article). Même avec cette limitation, nous aboutissons à 4.572.896 de réponses qui peuvent être divisées en 9 229 607 phrases écrites du 22/01/2019 au 19/03/2019.
Il y avait quatre «pistes de discussion». En termes de phrases, voilà la répartition en pourcentage :

Et en valeur absolue :

Track Count
DEMOCRATIE 3,562,219
ECOLOGIE 2,117,840
FISCALITE 1,955,900
ORGANISATION 1,593,648

En termes de concepts (mots significatifs ou groupe de mots (expressions nominales)), voilà le nuage de tags global (les données sous forme de tableaux sont fournies en pièce jointe à la fin de cet article):

Selon les différentes pistes du GDN, voilà nuages de concepts émergents :

La vie démocratique :

L’écologie :

L’impôt :

L’organisation de l’État :

Faites votre propre analyse

Nous aimerions rendre notre plate-forme avec le GDN analysé accessible à tous. Malheureusement, notre application est conçue pour quelques centaines d’utilisateurs simultanément et ne peut résister au trafic généré par un accès massif. Toutefois, si vous êtes chercheur, analystes, cabinet d’études de marché ou institution d’études sociétales, merci de m’envoyer un email (à partir de votre adresse professionnelle) et nous nous ferons un plaisir de vous accorder l’accès à la plateforme. Mon email est philippe.marlowe@innoradiant .com, sauf que mon prénom n’est pas Philippe et que mon nom de famille n’est pas Marlowe J
Plus à venir sur le GDN dans les prochaines semaines !
Luca Dini

Liens aux statistiques contenues dans ce post