http:Doublons de contributions, participants frénétiques… les limites du grand débat en ligne

Les membres du gouvernement assistent Ã la restitution du grand dÃ©bat national, au Grand Palais, Ã Paris, le 8 avril.

Après presque trois mois de « grand débat », le gouvernement a ébauché, lundi 8 avril, les grandes lignes des conclusions qu’il allait tirer de cette consultation. Mais avant d’entrer dans le détail, l’exécutif, à l’unisson, a célébré la réussite de l’exercice, vantant un nombre record de participants et de contributions, notamment en ligne.

Ce que dit le gouvernement :

La plate-forme en ligne du grand débat aurait attiré 506 000 contributeurs, qui auraient apporté près de 2 millions de contributions – « 1 364 000 contributions aux questions fermées et 569 020 contributions aux propositions ouvertes ».

POURQUOI C’EST EXAGÉRÉ

Les données relatives au grand débat étaient ouvertes, et donc accessibles à tout un chacun. Nous les avons donc analysées quantitativement. Les chiffres donnés par le gouvernement sont parfaitement exacts ; néanmoins, ils ne reflètent pas la qualité extrêmement variable des contributions.

Il ressort ainsi que :

certains contributeurs ont copié et collé des dizaines (voire des centaines) de fois leur texte ;
plus de la moitié des textes rédigés comportent moins de dix mots ;
plus de la moitié des textes rédigés sont en fait des doublons ou des champs vides

De quoi parle-t-on ?

Comme le rappelle le gouvernement dans sa communication, le chiffre de deux millions de contributeurs en ligne agrège ceux qui ont répondu à deux types de question :

les questions fermées, qui n’appellent qu’une réponse à choisir parmi d’autres (par exemple, « Par rapport à votre mode de chauffage actuel, pensez-vous qu’il existe des solutions alternatives plus écologiques ? Oui/Non/Je ne sais pas ») ;
les questions ouvertes, au contraire, laissent le contributeur libre de sa réponse, qu’il saisira dans un champ de texte vierge. Par exemple : « Quel est aujourd’hui pour vous le problème concret le plus important dans le domaine de l’environnement ? »

Il est nécessaire de distinguer trois types de grandeurs :

le nombre de contributeurs ;
le nombre de contributions ;
le nombre de textes.

Un contributeur avait la possibilité de contribuer à plusieurs reprises au grand débat ; chacune de ses contributions comportant plusieurs textes (en réponse à des questions ouvertes) ou bien des réponses à des questions fermées.

Sur la plate-forme du grand débat, les contributeurs étaient donc invités à livrer leurs réponses ou leurs propositions écrites sur quatre grands thèmes : démocratie et citoyenneté, fiscalité et dépenses publiques, transition écologique et organisation de l’Etat et des services publics.

255 000 personnes ont pris la plume

Déposer une « contribution » au grand débat consistait à choisir un thème, indiquer un titre, puis répondre à une série de questions, ouvertes pour la plupart.

Le gouvernement met en avant le chiffre de 506 000 contributeurs, mais seules 255 003 personnes ont effectivement pris la plume pour répondre à l’une, au moins, des questions ouvertes portant sur l’un des quatre grands thèmes.

Parmi elles, 135 684 contributeurs (53 %) n’ont répondu qu’à un seul des grands thèmes ; seulement 39 834 participants (15,6 %) ont répondu à tous les thèmes.

Contributions aux thèmes du grand débat

Nombre de contributeurs uniques par thème

Use regions/landmarks to skip ahead to chart

Long description.

No description available.

Structure.

Bar chart with 4 bars.

The chart has 1 X axis displaying categories.

The chart has 1 Y axis displaying 0.

Chart graphic.

Fiscalité et dépenses publiquesTransition écologiqueDémocratie et citoyennetéOrganisation de l'Etat et des services publics

20 00060 000100 000140 000

Source : Grand débat

Pour comparaison, la consultation menée par l’Assemblée nationale sur le changement d’heure avait récolté plus de deux millions de réponses. L’enquête « Ma télévision de demain » menée par France Télévisions avait quant à elle rassemblé 127 109 participants.

Des contributions disparates

Selon les données ouvertes du grand débat que nous avons analysées, les 255 003 contributeurs ont généré 569 020 « contributions ». Celles-ci ont elles-mêmes généré 9,8 millions de textes à analyser – chaque contribution pouvant comporter plusieurs textes.

Au total, on compte dans ces textes 170 723 676 mots écrits (soit un peu plus d’un milliard de caractères, ou plus de cent fois A la recherche du temps perdu, de Marcel Proust). Selon notre décompte, la répartition s’avère inégale sur le volume de ces textes, qui correspondent chacun à la réponse à une question.

Le texte le plus important compte 350 000 caractères…, mais en moyenne on compte 17 mots par champ de libre expression.

Grand débat : classification par nombre de mots

Nombre de mots par champ de libre expression

Use regions/landmarks to skip ahead to chart

Long description.

No description available.

Structure.

Bar chart with 4 bars.

The chart has 1 X axis displaying categories.

The chart has 1 Y axis displaying 0.

Chart graphic.

10 mots ou moins11 à 50 mots51 à 100 motsPlus de cent mots

1 000 0003 000 0005 000 0007 000 000

Source : Grand débat

Des contributeurs frénétiques

L’analyse des données brutes permet d’observer une forme de frénésie chez certains contributeurs. Le participant le plus actif a en effet déposé 472 contributions, pour plus de 11 000 textes écrits dans les champs de libre expression.

On pourrait se réjouir d’une telle motivation, mais dans la totalité des cas ces contributions s’avèrent, au mieux, des copies d’elles-mêmes ; au pire, laconiques. En éliminant les champs vides (2,6 millions) et les doublons (2,6 millions), sur les 9,8 millions de textes, nous n’en comptons plus que 4,5 millions.

MÉTHODOLOGIE

Comment nous avons procédé

Pour réaliser cet article, nous avons analysé de manière quantitative les données. Nous n'avons évidemment pas eu le temps de lire les contributions une à une.

Pour ce faire, nous avons téléchargé les quatre jeux de données correspondant au quatre thèmes disponibles sur le site du grand débat.

Pour chacun d'entre eux, les données se présentaient comme suit : une ligne par contribution avec l'identifiant du contributeur, plusieurs variables comme la date de publication et, enfin, les colonnes correspondant aux réponses du contributeur.

Nous avons ainsi concaténé (un terme du jargon du traitement de bases de données, qui pourrait être défini par "réuni") l'ensemble des jeux de données en les transposant (une question et une réponse/contribution écrite par ligne) pour n'obtenir qu'un seul tableau contenant les colonnes: 'reference', 'createdAt', 'publishedAt', 'updatedAt', 'trashed', 'trashedStatus', 'authorId', 'authorType', 'authorZipCode', 'theme', 'question', 'contribution', 'title'.

Nous disposons alors d'un jeu de données pes

Des contributions disparates

Selon les données ouvertes du grand débat que nous avons analysées, les 255 003 contributeurs ont généré 569 020 « contributions ». Celles-ci ont elles-mêmes généré 9,8 millions de textes à analyser – chaque contribution pouvant comporter plusieurs textes.

Au total, on compte dans ces textes 170 723 676 mots écrits (soit un peu plus d’un milliard de caractères, ou plus de cent fois A la recherche du temps perdu, de Marcel Proust). Selon notre décompte, la répartition s’avère inégale sur le volume de ces textes, qui correspondent chacun à la réponse à une question.

Le texte le plus important compte 350 000 caractères…, mais en moyenne on compte 17 mots par champ de libre expression.

Grand débat : classification par nombre de mots

Nombre de mots par champ de libre expression

Use regions/landmarks to skip ahead to chart

Long description.

No description available.

Structure.

Bar chart with 4 bars.

The chart has 1 X axis displaying categories.

The chart has 1 Y axis displaying 0.

Chart graphic.

10 mots ou moins11 à 50 mots51 à 100 motsPlus de cent mots

1 000 0003 000 0005 000 0007 000 000

Source : Grand débat

Des contributeurs frénétiques

L’analyse des données brutes permet d’observer une forme de frénésie chez certains contributeurs. Le participant le plus actif a en effet déposé 472 contributions, pour plus de 11 000 textes écrits dans les champs de libre expression.

On pourrait se réjouir d’une telle motivation, mais dans la totalité des cas ces contributions s’avèrent, au mieux, des copies d’elles-mêmes ; au pire, laconiques. En éliminant les champs vides (2,6 millions) et les doublons (2,6 millions), sur les 9,8 millions de textes, nous n’en comptons plus que 4,5 millions.

MÉTHODOLOGIE

Comment nous avons procédé

Pour réaliser cet article, nous avons analysé de manière quantitative les données. Nous n'avons évidemment pas eu le temps de lire les contributions une à une.

Pour ce faire, nous avons téléchargé les quatre jeux de données correspondant au quatre thèmes disponibles sur le site du grand débat.

Pour chacun d'entre eux, les données se présentaient comme suit : une ligne par contribution avec l'identifiant du contributeur, plusieurs variables comme la date de publication et, enfin, les colonnes correspondant aux réponses du contributeur.

Nous avons ainsi concaténé (un terme du jargon du traitement de bases de données, qui pourrait être défini par "réuni") l'ensemble des jeux de données en les transposant (une question et une réponse/contribution écrite par ligne) pour n'obtenir qu'un seul tableau contenant les colonnes: 'reference', 'createdAt', 'publishedAt', 'updatedAt', 'trashed', 'trashedStatus', 'authorId', 'authorType', 'authorZipCode', 'theme', 'question', 'contribution', 'title'.

Nous disposons alors d'un jeu de données pesant 5.5 Go et contenant un peu moins de 12 millions de lignes (que nous ne pourrons donc vous partager car trop volumineux)

Pour ensuite isoler les questions ouvertes des questions fermées, il nous a suffi de réaliser un tri à plat des modalités de réponses : les questions fermées n'en contenaient que 3 ou 4, celles ouvertes plusieurs milliers.

En éliminant ces lignes, il devenait donc possible de ne conserver que les textes effectivement rédigés par les contributeurs et ainsi calculer le nombre de mots, de signes, observer les doublons, etc.

Pour nos lecteurs les plus au fait de la technique, nous avons manipulé les données avec la librairie Pandas du langage Python. La transposition a pu se faire grâce à la fonction "melt". Nous avons utilisé la fonction "drop_duplicates" pour repérer les doublons : en clair, cela permet de repérer les cellules de texte parfaitement identiques. C'est grâce à cela que nous avons pu comptabiliser les doubons mentionnés dans l'article.

Mise à jour du 9 avril: nous avons modifié le nombre de textes à analyser (de 11 à 9,6 millions en excluant les réponses aux questions fermées); nous avons ajouté une précision concernant les champs vides (nous en avons dénombré 4 millions sur les 11 millions de textes que comportent les contributions)

Jonathan Parienté et Maxime Ferrer