On le soupçonnait un peu, une étude scientifique le confirme : la diversité de l’offre d’information dans les sites d’information en ligne est loin d’être aussi importante qu’on aurait pu l’espérer. Pire même, cette offre est massivement « redondante » et « stéréotypée » : les sites d’informations diffusent la même information en même temps, avec une extrême concentration de la production sur une toute petite quantité de sujets ultra-dominants dans l’actualité.
Le chercheur Franck Rébillard (dont on
suit attentivement sur ce blog les travaux sur l’information en ligne ) me signale la parution des
résultats d’une étude très intéressante sur la production d’information des
sites d’information francophones. Cette étude « Internet, pluralisme et
redondance de l’information », co-écrite par Franck Rébillard, Emmanuel
Marty et Nikos Smyrnaios, a été présentée lors du colloque New Media and
Information, à Athènes, du 6 au 9 mai dernier. Elle est disponible sur le site
de Nikos Smyrnaios (format .pdf, en anglais).
Le grand intérêt de l’étude est d’être l’une des premières à apporter une analyse scientifique statistique sur la nature des contenus de type information d’actualité diffusés sur le web francophone. Elle a le mérite d’analyser un très large panel de sites, en ne se concentrant pas sur les « sites de presse », issus des médias traditionnels et « pure players » de journalistes, mais élargit le champ d’étude aux portails, aux agrégateurs, aux webzines et aux blogs.
A la recherche de la longue traîne de l’information
A la recherche d’une vérification de ce que la théorie de la longue traîne, de Chris Anderson, pouvait s’appliquer à l’information d’actualité sur internet, les chercheurs sont conduits à nuancer leur conclusion.
L’étude porte sur l’information diffusée en novembre 2008, et se concentre particulièrement sur les 6 et 10 novembre derniers, procédant à une analyse linguistique statistique semi-automatisée sur plusieurs milliers d’articles issus de plusieurs dizaines de sources.
Les chercheurs ont établi une procédure pour agréger automatiquement en « sujets » les articles consacrés au même évènement (repérés par l’observation des récurrences linguistiques dans les textes). Ils ont ensuite observé la distribution du rapport en nombre d’articles et variété des sujets traités, ce qui nous donne une sorte d’indice de pluralisme de l’information en ligne. Ils ont poussé l’étude plus loin en analysant le traitement d’un même sujet dans les différents articles qui l’abordent, ce qui fournit une sorte d’indice d’originalité.
Le règne du « canon à dépêches »
Le résultat est sans appel, l’information en ligne est massivement
« redondante » et « stéréotypée ». Dit
autrement, les sites d’information traitent les mêmes sujets, en même temps, de
la même manière, et la variété de ces sujets est extrêmement réduite. Dit encore
autrement, (l’expression est de moi, pas des chercheurs en question ), c’est le règne du canon à
dépêches.
La distribution des résultats répond grosso-modo au principe de la « loi de Paretto » : 80% des articles se concentrent sur 20% des sujets, les 80% d’autres sujets abordés sont traités par les 20% d’articles restant, souvent par un seul article (c’est à dire une seule source). La récurrence de l’utilisation des mêmes formulations dans les différents articles traitant d’un même sujet, montre qu’il s’agit en réalité des mêmes dépêches d’agence de presse, peu ou même pas du tout réécrites.
Sur les deux journées [étudiées], les sources qui semblent les plus redondantes en terme de choix des sujets et d’utilisation de titres stéréotypés sont les trois portails MSN News, Yahoo News, Orange News, et l’agence de presse AFP. Cette tendance est due à la politique des portails qui publient des fils d’information en flot continu, privilégiant la réactivité plutôt que la créativité. D’un point de vue quantitatif, ces acteurs occupent une position centrale dans le secteur de l’information en ligne francophone, car ils diffusent de gros volumes d’information et agrègent de larges audiences. Mais d’un point de vue qualitatif, leur contenu est redondant et stéréotypé. D’autres sources, qui semblent proches de ce modèle que propose l’AFP, sont les sites des télévisions françaises, notamment France 2 et France 3 (TF1 et France 24 semble être moins redondantes en comparaison), ainsi que la station de radio RTL.
Les sites qui se démarquent : Agoravox, Bakchich, Le Post et des blogs
Parmi les sources, en France [à l’exclusion des sites francophones étrangers], quatre types de médias peuvent être distingués en fonction de leur production de titres originaux : Agoravox, site de journalisme citoyen, Backchich, webzine politique, Le Post, autre site de journalisme participatif, et certains blogs. Puis viennent les versions électroniques des médias de la presse écrite comme Le Journal du Dimanche, Le Point, Les Echos, et dans une moindre mesure, Libération, L’Humanité et Le Monde, qui ont également une identité lexicale assez originale. Enfin certaines sources apparaissent au carrefour de la diversité et de la banalité lexicale. Cette position est évidente pour la version numérique du magazine Nouvel Observateur, mais c’est aussi vrai, dans une moindre mesure, pour les sites des deux quotidiens gratuits 20 minutes et Métro, et les deux stations de radio numérique RFI et RMC [A la fois une réelle activité de production de titre, et une utilisation d’un langage très commun, qui est aussi utilisé par d’autres sources].
L’information redondante et stéréotypée domine
Au bout du compte, l’effet de longue traîne se vérifie-t-il ? L’extrême concentration de la production d’information sur un très petit nombre de sujets ultra-dominants est-elle compensée par une extrême variété des sujets traités dans la longue traîne ? En réalité pas tout à fait, la traîne est trop courte et pas assez dense par rapport au modèle attendu. L’information redondante et stéréotypée domine sur internet.
Les chercheurs avancent plusieurs explications, de méthodologie et de fond. L’échantillon des sources considérées sous-estime peut-être la production des webzines et des blogs, qui publient moins et pas quotidiennement. Sur le fond, la nature éphémère de l’actualité, qui se périme vite, ne permettrait pas de retrouver des effets « de fond de catalogue » que l’on trouve pour la musique ou la littérature (à moins, c’est une hypothèse personnelle, que l’on considère la consultation des archives, ce qui demande une approche par la consommation de l’information et non plus strictement sous l’angle de la production. On y revient plus bas).
Un journalisme low-cost sur internet
Plus profondément, les chercheurs avancent une explication que l’on a souvent abordée sur ce blog : les conditions économiques de la production de l’information dans ces sites (Avenir du journalisme ? Tu seras un prolétaire, mon fils)...
Les recherches récentes sur la conditions de production dans les rédactions en ligne montrent une forte tendance à la haute productivité (Estienne, 2007 ; Rebillard et al., 2007). Le journalisme en ligne a tendance à privilégier la réécriture et la republication des contenus existants au détriment du reportage original. Un élément de notre étude qui confirme cette tendance est que les sources les plus redondantes de notre échantillon sont les portails sans aucune équipe de journalistes, les quotidiens gratuits avec de petites rédactions et les radios et chaînes de télévision, qui ont une production limitée de contenu texte. Nous pouvons en déduire que les conditions particulières de production dans chaque site d’information en ligne ont un impact majeur sur la diversité de son contenu.
Dit autrement (edit : en forçant un peu, mais vous
voyez l’idée... ) , c’est assez logique
mais c’est tout de même rassurant : la diversité de l’information proposée
est proportionnelle au nombre de journalistes que l’on emploie. Sauf que, et les
chercheurs reconnaissent qu’il faudra d’autres études pour l’établir, ce qui
reste déterminant c’est le rapport entre la diversité de l’offre et la réalité
de la consommation d’information des internautes.
Les données dont on dispose ne sont, en la matière, pas du tout encourageantes : l’audience des sites portails « sans journalistes », les purs « canons à dépêches », domine largement celle des sites de médias disposant de journalistes et offrant une information plus originale et plus diversifiée. Doit-on en conclure qu’en ligne la qualité ne paye pas ? Ou plutôt que la demande d’information majoritaire des internautes se concentre bel et bien sur le type d’information proposée par ces « canons à dépêches » ? Car cette information leur suffit ? Car ils se défient des autres formes d’information produites par les journalistes ? Ce serait une très mauvaise nouvelle pour le journalisme...
Mise à jour (mercredi) :
• Philippe Couve (Samsa news) : Nourrir Google affame les journalistes
Le chercheur Nikos Smyrnaios, participant à cette étude, a fourni à Philippe - qui la publie - la liste des sources étudiées. Le chercheur précise :
L’échantillon est quasi-exhaustif pour ce qui est des sites médias français. Dans d’autres catégories (blogs, médias francophones p.e) il a fallu effectuer des choix subjectifs.
Il y a plus de 80 sources pour l’analyse en continue du 1 au 20 novembre 2008 et autour de 60 pour les deux jours analysés plus en détail (6 et 10 novembre 2008), puisque toutes les sources n’ont pas publié une information nouvelle à ce moment là.