Désinformation : de l'art de comparer l'incomparable sur des dates périmées

Aujourd'hui est arrivé dans mes flux un article de Marc Schillaci qui nous invite à méditer sur la question suivante : « Comment savoir quand une nouvelle fraîche ne l'est plus ? ».

Contenu, apparence et comportement
Nous allons voir pourquoi ces informations sont de la désinformations.

J'ai trouvé l'exemple exposé réellement pertinent et faisant une veille ponctuelle sur les médias sociaux, c'était l'occasion pour moi de faire un petit exercice de Zététique.

J'ai envie d'y croire

Dans notre flux donc, nous tombons, en date du 23 juin 2018 sur cette infographie :

Infographie indiquant des durées supposément comparables pour prendre des décisions.

C'est plutôt intéressant. J'utilise souvent les réseaux sociaux pour relayer mes informations et ce qui m'importe c'est ma visibilité : aussi cette infographie est parfaite ! Simple, élégante et les informations qu'elle me présente me semble rationnelles. J'ai envie d'y croire.

le Biais de confirmation : nous avons tendance à intégrer les informations qui appuie les croyances que nous avions au préalable et d'ignorer ce qui va à l'encontre de nos croyances. Ce comportement est la plupart du temps involontaire !

Pour ce prémunir de ce biais, il est important de se préoccuper avant tout des informations qui vont à l'encontre de ce qu'on a envie de croire et de les analyser de façon critique.

Source : https://fr.wikipedia.org/wiki/Biais_de_confirmation

Aussi si je m'arrête un instant, je peux légitimement me poser cette question : Comment puis-je être sur que les valeurs présentées ici sont vraies ? Et si elles le sont, comment puis-je savoir qu'elles sont toujours à jour ?

La puce à l'oreille

Ce qui dérange Marc Schillaci dans sa publication est l'élément suivant : « J'ignore comment est défini chaque durée de vie, sachant que pour ma part, il m'arrive de me connecter le soir sur Twitter et de faire un tour sur certaines timelines pour lire de "vieux liens" de plus de 12 heures ! Voire de plusieurs jours sur LinkedIn. J'imagine qu'il s'agit uniquement de la durée de vie de l'instantanéité "la durée de vie qui correspond au laps de temps moyen d'attention de l'audience avant que le contenu soit noyé dans le flux des publications". ».

C'est un excellent réflexe de se demander « quelle a été la méthode d'acquisition de connaissance pour cette infographie, et dans quelle mesure je peux lui faire confiance. » ; on appelle cela de l'épistémologie. C'est la première étape du doute méthodique.

Une explication possible pour remettre en cause les doutes de Marc est que cette infographie peut refléter la durée avant laquelle au moins XX% de personnes voient dans leurs flux / recherches une information. Ce XX% explique alors que si l'on voit l'annonce au delà du temps affirmé, c'est qu'on ne fait déjà plus parti des XX% de l'étude qui a produit les résultats de cette infographie. Mais puisque ceci n'est pas mentionné, alors le doute est raisonnable.

la Rationalisation : nous avons tendance à trouver des explications qui nous semblent rationnelles et logiques pour expliquer ce qui cloche là ou nous devrions soit :

  • nous avouer à nous même que nous ne savons pas ou
  • considérer plutôt une telle affirmation comme une hypothèse de travail qu'il va falloir prouver : c'est un rationnel.

Source : https://www.linkedin.com/pulse/votre-utilisation-du-mot-rationnel-est-elle-bruno-j-s-lesieur/

Aussi posons cette histoire de XX% comme une hypothèse de travail supplémentaire mais n'oublions pas de traiter notre principale réflexion : au delà du fait que des informations furent réellement bonnes comment savoir si elles le sont toujours ?

Du coup les informations de notre infographies ? Sont-elles périmées ? Et notre hypothèse supplémentaire est elle bonne ? Allons donc voir les sources que l'on peut obtenir à partir de l'infographie.

État des lieux initial

Tout d'abord, vérifions si nous avons des indicateurs de confiances sur cette source.

Les valeurs sont-elles à jours ?

Un premier indicateur qui fait défaut sur cette infographie, c'est qu'elle n'est pas daté. Si l'auteur n'a pas daté son travail, on peut raisonnablement penser que c'est parce qu'il ne sait pas en quoi cela est capital. Ici on pourrait donc penser que ce n'est pas un professionel qui a fourni cette infographie.

la Date d'une information : elle nous renseigne sur le contexte temporel de l'information, cela permet de comprendre pourquoi une informations à pu être juste dans un contexte, et ne plus l'être dans un autre (par ex. aujourd'hui).

Source : https://www.sites.univ-rennes2.fr/urfist/evaluation_information_contexte

C'est déjà un premier point peu engageant.

Les valeurs sont-elles vraies ?

Deux autres indicateurs partiellement manquant (encore plus important que le premier) sont la source des données ainsi que la méthode d'acquisition et de comparaisons des données. Partiels donc, car le site supposé contenir la source des données y est mentionné, c'est Smarther mais impossible d'atteindre directement les données. Le minimum auquel on était en droit de s'attendre était un lien direct vers une page plus exhaustive fournissant ces informations.

le Protocole : explique comment les données ont été récupérées et analysées. Un protocole doit toujours permettre à celui qui le suit en utilisant ses instructions de tomber sur les mêmes résultats. Si cela n'est pas le cas, c'est que l'information issus du protocole n'est pas fiable. Parce que l'erreur peut également venir de l'expérimentateur, on doit répliquer un grand nombre de fois les études et aboutir à la même conclusion pour avoir des informations solides. Une étude sans réplication étant peu fiable, et sans protocole étant inutile.

Source : https://fr.wikipedia.org/wiki/M%C3%A9thode_exp%C3%A9rimentale

C'est donc un second point peu engageant.

Cependant, tout ce que nous souhaitons récupérer est peut-être facilement accessible sur le site de Smarther. Il est possible que l'auteur soit expert dans la réalisation d'infographie qui buzz mais qu'il ne soit pas expert en journalisme. Gageons que sa source sera plus fiable. Mais pour le moment, c'est peu engageant. On pourra toujours également penser que l'auteur n'aura pas eu la place de mettre le lien complet. Cela n'est qu'une indication, mais il serait dommage de passer à côté de super information au prétexte que ce n'est pas directement sourcé, non ? J'ai un doute. Mais continuons.

Domaine de compétence de l'auteur

Rendons nous donc sur Statista présenté comme les créateurs de l'infographie. Allons vers une page qui nous présente ce site donc.

Statista

On y apprend donc que Statista a pour but de compiler des informations en provenance de sources statistiques et de les mettre à disposition. Jolie présentation pour le site. L'infographie nous fournit des données statistiques, le site nous dit que compiler des statistiques c'est leur domaine d'expertise. Tout semble aller bien. J'ai envie d'y croire.

Bon, mais sinon, y a t-il un réel auteur ? Une présentation d'un designer ou artiste probablement. Et surtout où voit t-on que l'auteur touche sa bille en statistique ? Car bien malin celui qui penserait pouvoir exploiter des données brutes sans connaissances des nombreux biais à éviter pour obtenir des résultats « significatifs ».

Rendons nous sur Google Image Search et cherchons notre image en faisant une recherche par image puis rendons-nous dans toutes les tailles.

Google Search Image

En jouant avec les dates on trouve 15 résultats et ils datent tous de cette dernières semaines. L'information semble être fraîche ! Vraiment ? En tout cas j'ai envie d'y croire.

Après avoir isolé la source initiale par la date, nous tombons sur l'article original.

L'infographie a donc été publiée le 18 juin 2018 sur cette page et on y apprend que l'auteur est Claire Jenik. Elle est Data journaliste... Difficile à première vu, en aillant affaire à une journaliste des données, que l'infographie ne soit pas daté ou correctement sourcé (lien direct). Allons donc voir le CV de cette personne. Il semble qu'elle est commencé ce métier directement chez Statista. Elle a donc pu acquérir ses compétences de ses pairs experts chez Statista. Également elle a pu, au vu de ces études, êtres exposées à la méthode scientifique très similaire à la méthode d'investigation journalistique. Enfin, peut-être également qu'elle a étudié les statistiques de manière poussée. Donc de ce côté là, il n'y a rien qui nous permettrait de conclure que cette personne ne soit pas compétente dans son domaine.

Article de Claire Jenik, Data journaliste

L'autorité de l'auteur est établie, il n'est pas impossible que nous ayons affaire à quelqu'un qui s'y connaisse assez en statistique et en méthode scientifique pour fournir une compilation de données correcte. Je n'ai pour le moment pas de raison suffisante de douter de ce côté là.

l' Autorité de l'auteur : une affirmation n'a de validité que si elle est faites par une personne dont l'affirmation touche son domaine de compétence. Si la personne n'a pas les moyens d'apporter des informations pour affirmer ses compétences dans un domaine, il n'y a pas plus de raison de croire à ce qu'elle affirme que quelqu'un d'autre.

Source : https://fr.wikipedia.org/wiki/Argument_d%27autorit%C3%A9

Peux-être que Claire Jenik n'est pas sensibilisé à la portée virale d'une telle infographie. En tout cas, mettons de côté le fait qu'elle le soit et que la réalisation « intemporelle » de son infographie soit volontaire, ce qui ne rendrait vraiment pas service à Statista.

Une autre zone d'ombre se profile également : je n'ai rien vu qui laisserai transparaître que notre auteur ai une expertise pour la discrimination pertinente de données statistiques dans le domaine des médias / plateformes sociales. Ceci est très important pour éviter les facteurs de confusions.

l' Facteur de confusion : une affirmation basée sur des données publiquement consultable n'a de validité que si elle est faites par une personne dont c'est le domaine de compétence. Cela permet d'éviter les facteurs de confusion dont l'un des exemples le plus parlant reste le paradoxe de Simpson.

Source : https://fr.wikipedia.org/wiki/Biais_de_confusion

Remonter à la source de l'infographie

Puisque nous avons réussi à mettre la main sur la page qui nous donne plus d'information sur l'infographie, nous savons que ce n'est pas l'auteur qui a compilé les données mais que c'est une page qui l'avait fait avant elle. Elle en donne la source dans le texte comme Statista en fait la promesse ici. Cela peut être rassurant car ce n'est pas parceque l'auteur à mal présenter ces données qu'elles sont fausses.

Nous arrivons donc sur la source des données exposées dans l'infographie par Smarther.

La Source

Ail ! La source date du 22 juillet 2017.

La source a déjà un an ! Je n'ai probablement pas l'expertise nécessaire en ce qui concerne la rapidité d'obsolescence des statistiques extraites de l'utilisation des plateformes sociales. Aussi, peut-être qu'un an est encore quelque chose d'acceptable ? Je m'en remet pour le moment à l'expertise de Claire Jenik qui doit avoir (c'est une nécessité) plus d'expérience que moi sur le sujet. Elle n'a pas pu passer a côté de cette information en tant que journaliste, un an c'est peut-être encore acceptable. J'ai envie d'y croire.

Parfois la source à quelque chose à vendre

Que nous apprend la source Smarther ? À première vu, ce n'est pas une étude, juste un article de blog. Cependant, cet article doit-lui se baser également sur une source ?

Ce qu'on apprend de Smarther au niveau des valeurs est juste vis à vis de l'infographie, et en ce sens, l'infographie résume bien sa source directe. Mais ce n'est pas assez. Un article de blog n'est jamais une source fiable si il ne fournit pas de source et/ou la preuve de l'expertise de son auteur.

Une companie qui a quelque chose à vendre

On continue donc à lire la page de Smarther. Pas de référence, pas de source d'étude ? En fait on a une maigre mention à Mamsys, une société de développement logiciel en Inde qui serait les rapporteurs de cette information (« The Indian software developer Mamsys has interesting figures [...] »). On a donc une page qui affirme des choses en se basant sur des données non sourcées.

Carton rouge. On devrait définitivement ne pas faire confiance à cette infographie.

l' Source fiable : Ce document n'aurait pas du faire office de source s'il ne mentionne pas lui même ces sources. Ainsi, ce n'est pas parce qu'un article Wikipedia n'est pas une étude que ce n'est pas une source d'information fiable car :

On devrait donc s'arrêter ici et ce demander surtout pourquoi Smarther nous livre un tel article puisque ce n'est visiblement pas leur métier premier en consultant leur page « à propos ».

l' Intention de l'auteur : pour arriver à savoir si une source d'information n'a pas de conflit d’intérêt, il faut savoir si la diffusion d'une information qu'elle donne peut lui être bénéfique soit sur le font, soit sur la forme.

Ici, en regardant ce que fait Smarther, on peut supposer l'intention originale des auteurs avec ce billet mal sourcé : promouvoir leurs produits en restant présent dans les flux d'actualités en produisant du contenu. Cela ne fournit aucun gage de qualité, aucune indication sur la méthode de production des études. Mais cette hypothèse ne prouve rien. J'ai envie d'y croire.

À ce niveau il aurait pu se passer au moins deux choses puisque Claire Jenik est journaliste.

  • Soit notre infographiste ne se sert pas de cette source car elle n'a aucun aspect de fiabilité (date lointaine, pas de source précise, expertise du blog discutable). Elle se tourne donc sur autre chose pour produire son travail.

  • Soit elle cherche elle même avec les indices de la page à retrouver l'étude en question et la véracité des données qu'elle fournit, ce qui prend du temps pour un résultat peu engageant pour le moment.

Puisque cette infographie existe, et que nous mettons de côté l'hypothèse que l'auteur est mal fait son travail et ne soit pas compétant pour le moment, alors elle a forcément suivi une piste.

Allons creuser nous aussi du côté de la société indienne Mamsys.

Source introuvable

Après une recherche rapide sur Google (ce site semble être la bonne compagnie ; bon nom, origine indienne), cherchons maintenant dans les publications avant le 22 juillet 2017 dans le blog de Mamsys. C'est donc à partir de la 5ième page (à date du 23 juin 2018) qu'on peut commencer à chercher l'information donc.

Rien qui ressemble au titre de Smarther entre les pages 5 à 17 après lectures des titres et consultations des pages les plus probables d'avoir l'information. Rien à ressortir via le moteur de recherche. Mais l'absence de preuve n'est pas la preuve de l'absence. Je m'en tiens là pour cette piste.

404 : Source Not Found

Ce que j'ai vu des articles de Mamsys, c'est qu'il ne sont pas « créateur de source » sur les pages que j'ai ouvertes, il sont juste relayeurs d'informations. Les sources sont donc peut être disponibles ailleurs.

Assez d'éléments pour évincer l'infographie comme source fiable

Visiblement nous sommes dans un cul de sac ? Il aurait donc été raisonnable pour l'auteur d'abandonner la diffusions de ces informations. Cherchons un peu plus loin tout de même. J'ai envie d'y croire.

Cherchons dans des fenêtres temporelles avant 2017 avec les valeurs de l'article source « Twitter 18 minutes Facebook 5 hours Instagram 21 hours LinkedIn 24 hours YouTube 20 days Pinterest 4 months Blog 2 years » voir ce que nous sommes capable de trouver. Allons nous récupérer notre fameuse étude ?

Après avoir recroisé plusieurs liens mettant en évidence que la liste a été repartagée à droite à gauche on tombe sur un article similaire à ce qu'aurait pu donner celui qui nous a manquer chez Mamsys. La date du 12 juin 2016 ramène la source des données à 2 ans en arrière maintenant...

Pas une mais des sources

On s'aperçoit en parcourant les sources de cette lecture que les données à la base de l'infographie n'est probablement pas une étude mais des études, autant que de plateforme sociale. Faire cette infographie va devenir complexe car il va falloir compiler les données des études et vérifier qu'elles sont compatibles entre elles pour en résumer le tout. Et des études incomparables, il y en a beaucoup. C'est là que l'expertise de Data journaliste de Claire Jenik va prendre tout son sens. J'ai envie d'y croire.

On trouve également cette source pour la valeur de deux ans des blogs.

Et là, c'est la douche froide. Voici malheureusement ce que remonter aux sources nous donne.

Twitter

Le 18 minutes de Twitter est expliqué dans cet article qui date du 12 novembre 2012 ! On y apprend que « Yep, for half of the users sampled, 18 minutes or less was the time it took for half of their tweets' RTs to occur. ». Notre hypothèse précédente placerait donc la barre à 50% des utilisateurs concernant 50% des tweets visibles.

Facebook

Le 5h de Facebook est expliqué dans cet article qui date du 06 septembre 2013 ! On y apprend que « 75% of engagement happens within the first 5 hours ». Notre hypothèse précédente placerait donc la barre à 75% des utilisateurs concernant l'engagement sur ce qui est passé dans les flux.

Blog

Le 2 ans des Blog est expliqué dans cet article qui date du 28 août 2015 ! On y apprend que « only after two years will a blog post obtain 99 percent of its impressions ». Notre hypothèse précédente placerait donc la barre à 99% des utilisateurs concernant la visite d'un billet de blog.

Nous n'avons pas besoin de poursuivre plus nos investigations puisque nous avons à présent assez d'éléments pour mettre à mal la véracité des informations de cette infographie.

Conclusion : cette infographie est de la désinformation

Il y a deux critères avec nos recherches qui permettent d'exclure cette infographie comme source fiable à présent :

Contenu, apparence et comportement
Infographie utilisant des données non comparables et passées de date.

À propos des dates

C'est l'argument le moins solide car, n'étant pas expert en date de péremption des informations concernant les algorithmes des plateformes sociales, je ne peux pas affirmer avec certitude que les dates fournies relèvent de l'obsolescence. Cependant, au vu des dates qui courent de 2012 à 2015 pour les informations trouvées et la parution de l'infographie en 2018 ainsi que mon expérience dans le développement informatique : j'ai de bonne raison de croire que ces informations ne sont plus valides. Une bonne manière de le prouver serait de récupérer des chiffres récents (des derniers mois) contredisant chaque point dans des études comparatives faites par des statisticiens experts dans le domaine des médias sociaux.

À propos de la compilation statistique

C'est l'argument qui discrimine définitivement cette infographie comme étant sérieuse : elle compare des valeurs qui sont incomparables puisque le seuil XX% est différent pour chacune et que la métrique visée est différente à chaque fois. Et encore une fois, les dates ne ciblent pas les mêmes temporalités ce qui ne reflète pas les mêmes utilisateurs globaux : pas le même contexte.

Il est même fort probable qu'à valeur de XX% égale, pour chacune des métriques à la même date on obtienne un résultat complètement différent.

Où est-ce que ça à merdé ?

Très clairement, la source Smarther n'est pas une source fiable. Comme Claire Jenik est journaliste, elle devait le savoir. Puisqu'elle est spécialisée dans la manipulation de données (Data journaliste) et si elle a suivi la piste des informations, elle doit également savoir qu'elles n'étaient pas comparables. Je m'arrêterai là et n'émettrai pas mon jugement personnel dans ce billet, ce n'est pas le but.

le Procès d'intention : c'est le fait de préter des intentions à quelqu'un sur la base d'élément qui ne sont pas suffisant pour exclure d'autres hypothèses. Aussi il ne faut pas attribuer à la malveillance ce qui peut être attribué à la simple bétise sans preuve.

Source : https://fr.wikipedia.org/wiki/Proc%C3%A8s_d%27intention

Statista n'a pas rendu le service qu'il prétent offrir pour cette infographie et Claire Jenik n'a pas sérieusement fait son travail pour cette infographie.

la Généralisation abusive : il ne serait pas correcte de conclure que Statista ne rend pas le service qu'il prétend offrir en se basant sur uniquement une publication. Pour pouvoir affirmer cela dans la globalité il faudrait qu'un nombre significatif de publication soient démontrés fausses. Il faudrait également vérifier si Statista s'engage sur un pourcentage de « vrai-positif » pour savoir à partir de quand on peut considérer qu'il ne rend pas le service qu'il affirme offrir.

Source : https://cortecs.org/materiel/la-generalisation-abusive/

Oui, mais d'autres infographies confirme ces nombres !

J'ai trouvé assez d'élément pour confirmer que cette infographie est de la désinformation. Vraiment ? Je n'ai pas la certitude que les informations s'appuyaient réellement sur les sources que je cite pourtant. Il y a de grande chance que ce soit vrai : mais ce n'est pas une preuve irréfutable.

le Biais d'attrition : c'est le fait de prendre uniquement en compte les résultats que nous avons sous les yeux et que nous pensons valide en ne se demandant pas s'il n'y aurait pas plus de résultat que cela (ou en écartant volontairement des résultats déjà trouvé).

Source : http://www.txrating.org/polycop/concept/attrition.htm

J'ai donc retenter la recherche en incluant le mot « Mamsys » avec la liste des autre valeurs.

Après avoir ouvert énormément de site (comme ce presque plagiat LinkedIn, ce billet récent, ce plagia même pas formaté) j'ai pu constater que tout comme l'auteur tout le monde sourçait l'article de Smarther.

Mais je suis tombé sur cet article en allemand datant du 31 mai 2017 qui est antérieur donc à celui de Smarther. Et ce qui est intéressant, c'est qu'il source correctement Mamsys ! En voici le lien qui est mort mais qui nous indique tout de même que l'article en question s'appelait « 21 ways extend life of your content » !

On relance les recherches avec ce titre donc et là, c'est le graal.

Timeline des infographies

On obtient des « clones » de ce que devait être l'article original comme ici ou . Cela nous permet de voir que des autres infographies reprennent les mêmes valeurs ! Donnant l'illusion que ces informations sont véridiques ! Pourtant ce n'est pas parce que le plus grand nombre affirme quelque chose que l'information est vrai. L'important, c'est l'expertise de celui qui affirme.

L'une des infographies ici nous permet directement de retrouver des sources correspondants aux valeurs incriminées. C'est la seconde sur le graphe ci-dessus :

Sources des affirmations de l'infographie

Et l'étude de ces sources réalisée par Paul Humbert m'amène également à la conclusions que les informations présentés ainsi en 2018 sont de la désinformation.

Et sinon ? Comment savoir quand une nouvelle fraîche ne l'est plus ?

Et si on répondait à la question ?

Réponse courte

  • Pas de date, pas de source directe ? Direction poubelle.

Ma méthode

La méthode que j'utilise et qui me permet de faire cette discrimination au quotidien est la zététique.

Pour en faire un résumé, la Zététique vous permet :

1) D'entraîner ses heuristiques de prise de décision intuitive :

  • en s'accommodant au mieux des biais cognitifs humains et
  • en repérant les arguments et logiques fallacieuses.

2) D'améliorer sa prise de décision analytique :

  • en travaillant sa logique,
  • en faisant des réductions statistiques et
  • en étudiant des modèles probabilistes.

3) De correctement s'informer :

  • en classifiant les preuves, en pondérant les hypothèses et en remontant aux sources afin
  • de distinguer ce que l'on crois de ce que l'on sait.

4) De rester bienveillance et humble :

  • en remettant en causes les propos/actions pas les personnes,
  • en ne cherchant pas à avoir raison mais à se tromper le moins possible et
  • en acceptant nos croyances en tant que tel.

C'est avec cette méthode que j'ai rédigé cet article !

Lire dans une autre langue