Récupération et Archivage de l'Information Depuis des Sites Web

par Wael Eskandar, Brad Murray

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_01-cik-illustration.png


En bref: Vous explorerez des façons de trouver et de récupérer des informations historiques ou « perdues » sur des sites Web pour servir de preuve de l'existence de quelque chose en ligne, et d'archiver et de préserver vos propres copies des pages Web pour référence future.


Parfois, lorsque vous voulez vérifier des informations en ligne, vous finissez par suivre une piste qui mène à des liens cassés ou à des sites Web qui ne sont plus disponibles.

D'autres fois, vous trouvez des sites Web contenant des informations vitales qui pourraient ajouter une grande valeur à une histoire, mais vous n'en réalisez la valeur que plus tard.

Lorsque vous revisitez ce site Web pour le documenter, vous constatez peut-être qu'il n'existe plus, que la page Web dont vous vous souvenez a été supprimée ou que les renseignements dont vous avez besoin ne sont plus accessibles et ont été remplacés par du nouveau contenu.

Il est probable que vous aurez à faire face à tous ces défis à un moment donné au cours de vos investigations.


Étude de cas Un exemple notoire de la suppression d'une page Web, qui s'avérerait plus tard contenir des preuves cruciales pour les enquêteurs, était la liste des réussites de Facebook dans les campagnes politiques à travers le monde.

Initialement, le site Web de Facebook s'est titré de champion de plusieurs projets « Gouvernement et politique » dans le cadre desquels les partis politiques et les candidat⋅e⋅s ont utilisé les outils et services du réseau social pour cibler les électeurs en ligne et influencer les résultats électoraux. Cette page était disponible à l'adresse suivante: https://www.facebook.com/business/success/categories/government-politics. Le lien était valide jusqu'à ce que, tout d'un coup, il ne le soit plus.

Facebook a retiré la page de sa liste de cas de réussite au début de 2018, après que le scandale de la collecte de données de Cambridge Analytica eut éclaté et attiré l'attention sur la pratique de l'entreprise de permettre à des tiers d'accéder à sa base de données d'utilisatrices et d'utilisateurs à des fins commerciales et politiques.

Le journal The Intercept fournit des renseignements de contexte sur cette affaire.

Et s'il y avait un moyen de remonter le temps et d'obtenir une copie de cette page Web, ou même d'une partie de celle-ci, avant qu'elle ne soit modifiée ou retirée?

Heureusement, il existe des moyens faciles de récupérer les anciens contenus et les pages supprimées pour que vous puissiez toujours y faire référence dans votre enquête. Vous pouvez également enregistrer les pages actuellement accessibles afin de pouvoir les utiliser ultérieurement, même si elles sont modifiées ou supprimées entre-temps.

Il existe plusieurs services de ce type qui archivent automatiquement les versions antérieures des sites Web. Outre le contenu, ces archives numériques contiennent souvent des informations qui peuvent vous aider à identifier d'autres données importantes telles que la ou le propriétaire d'un site Web, des noms utiles, des coordonnées, des documents et des liens vers d'autres sites. Certains de ces services vous permettent de contribuer à la liste des sites Web qu'ils archivent en sauvegardant manuellement les pages Web au moment de votre choix. Vous (et d'autres) pouvez récupérer des instantanés de ces sites Web plus tard.

Pour en revenir à notre cas ci-dessus - de Facebook, avec l'aide d'un de ces services − la Wayback Machine d'Internet Archive (examinée en détail ci-dessous) − nous pouvons trouver une liste archivée des projets politiques que Facebook a déjà présentés dans la section « Gouvernement et politique » de sa page Web « Success Stories » https://www.facebook.com/business/success, maintenant disparue. Une recherche sur "https://www.facebook.com/business/success/categories/government-politics" dans Wayback Machine révèle que ces exemples « Gouvernement et Politique » étaient encore en ligne en 2017, tels que sauvegardés dans l'Internet Archive ici.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-archive-facebook-success.png Capture d'écran de la copie Wayback de la page Web de Facebook désormais supprimée sur "Success Stories - Government and Politics".

Plus important encore, une partie de l'ancien contenu est accessible car certains des anciens liens de la page archivée fonctionnent toujours, vous pouvez donc lire les détails de leurs projets de campagne politique.

Les versions archivées de sites Web comme celles-ci préservent des renseignements qui peuvent être d'une valeur inestimable pour les investigatrices et les investigateurs.


Exemple:

Le journaliste et chercheur en sécurité Brian Krebs a utilisé du matériel archivé d'un site Web qui vendait des logiciels malveillants afin d'identifier les autrices/auteurs probables de ces logiciels. Une version archivée du site contenait un numéro de compte pour WebMoney (un système de paiement global pour les entreprises en ligne) qui était lié à un nom d'utilisateur appartenant à quelqu'un qui faisait la promotion du logiciel malveillant sur un forum « underground ». En suivant cette piste, Krebs a pu retracer les noms d'utilisatrices et utilisateurs de ce forum jusqu'à l'identité réelle des personnes qui avaient créé et distribué le kit de logiciels malveillants.


La sécurité d'abord!

Lorsque vous orientez un service d'archives vers une page Web qui vous intéresse, il parcourt cette page Web et en stocke une copie. Lorsqu'il le fait, la page Web archivée ajoute automatiquement un enregistrement dans un « journal d'accès » (que la plupart des sites Web conservent) indiquant quand et par quelles adresses IP elle a été visitée.

Un⋅e administrat⋅rice⋅eur de site Web attentif ou un processus automatisé pourrait alors se rendre compte qu'une partie de son site a été archivée par la Wayback Machine.

Cela pourrait, à son tour, leur donner des indices que quelqu'un enquête sur un contenu particulier ou sur une personne qui les concerne. Dans certains cas, cela pourrait à lui seul réduire l'impact de votre investigation si le sujet sur lequel vous travaillez est délicat et doit être tenu à l'écart du public pour un certain temps.

À moindre mesure, l'administrat⋅rice⋅eur du site Web pourrait faire retirer les documents archivés de Wayback Machine (voici une des raisons pour lesquelles c'est une bonne idée de faire votre propre copie hors ligne de tout ce qui est crucial pour votre investigation). Cette administratrice ou cet administrateur peut également supprimer ou modifier un contenu équivalent que vous n'avez pas encore trouvé.

La plupart des services d'archivage tiennent également des journaux d'accès.

Webcite, par exemple, enregistre le système d'exploitation de l'ordinateur et le navigateur Web de chaque utilisat⋅rice⋅eur, ainsi que le nom de domaine des fournisseurs de services Internet de chaque utilisat⋅rice⋅eur (voir la politique de confidentialité Webcite). C'est donc une bonne idée d'activer un réseau privé virtuel (VPN) ou d'utiliser le navigateur Tor pour travailler avec les services d'archivage.

De plus, certains services exigent que chaque utilisat⋅rice⋅eur crée un compte, choisisse un nom d'utilisat⋅rice⋅eur, fournisse des informations de paiement, vérifie une adresse e-mail ou associe un profil d'un réseau social.

Vous devriez envisager d'établir un ensemble de comptes séparés, à utiliser avec des services comme celui-ci, afin de séparer votre travail d'investigation de votre identité personnelle en ligne.

Dans certains cas, vous pourriez même vouloir créer une « identité » à usage unique pour une investigation particulière, et s'en débarrasser une fois la recherche terminée.

Quoi qu'il en soit, votre première étape sera de créer un compte de messagerie relativement sécurisé et cloisonné, ce que vous pouvez faire assez facilement sur tutanota.de ou protonmail.com.

Il est beaucoup plus difficile de payer pour des services commerciaux d'une manière qui ne soit pas liée à votre identité personnelle. Si vous habitez dans une région où vous pouvez acheter une carte de crédit prépayée en argent comptant, c'est peut-être votre meilleure option.

Dans la situation potentielle ci-dessus − l'administrat⋅rice⋅eur du site Web qui observe un intérêt soudain de la Wayback Machine − il est intéressant de noter que le sujet de votre investigation ne peut pas nécessairement remonter à vous. Si votre service d'archivage est digne de confiance, et si personne n'a accès à la fois aux journaux d'accès du site web et aux journaux d'accès du service d'archivage, l'administrat⋅rice⋅eur peut avoir du mal à relier les points.

Cela dit, il vaut mieux prendre les précautions recommandées ci-dessus que de se fier à cette hypothèse. Supposons, par exemple, que seule une poignée d'adresses IP consultent la page archivée le jour même où elle a été ajoutée à la Wayback Machine. Il serait facile pour n'importe qui de comprendre qu'il est observé depuis un endroit particulier.

Tout petit investissement de temps, avant de commencer votre enquête, peut vous aider à limiter ce genre de risques.


Archivage et récupération de contenu avec la Wayback Machine

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_02-cik-illustration.png

La Wayback Machine est un projet basé à San-Francisco de l'organisation à but non lucratif Internet Archive, une bibliothèque numérique qui a été consacrée à la préservation de milliards de sites Web depuis 1996, dans le cadre d'un effort pour archiver l'Internet et fournir un accès universel à toutes les connaissances. Au début de 2020, elle avait archivé environ 420 milliards de sites Web.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_wayback.png La Wayback Machine

La Wayback Machine est un outil essentiel pour les cherch⋅euse⋅eurs, les historien⋅ne⋅s, les investigat⋅rices⋅eurs et les universitaires. Elle est mise gratuitement à la disposition du public et peut vous aider à accéder à des instantanés d'archives de pages Web prises à différents moments dans le temps.

Les robots d'exploration automatisés de la Wayback Machine (aussi appelés araignées, spiders ou crawlers) peuvent accéder et archiver pratiquement n'importe quel site Web public. Cependant, les robots d'exploration n'ont pas de modèle fixe pour décider quels sites Web ils visitent et à quelle fréquence, car ils sont soumis à des contraintes de ressources et à des orientations de décisions qui influencent leur fonctionnement.

Par conséquent, il se peut que vous ne trouviez pas toujours une version archivée d'un jour, d'un mois ou même d'une année spécifique. De plus, les sites Web peuvent choisir de ne pas être archivés par des services comme la Wayback Machine. En publiant un ensemble de restrictions dans un fichier texte appelé « robots.txt », un site Web peut demander aux robots d'indexation d'exclure tout ou une partie de son contenu de l'archivage ou de l'indexation. Néanmoins, la vaste base de données de la Wayback Machine sera probablement indispensable dans bon nombre de vos investigations.


Note:

Robots.txt est un fichier qui se trouve sur un site Web et liste les parties du site qui devraient ou ne devraient pas être accessibles par les obots d'exploration automatisés (crawlers). Si un site Web possède un fichier robots.txt, vous pouvez le visualiser en ajoutant "/robots.txt" à son domaine ou sous-domaine. Par exemple: https://google.com/robots.txt.

Les sites Web peuvent utiliser ce fichier pour bloquer les robots d'indexation de la Wayback Machine, des moteurs de recherche comme Google ou de tout autre service d'indexation ou d'archivage. Il y a plusieurs raisons pour lesquelles certain⋅e⋅s administrat⋅rices⋅eurs de sites Web optent pour des fichiers robots.txt restrictifs: pour limiter les coûts de bande passante, pour réduire la pression sur les serveurs surchargés, pour protéger les images de marque ou pour empêcher les sites Web inachevés d'apparaître dans les résultats de recherche, par exemple. Dans certains cas, cependant, ils le font afin de cacher un contenu potentiellement sensible.

Bien que la Wayback Machine ne respecte pas toujours ces restrictions, il y a encore de nombreux sites Web que ses robots refusent d'archiver à cause des directives robots.txt. Si vous avez du mal à utiliser la Wayback Machine pour visualiser ou archiver certaines pages, mais pas toutes, d'un site Web, vous pouvez vérifier son fichier robots.txt pour voir si certaines parties du site sont «interdites».

En plus d'offrir une interface simple pour récupérer automatiquement les sites Web archivés, la Wayback Machine vous permet également de stocker manuellement des instantanés de pages Web pour vous assurer qu'ils ne disparaissent pas soudainement.

Ce service permet non seulement d'archiver les pages Web pertinentes pour votre investigations, mais il vous permet également de citer facilement les recherches et d'établir des liens vers le contenu à mesure que votre investigation prend forme.

Bien que ce soit souvent une bonne idée d'enregistrer des copies HTML ou PDF de pages Web importantes sur vos propres appareils pour vous assurer que vous avez plusieurs sauvegardes, les archiver avec la Wayback Machine peut ajouter un élément de neutralité et de confiance si vous finissez par partager ces archives avec d'autres. C'est aussi beaucoup plus pratique, pour la plupart des personnes, que de maintenir une bibliothèque hors ligne de fichiers numériques.

Recherche de pages avec Wayback Machine

Pour trouver une page qui n'est plus accessible, ou pour voir une version plus ancienne d'une page web, allez simplement sur https://web.archive.org et entrez l'adresse web que vous recherchez.

Si la page a déjà été archivée, les dates auxquelles elle a été sauvegardée apparaîtront sur un calendrier de l'année en cours. Vous pouvez naviguer vers les années précédentes à l'aide de la ligne de chronologie, qui affiche également un graphique de la fréquence à laquelle la page a été archivée chaque année. Après avoir cliqué sur l'année qui vous intéresse, les archives de cette année seront marquées sur le calendrier par des points de couleur.

Nous prenons ici l'exemple de https://cambridgeanalytica.org, un site web qui a été démantelé en 2018 suite à la fermeture de l'entreprise (voir ci-dessus l'exemple du scandale de Cambridge Analytica).

NOTEZ que bien que le site web cambridgeanalytica.org semble fonctionner à nouveau (à partir de 2020, et continue à partir de juillet 2023), il ne s'agit plus du site web et de la société d'origine avec ses services/outils fonctionnels, et de nombreux liens mènent à un contenu suspect (ne cliquez pas sur les liens).

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CAcalendar.png Capture d'écran du calendrier de Wayback Machine pour accéder le site Web de Cambridge Analytica

Un rond bleu indique qu'une capture complète de la page Web a eu lieu à cette date. Ce sont généralement les archives que vous recherchez. Un rond vert indique que, lorsque le robot a accédé à cette adresse Web, il a été automatiquement redirigé vers une autre page du même site Web. Ces archives peuvent ne pas contenir le contenu que vous recherchez. Les ronds orange et rouge indiquent qu'une erreur s'est produite pendant le processus d'archivage, éventuellement due à une défaillance du crawler ou du serveur du site Web. Un gros rond indique que plusieurs archives ont été stockées ce jour-là. Vous pouvez les survoler pour sélectionner un archivage spécifique en fonction de l'heure de la journée.

Après avoir sélectionné une version archivée de la page, la barre de navigation de la Wayback Machine s'affiche en haut de l'écran. Ceci vous permet de naviguer entre les différentes archives de cette page en utilisant la ligne de chronologie ou en cliquant sur les boutons « suivant » et « précédent ».

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApage.png Capture d'écran de la page archivée de Cambridge Analytica dans Wayback Machine


Astuce:

Afin d'aider à établir la validité de vos preuves en ligne, vous devrez peut-être vérifier la date et l'heure exactes auxquelles la Wayback Machine a parcouru et archivé une page Web. Vous pouvez le faire en vérifiant l'horodatage qui est intégré dans l'adresse Web de l'archive. Cet horodatage est formaté avec une année à quatre chiffres suivie de représentations à deux chiffres du mois, du jour, de l'heure, de la minute et de la seconde où l'archive a été saisie. Vous le trouverez entre https://archive.org/web/ et l'adresse web de la page archivée. Par exemple, les archives suivantes ont été capturées en 2017, le 31 août, à 06:00 et 27 secondes: https://web.archive.org/web/20170831060027/https://cambridgeanalytica.org.

Techniques de recherche rapide à l'aide de votre navigateur

La Wayback Machine vous permet également de demander une archive de site Web particulièr qu'elle stocke sans passer par son interface de recherche. Au lieu de cela, vous pouvez le faire à partir de votre propre navigateur en vous rendant à une adresse Web correctement formatée.

Il suffit d'ajouter l'adresse du site Web à la fin de l'adresse de la Wayback Machine:

https://web.archive.org/www.yoursite.com/<www.yoursite.com/> est tout site que vous souhaitez rechercher.

  • votre navigateur affichera la dernière version archivée du site que vous souhaitez consulter.

En outre:

  • Si vous séparez les deux adresses par un astérisque \*, votre navigateur chargera la vue calendrier de l'archive: https://web.archive.org/\*/www.yoursite.com/

  • Si vous ajoutez également un astérisque à la fin, la Wayback Machine vous montrera toutes les archives sous ce domaine, pas seulement la page d'accueil: "https://web.archive.org/*/www.yoursite.com/*"

Par exemple, en naviguant sur https://web.archive.org/web/*/cambridgeanalytica.org/*, vous obtiendrez une liste page par page de toutes les pages de cambridgeanalytica.org archivées par la Wayback Machine.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApagelist.png Liste des pages de Cambridge Analytica dans Wayback Machine

Usage de la Wayback Machine pour archiver les pages Web

Une autre caractéristique clé de la Wayback Machine est sa capacité d'archiver des pages Web à la demande.

Que vous souhaitiez sauvegarder et préserver des informations pour une investigation ou assurer l'accessibilité de vos propres travaux publiés, vous pouvez naviguer sur https://archive.org/web et trouver le formulaire « Sauvegarder la page maintenant » dans le coin inférieur droit de la page. Il suffit d'entrer une adresse web (par exemple http://www.yoursite.com/projects) et de cliquer sur le bouton «SAVE PAGE».

À moins que le site Web auquel vous accédez n'ait refusé l'accès aux robots de l'Internet Archive, comme indiqué dans la section robots.txt ci-dessus, la Wayback Machine commence à l'archiver. Vous verrez une barre de progression qui vous indiquera quand la page a été sauvegardée. Vous pourrez alors consulter les archives de la page et une ligne de chronologie affichera toutes les captures précédentes de ce site.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles.png Enregistrement de la page Web du Guardian.com sur Cambridge Analytica dans Wayback Machine

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles_2.png Page Web du Guardian.com sur Cambridge Analytica enregistrée dans Wayback Machine


Note:

Les étapes ci-dessus n'archiveront que la page que vous avez soumise (http://www.yoursite.com/projects, dans ce cas-ci) et pas tout le contenu de ce site Web. Si vous voulez archiver un site Web entier en utilisant cette méthode, vous devrez soumettre chaque page séparément. De plus, cette fonction ne garantit pas que les archives régulières de la page seront capturées à l'avenir, vous pouvez donc revisiter la Wayback Machine de temps en temps pour demander des captures de contenu supplémentaires.

Téléchargement du contenu des archives

Malheureusement, l'Internet Archive ne vous permet pas de rechercher le texte intégral de tous les sites Web de ses vastes archives. Bien qu'il offre une fonction de recherche pour les pages principales de certaines archives, il n'indexe actuellement pas la totalité de ses 345 milliards de pages. Toutefois, si vous souhaitez effectuer une recherche dans le contenu archivé d'un domaine particulier, il existe un moyen de le faire.

Si vous installez le langage de programmation Ruby (version 1.9.2 ou supérieure) sur votre ordinateur, vous pouvez utiliser le script Wayback Machine Downloader pour télécharger tous les fichiers archivés dans un domaine donné. Ce script vous permet de spécifier la plage de dates que vous souhaitez télécharger, ce qui peut être utile si vous travaillez avec des sites qui ont été archivés pendant plusieurs années.

Limites de la Wayback Machine

Comme mentionné ci-dessus, pas tous les sites Web sont automatiquement ou régulièrement archivés par la Wayback Machine.

Les sites sont choisis en fonction d'algorithmes qui utilisent des critères tels que la fréquence à laquelle les personnes les visitent et la fréquence à laquelle d'autres sites Web y accèdent (ce qui est également un indicateur de crédibilité).

De plus, l'Internet Archive possède ses propres robots d'exploration (crawlers) et travaille avec des centaines de bénévoles qui effectuent des recherches et archivent des sites Web pour préserver l'abondance de l'information sur Internet.

Bien que vous puissiez archiver certaines pages manuellement, comme indiqué ci-dessus, vous ne pouvez pas influencer l'ensemble des sites Web que la Wayback Machine archive automatiquement et régulièrement.

La Wayback Machine a aussi d'autres limitations. En voici quelques exemples:

  • Les sites Web protégés par mot de passe ne sont pas archivés.

  • Les sites Web dynamiques qui dépendent fortement de JavaScript peuvent ne pas être archivés correctement.

  • Les administrat⋅rices⋅eurs de sites Web peuvent explicitement demander que leurs sites ne soient pas archivés, soit en publiant un fichier robots.txt restrictif, comme indiqué ci-dessus, soit en envoyant une demande directe à l'Internet Archive.

  • Les administrat⋅rices⋅eurs du site Web peuvent demander que le contenu précédemment archivé soit supprimé de la Wayback Machine.

  • Il n'y a pas, actuellement, de recherche en texte intégral dans les Archives Internet.


Exemple:

Pour illustrer comment les archives peuvent aussi disparaître parfois, l'Internet Archive a récemment été au centre d'un débat sur un blog tenu par la journaliste Joy-Ann Reid. Les avocats de Reid se sont tournés vers l'Internet Archive et ont tenté de faire retirer les versions archivées de son blog, alléguant que certains de ses articles avaient été manipulés par une partie inconnue qui avait inséré du contenu frauduleux dans ses écrits − contenu qui a ensuite été archivé avec son blog.

Lorsque cette demande n'a pas fonctionné, le blog de Reid a simplement changé son fichier robots.txt pour restreindre l'accès des robots de la Wayback Machine. Lorsque les robots d'indexation ont récupéré le changement, ils ont automatiquement supprimé l'archive du blog. Ce cas illustre comment les personnes et les organisations peuvent utiliser des moyens à la fois juridiques et techniques pour retirer du contenu de ces archives tierces.

Dans l'Union européenne et dans quelques autres régions, le droit à l'oubli offre aux individus la possibilité de demander aux moteurs de recherche et aux archives numériques de supprimer les contenus indexés qui les concernent et qu'ils jugent nuisibles ou diffamatoires. Ce droit a des limites, de sorte qu'on ne peut pas tout supprimer sur demande, mais il est utile de garder à l'esprit que certains sujets de votre investigation (politiciens, criminels et autres personnalités controversées) pourraient profiter de l'occasion pour retirer le contenu Internet qui les concerne et qui est pertinent pour votre investigation.


Note:

N'oubliez pas que les noms de domaine peuvent être vendus et que les noms de domaine abandonnés peuvent être réenregistrés. Par conséquent, un seul domaine est parfois géré, au fil du temps, par plusieurs propriétaires. Dans de tels cas, il est possible que l'historique des archives d'un site Web ne soit pas continu et que les documents plus anciens ne soient plus pertinents pour votre investigation.

D'autres façons de récupérer et d'archiver les pages Web

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_03-cik-illustration.png

Archive.today

Archive.today (anciennement appelé archive.is) archive les pages Web tout comme la Wayback Machine.

Archive.today se distingue cependant par le fait qu'il ne stocke que des pages individuelles, plutôt que des sites Web entiers, et cela uniquement à la demande de ses utilisat⋅rices⋅eurs, et non automatiquement.

Voici un exemple de pages archivées de https://cambridgeanalytica.org/:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAshots.png *Cambridge Analytica accessible dans Archive.today *

Puisqu'il ne parcourt pas les sites, il n'a pas l'étendue d'information que vous pouvez trouver sur la Wayback Machine.

Il comporte toutefois trois éléments clés:

  • Tout d'abord, contrairement à la Wayback Machine, il vous permet de rechercher le texte intégral de ses archives.

  • Deuxièmement, il ignore toute restriction qui pourrait être spécifiée dans les fichiers robots.txt des sites Web qu'il archive. Par conséquent, il peut enregistrer des instantanés de certaines pages que la machine Wayback ne peut pas enregistrer, comme les profils Facebook et les messages Twitter publics.

  • Troisièmement, il enregistre également une copie texte et une capture d'écran graphique des pages archivées. Cela permet parfois une plus grande précision que la sauvegarde de la page elle-même, en particulier lors de l'archivage de contenus qui changent rapidement (tels que des images défilantes ou des instantanés de messages de forum, etc.) Cette fonction est également disponible sur la Wayback Machine de l'Internet Archive, mais uniquement pour les utilisateurs connectés (l'enregistrement de l'utilisateur est gratuit).

Vous pouvez rechercher une archive de page Web en tapant son adresse Web exacte (comme "https://cambridgeanalytica.org") ou vous pouvez utiliser un caractère générique ou wildcard tel que \* pour trouver les sous-domaines ou sous-répertoires archivés du site Web (par exemple, "*.cambridgeanalytica.org"). Voici une recherche pour *.cambridgeanalytica.org dans archive.today:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAsearch.png Rechercher Cambridge Analytica dans Archive.today

Comme la Wayback Machine, archive.today vous fournit des liens directs vers le contenu archivé à l'aide d'adresses Web avec horodatage intégré, comme les suivantes: http://archive.today/2018.01.01-042001/https://ocean.cambridgeanalytica.org/


Astuce:

Archive.today offre également un service Tor onion sur archivecaslytosk.onion. Les services Onion ne sont accessibles qu'à partir du navigateur Tor, mais ils vous permettent de garder plus facilement votre interaction avec un service anonymisant. Ceci est particulièrement utile et vital si vous faites des recherches sur un sujet sensible ou si vous soupçonnez que vos activités en ligne peuvent être suivies.

Google Cache

Google Cache est une autre manière de trouver une page qui a récemment été supprimée ou qui est inaccessible.

Lorsque Google accède à une page Web, il crée une version mise en cache, ou une copie, de cette page comme sauvegarde. Il rend souvent ces copies disponibles dans ses résultats de recherche.

Pour accéder à la version mise en cache d'une page de Google, utilisez le moteur de recherche de Google pour rechercher la page que vous souhaitez trouver, cliquez sur la petite flèche à droite de l'adresse Web du résultat de recherche et sélectionnez « mise en cache » ("cached"). Ceci chargera une version en cache du site Web qui a été sauvegardée par Google lorsque ses robots d'exploration ont indexé le site auparavant.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAorg.png Capture d'écran Google Cache

Dans le cas ci-dessus, nous avons essayé de rechercher un cache du site aujourd'hui disparu http://cambridgeanalytica.org/, mais à partir du 28 février 2019 il n'est plus disponible dans une recherche Google (nous n'avons pu trouver qu'un formulaire web à la place). Cependant, une version en cache était encore disponible le 26 février 2019 et, comme on peut le voir ci-dessous, nous avons pu la capturer avec archive.today.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAcapture.png Cambridge Analytica dans Archive.today

Contrairement aux services d'archivage mentionnés ci-dessus, Google cache ne fournit pas d'historique des pages qu'il stocke.

Au lieu de cela, il affiche le contenu de ces pages la dernière fois que ses robots d'exploration y ont accédé, de sorte qu'il peut révéler le contenu qui manque dans la version actuelle d'une page Web ou vous donner accès à une page qui a été retirée depuis.

Trouver une page Web mise en cache indique qu'elle a déjà existé, mais les caches sont souvent écrasées par le contenu mis à jour ou disparaissent complètement (comme dans notre cas ci-dessus). De plus, les administrat⋅rices⋅eurs de sites Web peuvent demander à Google de supprimer des pages de son cache.

Notez que Google peut ne pas conserver une page mise en cache suffisamment longtemps pour que vous puissiez l'utiliser comme preuve dans votre enquête. Voilà pourquoi c'est souvent une bonne idée de sauvegarder la page mise en cache elle-même en utilisant un service supplémentaire, tel que archive.today, et d'en faire votre propre copie hors ligne comme sauvegarde. Les captures d'écran et les fichiers PDF sont utiles pour documenter la façon dont vous avez trouvé une version particulière d'une page et peuvent vous aider plus tard si vous devez démontrer que l'information est exacte.


Astuce:

Lorsque vous archivez une page Web avec un service comme Wayback Machine ou archive.today − surtout si elle a une adresse Web longue et compliquée comme une copie archivée d'une entrée Google Cache − assurez-vous d'enregistrer ce lien quelque part dans un fichier sur votre ordinateur, dans un dossier 'cloud' sécurisé ou ailleurs. S'appuyer sur l'historique de votre navigateur pour trouver de telles choses serait une catastrophe assurée.

WebCite

Webcite est un service gratuit qui offre un moyen de préserver les liens qui ont été cités dans des articles ou des revues, y compris les pages Web ou autres contenus numériques sur Internet.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_webcite.png Capture d'écran WebCite

Ce service est généralement utilisé par les auteurs, les éditrices et éditeurs, les chercheuses et chercheurs et les rédactrices et rédacteurs, qui souhaitent préserver les citations en ligne dans leurs travaux.

WebCite permet une conservation manuelle et rapide des adresses Web individuelles. Il dispose également d'un service qui « peigne » automatiquement les documents textuels téléchargés afin de préserver toutes les citations qui proviennent de sources en ligne.

WebCite prend en charge plusieurs différentes manières de récupérer les documents cités. En plus des adresses Web lisibles et raccourcies, WebCite fournit également des citations avec des formats de référence plus avancés, tels que le DOI(Digital Object Identifier) et les hachages cryptographiques.

Vous pouvez soumettre du contenu à WebCite à l'aide de leur bookmarklet ou d'un formulaire Web à: https://www.webcitation.org/archive.

Moniteurs visuels de site web (visual site monitors)

Une autre option pour récupérer le contenu d'un site Web et pour une version révisée si des changements surviennent est d'utiliser des moniteurs visuels du site. Ce sont des services qui peuvent suivre et surveiller les changements visuels dans les pages Web, qui se produisent dans le code, les images, le texte, etc. Ils peuvent être très utiles pour les cherch⋅euses⋅eurs et peuvent aider à automatiser une partie du travail si vous avez besoin de surveiller de nombreux sites Web qui sont utiles dans votre investigation.

Un moniteur visuel de site surveille les pages Web d'archives d'une manière différente que les outils et services que nous avons explorés ci-dessus. Vous donnez au service une section particulière d'une page Web à surveiller, et il en prend un instantané, puis surveille la page pour les changements visibles.

S'il y a des changements, soit petits soit grands, le moniteur visuel de site vous enverra un email pour vous en informer. L'email comprendra un lien vers un site Web où vous pourrez voir plus de détails. Certains moniteurs de site joignent des captures d'écran d'avant et d'après le changement.

En tant qu'investigatrice ouinvestigateur, vous pouvez utiliser un moniteur de site conjointement avec un service d'archivage pour vous tenir au courant des mises à jour importantes du site Web.

Afin de vous aviser des changements, ces outils vous obligent à créer un compte et à leur donner accès à une adresse électronique ou à un numéro de téléphone. Vous pouvez éviter d'exposer votre identité véritable et vos coordonnées en créant une adresse électronique distincte, surtout si vous travaillez sur des investigations sensibles.

Visualping fournit une offre gratuite qui vous aidera de surveiller jusqu'à 62 pages Web par mois. Cela signifie qu'il peut vérifier n'importe quoi entre deux pages Web par jour (il vous donne des mises à jour quotidiennes pour deux pages Web différentes, si des changements se produisent) ou plusieurs pages sur une base hebdomadaire, pour 62 pages Web par mois (où il vérifie 62 pages pour les changements une fois par mois) − ou autres combinaisons qui vous conviennent. La version gratuite peut effectuer des vérifications toutes les heures, tous les jours, toutes les semaines ou tous les mois pour comparer une page Web avec ses versions précédentes et vous avertir par courriel lorsque des modifications sont apportées au texte, aux images, aux mots clés ou à toute autre zone de page sélectionnée. Le service fonctionne également via le navigateur Tor et nous recommandons d'utiliser cette option pour une couche supplémentaire de confidentialité et de sécurité.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_visualping.png Capture d'écran Visualping

ChangeTower offre un produit gratuit qui surveille jusqu'à trois sites Web et effectue jusqu'à six vérifications par jour (dans ce cas, il peut scanner un site Web deux fois par jour). Il peut surveiller une URL spécifique (page Web), un site Web entier ou d'autres variantes (vous pouvez sélectionner les pages d'un site Web que vous souhaitez surveiller). Il peut rechercher des changements dans le contenu (texte), le contenu visuel, html, les mots-clés, etc. L'option gratuite stocke vos résultats de surveillance jusqu'à un mois. Le service fonctionne également via le navigateur Tor et nous recommandons d'utiliser cette option pour un niveau supplémentaire de confidentialité et de sécurité.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_changetower.png Capture d'écran ChangeTower


Publié en avril 2019

traduit par Xavier Coadic

Ressources

Articles et guides

  • Archive Today FAQs. Une liste de conseils utiles sur la façon de préserver l'information et d'utiliser les documents déjà archivés dans Archive Today.

  • FAQ sur la Wayback Machine et Internet Archive. Une liste de conseils utiles sur la façon de préserver l'information et d'utiliser le matériel déjà archivé dans Wayback Machine. Des conseils juridiques sont disponible ici.

  • WebCite FAQs. Une liste de conseils utiles sur la façon de préserver l'information et d'utiliser le matériel déjà archivé dans WebCite.

Outils et bases de données

  • Archive Today. Un outil d'archivage Web et une base de données du contenu Web archivé.

  • Wayback Machine. Un outil d'archivage Web et une base de données du contenu Web archivé, gérés tout les deux par l'Internet Archive.

  • WebCite. Un service d'archivage à la demande et une base de données qui préserve numériquement le matériel scientifique et éducatif sur le Web.

Glossaire

term-adresseip

Adresse IP (Internet Protocol) - un ensemble de chiffres utilisés pour identifier un ordinateur ou un emplacement de données auquel vous vous connectez (par ex. 213.108.108.108.217)

term-algorithme

Algorithme - une séquence d'étapes établies pour résoudre un problème particulier.

term-bandepass

Bande passante - en informatique, le taux maximal de transfert d'information par unité de temps, sur un trajet donné.

term-basedonnees

Base de données utilisatrices, utilisateurs - une liste d'utilisatrices, d'utilisateurs associés à une plate-forme ou à un système particulier.

term-bookmarklet

Bookmarklet - une adresse Web complexe que vous pouvez ajouter à votre liste de « signets » ou de « favoris » de votre navigateur. Lorsque vous cliquez sur un bookmarklet, il envoie généralement des informations sur la page que vous visitez actuellement à un service tiers.

term-cache

Cache - un stockage temporaire réalisé à grande vitesse pour les données qui ont été utilisées ou traitées et qui peuvent être récupérées rapidement plutôt que de visiter la source originale ou de refaire le calcul associé aux données demandées.

term-wildcard

Caractère générique (ou Wildcard ou joker) - dans ce contexte technique, un symbole tel que "*" ou "?" qui est utilisé dans certaines commandes de calcul ou de recherche afin de représenter n'importe quel caractère ou gamme de caractères (source: https://www.collinsdictionary.com/dictionary/english/wild-card).

term-crawler

Crawlers ou robots automatisés d'exploration - logiciel qui parcourt automatiquement les pages Internet pour exécuter des fonctions typiquement exploratoires.

term-hachagecrypto

Hachage cryptographique - un processus qui permet d'imprimer une empreinte sur des données en envoyant un fichier ou un autre élément d'information au moyen d'un algorithme qui le résume au moyen d'une chaîne alphanumérique de longueur fixe (une combinaison de lettres et de chiffres, de moins de 100 caractères). Cette chaîne est très difficile à casser mathématiquement, ce qui signifie que vous pouvez la donner à quelqu'un pour l'aider à déterminer si un fichier plus gros est le bon ou s'il est intact.

term-doi

Identificateur d'objet numérique (Digital Object Identifier - DOI) - un identificateur unique qui fait référence à un ouvrage publié, semblable à l'ISBN, mais pour les ouvrages publiés sous forme numérique. L'attribution et l'administration des DOI sont coordonnées par DOI Foundation https://www.doi.org.

term-journalacces

Journal d'accès - fichier qui enregistre toutes les vues d'un site Web et des documents, images et autres objets numériques qui s'y trouvent. Il comprend des informations telles que qui a visité le site, depuis quelle localisation, pendant combien de temps et à quel contenu ils ou elles y ont accédé.

term-logicmal

Logiciel malveillant - logiciel dont le comportement malicieux est généralement caché aux utilisatrices, utilisateurs.

term-tor

Navigateur Tor - un navigateur qui garde vos activités en ligne privées en masquant votre identité et en protégeant votre trafic web contre de nombreuses formes de surveillance d'Internet: https://www.torproject.org.

term-nomdomaine

Nom de domaine - aussi appelé domaine web, un nom communément utilisé pour accéder à un site web qui se traduit par une adresse IP.

term-pageweb

Page Web - un document (une page) qui est accessible par Internet, affiché dans un navigateur Web.

term-robotstxt

Robots.txt - un fichier sur un site Web qui indique aux programmes automatisés (bots/robots/crawlers) comment se comporter avec les données du site.

term-script

Script - une liste de commandes exécutées par un programme.

term-serveur

Serveur Web - également connu sous le nom de "serveur Internet", un système qui héberge des sites Web et fournit leurs contenus et services aux utilisateurs finaux sur Internet.

term-siteweb

Site Web - un ensemble de pages ou de données mises à disposition à distance, généralement à des personnes ayant accès à Internet ou à un réseau.

term-sousdomaine

Sous-domaine - un identifiant supplémentaire généralement ajouté avant un nom de domaine pour indiquer une sous-catégorie de données ou de pages. Par exemple, google.com est un nom de domaine, translate.google.com est un sous-domaine.

term-tiers

Tiers - personne ou entité qui ne fait pas directement partie d'un contrat, mais qui peut néanmoins avoir une fonction qui lui est liée.

term-vpn

VPN - logiciel qui crée un « tunnel » chiffré entre votre appareil et un serveur exécuté par votre fournisseur de services VPN, masquant votre adresse IP réelle lorsque vous visitez des sites Web.