Recuperación y Archivado de Información de Sitios Web

Por Wael Eskandar y Brad Murray

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_01-cik-illustration.png


SÍNTESIS: Explorarás formas de encontrar y recuperar información histórica y «perdida» de los sitios web, para que sirva como evidencia de que algo existía en línea y formas de archivar y preservar tus propias copias de páginas web para referencia futura.


A veces, cuando deseas verificar la información en línea, terminas siguiendo un rastro que conduce a enlaces rotos o sitios web que ya no están disponibles. Otras veces, encontrarás sitios web con información vital que podría agregar gran valor a una historia, pero no te darás cuenta de su valor hasta más tarde.

Cuando vuelvas a visitar ese sitio webpara documentarlo, es posible que ya no exista, que la página webespecífica que recuerdas haya sido eliminada o que la información que necesitas ya no sea accesible y haya sido reemplazada por contenido nuevo.

Es probable que enfrentes todos estos desafíos en algún momento durante el curso de tus investigaciones.


Caso de estudio

Un ejemplo notorio de la eliminación de una página web, que luego demostraría tener pruebas cruciales para los investigadores, fue la lista de historias de éxito de Facebook en campañas políticas en todo el mundo.

Originalmente, el sitio web de Facebook promovió varios proyectos de «Gobierno y Política» mediante los cuales los partidos y candidatas y candidatos políticos utilizaron las herramientas y servicios de la red social para dirigirse a los votantes en línea e influir en los resultados electorales. Esa página estaba disponible aquí: https://www.facebook.com/business/success/categories/government-politics. El enlace fue válido hasta que, de repente, no lo fue más.

Facebook eliminó la página de su lista de historias de éxito a principios del 2018, después de que estalló el escándalo de recolección de datos de Cambridge Analytica y atrajo un intenso escrutinio a la práctica de la compañía de permitir que terceros accedan a su base de usuarios con fines comerciales y políticos.

The Intercept proporciona antecedentes sobre este caso aquí.

¿Qué pasaría si hubiera alguna forma de viajar en el tiempo y obtener una copia de esa página web, o incluso una parte de ella, antes de que fuera alterada o eliminada?

Afortunadamente, hay algunas maneras fáciles de recuperar contenido antiguo y páginas eliminadas para que aún puedas consultarlas en tu investigación; También puedes guardar páginas accesibles actualmente para que puedas usarlas más adelante, incluso si se modifican o eliminan en algún momento.

Existen varios servicios que archivan automáticamente versiones anteriores de sitios web. Además del contenido, estos archivos digitales a menudo contienen información que puede ayudarte a identificar otros datos importantes, como el propietario o propietaria de un sitio web, nombres útiles, detalles de contacto, documentos y enlaces a otros sitios. Algunos de estos servicios te permiten contribuir a la lista de sitios web que se archivan guardando manualmente las páginas web en el momento que elijas. Tú (y otras personas) pueden recuperar fotografías de esos sitios web más adelante.

Volviendo a nuestro caso anterior, con la ayuda de uno de esos servicios, la Wayback Machine del Internet Archive(analizada en detalle a continuación), podemos encontrar una lista archivada de los proyectos políticos que Facebook presentó hace tiempo en la ahora desaparecida sección «Gobierno y Política» de su página web «Historias de éxito» https://www.facebook.com/business/success. Una búsqueda de « https://www.facebook.com/business/success/categories/government-politics» en la Wayback Machine revela que estos ejemplos de «Gobierno y política» todavía estaban en línea en el 2017, como se guardan en el Internet Archive aquí.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-archive-facebook-success.png Captura de pantalla de la copia de Wayback de la página web eliminada de Facebook sobre «Historias de éxito: gobierno y política».

Más importante aún, se puede acceder a parte del contenido antiguo ya que algunos de los viejos enlaces de la página archivada todavía funcionan, por lo que puedes leer detalles de sus proyectos de campaña política.

Las versiones archivadas de sitios web como estos conservan información que puede ser increíblemente valiosa para las personas investigadoras.


Ejemplo:

El periodista e investigador de seguridad Brian Krebs utilizó material archivado de un sitio web que vendía malware para identificar a las y los posibles autores de ese malware: una versión archivada del sitio contenía un número de cuenta de WebMoney (un sistema de pago global para negocios en línea) que estaba vinculado a un nombre de usuario perteneciente a alguien que había estado promocionando el malware en un foro clandestino. Siguiendo esta huella, Krebs pudo rastrear los nombres de usuario de ese foro hasta las identidades reales de las personas que presuntamente crearon y distribuyeron el Kit de malware.


¡La seguridad primero!

Cuando diriges un servicio de archivo a una página web que te interesa, rastreará esa página web y almacenará una copia de la misma; cuando lo hace, la página web que está siendo archivada agrega automáticamente un registro a un «registro de acceso» continuo (que la mayoría de los sitios web mantienen) de cuándo y por qué direcciones IP han sido visitadas.

Una persona administradora del sitio web atenta o un proceso automatizado pueden darse cuenta de que una parte de su sitio ha sido archivada por la Wayback Machine.

Esto a su vez podría darles pistas de que alguien está investigando un contenido en particular o una persona relevante para ellos. En algunos casos esto de por sí podría disminuir el impacto de tu investigación si el tema en el que estás trabajando es sensible y debe mantenerse alejado del escrutinio público al menos por un tiempo.

Como mínimo, la persona administradora del sitio web podría eliminar el material archivado de la Wayback Machine. (Esta es una razón por la cual es una buena idea hacer tu propia copia fuera de línea de cualquier cosa que sea crucial para tu investigación). Ese administrador también podría eliminar o modificar contenido similar que aún no has encontrado.

La mayoría de los servicios de archivo también mantienen registros de acceso. Webcite, por ejemplo, registra el sistema operativo de la computadora y el navegador web de cada persona usuaria, así como el nombre de dominio de los proveedores de servicios de internet de cada persona usuaria ( política de privacidad de Webcite). Por lo tanto, es una buena idea activar una red privada virtual ( VPN) o utilizar el navegador Tor cuando trabajes con servicios de archivo.

Además, algunos servicios requieren que cada persona usuaria cree una cuenta, elija un nombre de usuario, proporcione información de pago, verifique una dirección de correo electrónico o asocie un perfil de redes sociales.

Debes considerar establecer un conjunto separado de cuentas para usar con servicios como este, con el fin de dividir (separar) tu trabajo de investigación de tu identidad personal en línea.

En algunos casos es posible que incluso desees crear una «identidad» de uso único para una investigación en particular, y deshacerte de ella una vez finalizada la investigación.

De cualquier manera, tu primer paso será crear una cuenta de correo electrónico compartimentada relativamente segura, lo que puedes hacer con bastante facilidad en tutanota.de o protonmail.com.

Pagar por servicios comerciales de una manera que no se vincule con tu identidad personal es mucho más difícil. Si vives en una región donde puedes comprar en efectivo una tarjeta de crédito prepaga, esa puede ser tu mejor opción.

En la anterior situación potencial, la del administrador del sitio web que observa un interés repentino de la Wayback Machine, vale la pena señalar que el tema de tu investigación no necesariamente puede rastrear ese interés hacia ti. Si tu servicio de archivo es confiable y si nadie tiene acceso tanto a los registros del sitio web como a los registros del servicio de archivo, ese administrador puede tener dificultades para descubrir la relación.

Dicho esto, es mejor tomar las precauciones recomendadas anteriormente que confiar en esta premisa. Supongamos, por ejemplo, que sólo un puñado de direcciones IP vieron la página archivada el mismo día que se agregó a la Wayback Machine. Sería fácil para cualquiera darse cuenta de que están siendo observados desde un lugar en particular. Invertir algún tiempo, antes de comenzar tu investigación, puede ayudarte a limitar este tipo de riesgo.

Archivo y recuperación de contenido con la Wayback Machine

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_02-cik-illustration.png

La Wayback Machine es un proyecto de la organización sin fines de lucro con sede en San Francisco Internet Archive, una biblioteca digital que se ha dedicado a preservar miles de millones de sitios web desde 1996, como parte de un esfuerzo por archivar Internet y proporcionar acceso universal a todo el conocimiento. A principios del 2019, había archivado aproximadamente 345 mil millones de sitios web.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_wayback.png La Wayback Machine

La Wayback Machine es una herramienta esencial para la comunidad científica, historiadora, investigadora y académica. Está disponible gratuitamente para el público y puede ayudarte a acceder a fotografías de archivos de páginas web tomadas en varios momentos.

Los rastreadores automáticos de la Wayback Machine (también conocidos como arañas) pueden acceder y archivar prácticamente cualquier sitio web público. Sin embargo, los rastreadores no tienen un patrón fijo para decidir qué sitios web visitan y con qué frecuencia lo hacen, ya que están sujetos a limitaciones de recursos y decisiones políticas que influyen en su funcionamiento.

Como resultado, es posible que no siempre encuentres una versión archivada de un día, mes o incluso año específico; además, los sitios web pueden optar por no ser archivados por servicios como la Wayback Machine. Al publicar un conjunto de restricciones en un archivo de texto llamado «robots.txt», un sitio web puede indicar a los rastreadores que excluyan parte o la totalidad de su contenido del archivo o la indexación. Sin embargo, la gran cantidad de datos de la Wayback Machine probablemente será indispensable en muchas de tus investigaciones.


Nota:

Robots.txt es un archivo que se encuentra en un sitio web y enumera partes del sitio a las que los rastreadores deben acceder o no. Si un sitio web tiene un archivo robots.txt, puedes verlo agregando «/robots.txt» a su dominio o subdominio. Por ejemplo: https://google.com/robots.txt.

Los sitios web pueden usar este archivo para bloquear los rastreadores de la Wayback Machine de motores de búsqueda como Google o de cualquier otro servicio de indexación o archivo. Hay una serie de razones por las cuales algunos administradores de sitios web optan por archivos robots.txt restrictivos: para limitar los costos de ancho de banda, para reducir la tensión en servidores sobrecargados, para proteger las imágenes de marcas registradas o para evitar que los sitios web inconclusos aparezcan en los resultados de búsqueda, por ejemplo. Sin embargo, en algunos casos lo hacen para ocultar contenido potencialmente sensible.

Si bien la Wayback Machine no siempre cumple con estas restricciones, todavía hay muchos sitios web cuyos rastreadores se niegan a archivar como resultado de las directivas de robots.txt. Si tienes problemas para usar la Wayback Machine para ver o archivar algunas de las páginas de un sitio web, pero no todas, puedes consultar su archivo robots.txt para ver si alguna parte del sitio está «rechazada».

Además de ofrecer una interfaz simple para recuperar sitios web archivados automáticamente, la Wayback Machine también te permite almacenar fotografías de páginas web de forma manual para asegurarte de que no desaparezcan repentinamente. Este servicio no sólo puede archivar páginas web que son relevantes para tu investigación, sino que también te proporciona una manera fácil de citar investigaciones y enlazar al contenido a medida que tu investigación toma forma.

Si bien a menudo es una buena idea guardar copias HTML o PDF de páginas web importantes en tus propios dispositivos para asegurarte de que tienes varias copias de seguridad, archivarlas con la Wayback Machine puede agregar un elemento de neutralidad y confianza si terminas compartiendo esos archivos con otras personas. También es mucho más conveniente, para la mayoría de las personas, que mantener una biblioteca fuera de línea de archivos digitales.

Buscar páginas con la Wayback Machine

Para encontrar una página que ya no es accesible o para ver una versión anterior de una página web, simplemente dirígete a https://web.archive.org e ingresa la dirección web que estás buscando.

Si la página se archivó anteriormente, las fechas en que se guardó aparecerán en un calendario del año actual. Puedes navegar a años anteriores utilizando la línea de tiempo, que también muestra un gráfico de la frecuencia con la que se archivó la página cada año. Después de hacer clic en el año en el que estás interesado, los archivos de ese año se marcarán en el calendario con puntos codificados por colores.

Aquí estamos usando el ejemplo de https://cambridgeanalytica.org//, un sitio web que fue retirado en el 2018 debido al cierre de la compañía (ver el ejemplo anterior del escándalo de Cambridge Analytica).

NOTA que aunque el sitio web cambridgeanalytica.org parece estar operando de nuevo (a partir de 2020, y continuando a partir de julio de 2023), este ya no es el sitio web original y la empresa con sus servicios / herramientas, y muchos enlaces conducen a contenido sospechoso.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CAcalendar.png Captura de pantalla del calendario de la Wayback Machine para acceder al sitio web de Cambridge Analytica

Un punto azul indica que se realizó una captura completa de la página web en esa fecha. Estos suelen ser los archivos que estás buscando. Un punto verde indica que, cuando el rastreador accedió a esa dirección web, fue redirigido automáticamente a otra página en el mismo sitio web. Es posible que estos archivos no contengan el contenido que estás buscando. Los puntos anaranjados y rojos indican que se produjo un error durante el proceso de archivamiento, posiblemente debido a un error en el rastreador o en el servidor del sitio web. Un punto grande indica que se almacenaron varios archivos ese día. Puedes pasar el mouse sobre ellos para seleccionar un archivo específico basado en la hora del día.

Después de seleccionar una versión archivada de la página, la barra de navegación de la Wayback Machine se muestra en la parte superior de la pantalla. Esto te permite navegar entre diferentes archivos de esa página utilizando la línea de tiempo o haciendo clic en los botones «siguiente» y «anterior».

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApage.png Captura de pantalla: página archivada de Cambridge Analytica en la Wayback Machine


Tip:

Para ayudar a establecer la validez de tu evidencia en línea, es posible que debas verificar la fecha y hora exactas en que la Wayback Machine rastreó y archivó una página web. Puedes hacerlo revisando la «marca de tiempo» que está incrustada en la dirección web del archivo. Esta marca de tiempo está formateada con un año de cuatro dígitos seguido de representaciones de dos dígitos del mes, día, hora, minuto y segundo en que se capturó el archivo. Puedes encontrarla entre «https://archive.org/web/» y la dirección web de la página archivada. Por ejemplo, el siguiente archivo se capturó en el 2017, el 31 de agosto, a las 06:00 y 27 segundos: https://web.archive.org/web/20170831060027/https://cambridgeanalytica.org.

Técnicas de búsqueda rápida usando tu navegador

La Wayback Machine también te permite solicitar un archivo de un sitio web particular que almacene sin pasar por su interfaz de búsqueda. En cambio, puedes hacerlo desde tu propio navegador accediendo a una dirección web formateada correctamente. Simplemente agrega la dirección del sitio web al final de la dirección de la Wayback Machine: «https://web.archive.org/www.yoursite.com/» (donde «www.yoursite.com/» es cualquier sitio que desees buscar). Tu navegador mostrará la última versión archivada del sitio que deseas ver.

Además:

  • Si separas las dos direcciones con un asterisco (*), tu navegador cargará la vista de calendario del archivo: «https://web.archive.org/*/www.yoursite.com/»

  • Si agregas también un asterisco al final, la Wayback Machine te mostrará todos los archivos de ese dominio, no sólo la página de inicio: «https://web.archive.org/*/www.yoursite.com/*»

Por ejemplo, navegar a https://web.archive.org/web/*/cambridgeanalytica.org/* mostrará una lista, página por página, de todas las páginas cambridgeanalytica.org archivadas por la Wayback Machine.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApagelist.png Captura de pantalla: listado de páginas de Cambridge Analytica en la Wayback Machine

Usar la Wayback Machine para archivar páginas web

Otra característica clave de la Wayback Machine es su capacidad de archivar páginas web a pedido. Ya sea que estés buscando guardar y preservar información para una investigación o garantizar la accesibilidad de tu propio trabajo publicado, puedes dirigirte a https://archive.org/web y encontrar el formulario «Save Page Now» (Guardar página ahora) en la parte inferior derecha de la página. Simplemente ingresa una dirección web (por ejemplo «http://www.yoursite.com/projects») y haz clic en el botón «SAVE PAGE» (guardar página).

A menos que el sitio web que ingreses haya denegado el acceso a los rastreadores de Internet Archive, como se discutió en la sección anterior sobre robots.txt, la Wayback Machine comenzará a archivarlo. Verás una barra de progreso que te avisará cuando la página se haya guardado. En ese momento, podrás ver el archivo de la página y una línea de tiempo mostrará las capturas anteriores de ese sitio.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles.png Captura de pantalla:Guardando la página web del Guardian sobre Cambridge Analytica en la Wayback Machine

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles_2.png _Captura de pantalla:Página web del Guardian sobre Cambridge Analytica guardada en la Wayback Machine _


Nota:

Los pasos anteriores sólo archivarán la página que enviaste (»http://www.yoursite.com/projects», en este caso), no todo el contenido de ese sitio web. Si deseas archivar un sitio web completo con este método, deberás enviar cada página por separado.

Además, esta función no garantiza que los archivos regulares de la página se capturen en el futuro, por lo que es posible que quieras volver a visitar la Wayback Machine de vez en cuando para solicitar fotografías adicionales.

Descargar contenido de archivo

Desafortunadamente, Internet Archive no te permite buscar el texto completo de todos los sitios web en su vasto archivo. Si bien ofrece una función de búsqueda para las páginas principales de ciertos archivos, actualmente no indexa la totalidad de sus 345 mil millones de páginas. Sin embargo, si deseas buscar a través del contenido archivado de un dominio particular, hay una manera de hacerlo.

Si instalas el lenguaje de programación Rubyen tu computadora (versión 1.9.2 o superior), podrás usar el script Wayback Machine Downloader para descargar todos los archivos archivados en un dominio determinado. Este script te permite especificar el intervalo de fechas que deseas descargar, lo que puede ser útil si estás trabajando con sitios que se han archivado durante varios años.

Limitaciones de la Wayback Machine

Como se mencionó anteriormente, no todos los sitios web son archivados automáticamente o de manera regular por la Wayback Machine.

Los sitios se eligen en función de algoritmos que utilizan criterios como la frecuencia con que los visitan las personas y la frecuencia con que otros sitios web se vinculan a ellos (lo que también es un indicador de credibilidad).

Además, Internet Archive ejecuta sus propios rastreadores y trabaja con cientos de voluntarios y voluntarias que realizan búsquedas y archivan sitios web para preservar la abundancia de información de Internet.

Si bien puedes archivar ciertas páginas manualmente, como se mostró arriba, no puedes influir en el conjunto de sitios web que la Wayback Machine archivará automáticamente y regularmente.

La Wayback Machine también tiene otras limitaciones. Como por ejemplo:

  • Los sitios web protegidos con contraseña no se archivan.

  • Los sitios web dinámicos que dependen en gran medida de JavaScript pueden no archivarse correctamente.

  • Los administradores de sitios web pueden solicitar explícitamente que sus sitios no se archiven, ya sea publicando un archivo robots.txt restrictivo, como se vio arriba, o enviando una solicitud directa al Internet Archive.

  • Las y los administradores de sitios web pueden solicitar que el contenido archivado previamente se elimine de la Wayback Machine.

  • Actualmente no hay búsqueda de texto completo disponible en Internet Archive.


Ejemplo:

Para ilustrar cómo los archivos también pueden desaparecer a veces, el Internet Archive estuvo recientemente en el centro de un debate acerca de un blog dirigido por la periodista Joy-Ann Reid. Las y los abogados de Reid se comunicaron con Internet Archive e intentaron eliminar las versiones archivadas de su blog, alegando que algunos de sus artículos habían sido manipulados por una persona desconocida que insertó contenido fraudulento en sus escritos, contenido que luego se archivó con el blog.

Cuando eso no funcionó, el blog de Reid simplemente cambió su archivo robots.txt para restringir el acceso de los rastreadores de la Wayback Machine. Cuando los rastreadores detectaron el cambio, eliminaron automáticamente el archivo del blog por completo. Este caso ilustra cómo las personas y las organizaciones pueden usar medios legales y técnicos para eliminar contenido de estos archivos de terceros.

En la Unión Europea y algunas otras regiones, el derecho al olvidobrinda a las personas la opción de solicitar que los motores de búsqueda y los archivos digitales eliminen el contenido indexado que consideran perjudicial o difamatorio relacionado con ellas. Este derecho tiene limitaciones, por lo que no todo se puede eliminar o se eliminará a pedido, pero vale la pena tener en cuenta que algunos temas de tu investigación (personas en la política, delincuentes y otras figuras polémicas) podrían aprovechar la oportunidad para eliminar contenido de Internet relacionado con ellas relevante para tu investigación.


Nota:

Ten en cuenta que los nombres de dominio se pueden vender y que los nombres de dominio abandonados se pueden volver a registrar. Como resultado, un dominio único a veces es administrado a lo largo del tiempo por múltiples propietarios y propietarias. En tales casos, el historial de archivos de un sitio web podría no ser continuo y el material anterior podría no ser relevante para tu investigación.

Otras formas de recuperar y archivar páginas web

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_03-cik-illustration.png

Archive.today

Archive.today(anteriormente archive.is) archiva páginas web en forma muy parecida a la Wayback Machine; Sin embargo, Archive.today difiere al almacenar solamente páginas individuales, en lugar de sitios web completos, y no lo hace automáticamente sino a pedido de sus usuarios y usuarias.

A continuación un ejemplo de páginas archivadas de https://cambridgeanalytica.org/:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAshots.png Captura de pantalla:Acceso a Cambridge Analytica en Archive.today

Como no rastrea sitios, no tiene la cantidad de información que puedes encontrar en la Wayback Machine.

Sin embargo, ofrece tres funciones clave:

  • Primero, a diferencia de la Wayback Machine, te permite la búsqueda de texto completo de sus archivos.

  • Segundo, ignora cualquier restricción que pueda especificarse en los archivos robots.txt de los sitios web que archiva. Como resultado, puede guardar fotografías de algunas páginas que la Wayback Machine no puede, como los perfiles públicos de Facebook y las publicaciones de Twitter.

  • Tercero, también guarda una copia de texto y una captura de pantalla gráfica de las páginas archivadas. Esto a veces proporciona una mayor precisión que guardar la página en sí, especialmente al archivar contenido que cambia rápidamente (como imágenes en movimiento o fotografías de mensajes de foros, etc.). Esta función también está disponible en Wayback Machine, pero sólo para usuarios registrados (el registro es gratuito).

Puedes buscar un archivo de página web escribiendo su dirección web exacta (como «https://cambridgeanalytica.org») o puedes usar un comodín(*) para buscar subdominios o subdirectorios archivados del sitio web (por ejemplo, «*.cambridgeanalytica.org «). Aquí hay una búsqueda de *.cambridgeanalytica.org en archive.today:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAsearch.png Captura de pantalla: Búsqueda de Cambridge Analytica en Archive.today

Al igual que la Wayback Machine, archive.today te proporciona enlaces directos al contenido archivado utilizando direcciones web con marcas de fecha incrustadas, como la siguiente: http://archive.today/2018.01.01-042001/https://ocean.cambridgeanalytica.org/


Tip:

Archive.today también ofrece un servicio onion (cebolla) Tor en archivecaslytosk.onion, sólo se puede acceder a este servicio a través del navegador Tor, pero te facilita mantener interacción con el servicio anónimo. Esto es particularmente útil y fundamental si estás investigando un tema delicado o si sospechas que tus actividades en línea pueden ser rastreadas.

Google Cache

Google Cache es otra forma de encontrar una página que ha sido eliminada recientemente o que de otra forma es inaccesible. Cuando Google accede a una página web, crea una versión en caché, o una copia, de esa página como copia de seguridad, a menudo hace que estas copias estén disponibles en sus resultados de búsqueda.

Para acceder a la versión en caché de una página de Google, utiliza el motor de búsqueda de Google para buscar la página que deseas encontrar, haz clic en la flecha pequeña a la derecha de la dirección web del resultado de búsqueda y selecciona «en caché». Esto cargará una versión en caché del sitio web que fue guardada por Google cuando sus rastreadores indexaron previamente el sitio.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAorg.png Captura de pantalla de Google Cache

En el caso anterior intentamos buscar un caché del ya desaparecido sitio web http://cambridgeanalytica.org/, pero a partir del 28 de febrero del 2019 ya no está disponible en una búsqueda de Google (sólo pudimos encontrar un formulario web). Sin embargo, una versión en caché todavía estaba disponible el 26 de febrero del 2019 y, como se ve a continuación, pudimos capturarla con archive.today

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAcapture.png Captura de pantalla: Cambridge Analytica en Archive.today

A diferencia de los servicios de archivo mencionados anteriormente, el caché de Google no proporciona registros históricos de las páginas que almacena. En su lugar, muestra el contenido de esas páginas la última vez que sus rastreadores accedieron a ellas, por lo que puede revelar contenido que ha desaparecido en la versión actual de una página web o darte acceso a una página que desde entonces ha sido eliminada.

Encontrar una página web en caché indica que alguna vez existió, pero las cachés se sobrescriben con frecuencia con contenido actualizado o desaparecen por completo (como en nuestro caso anterior). Además, las y los administradores del sitio web pueden solicitar que Google elimine las páginas de su caché.

Por una u otra razón, es posible que Google no conserve una página en caché el tiempo suficiente para que la uses como evidencia en tu investigación, por lo que a menudo es una buena idea hacer una copia de seguridad de la página en caché utilizando un servicio adicional, como archive.today, y hacer tu propia copia fuera de línea como copia de seguridad. Las capturas de pantalla y los PDF son útiles para documentar cómo encontraste una versión particular de una página y pueden ayudarte más adelante si necesitas demostrar que la información es precisa.


Tip:

Cuando archivas una página web con un servicio como la Wayback Machine o archive.today, especialmente si tiene una dirección web larga y complicada como una copia archivada de una entrada de Google Cache, asegúrate de registrar ese enlace en algún lugar en un archivo en tu computadora, en una carpeta segura en la nube o en otro lugar. Confiar en el historial de tu navegador para encontrar esas cosas conduce a una catástrofe.

WebCite

Webcite es un servicio gratuito que ofrece una forma de preservar los enlaces que se han citado en artículos o revistas, incluidas páginas web u otro contenido digital en Internet. Este servicio generalmente es utilizado por las personas autoras, editoras e investigadoras que desean preservar las citas en línea en su trabajo.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_webcite.png

WebCite permite la preservación rápida y manual de direcciones web individuales. También tiene un servicio que «peina» automáticamente los documentos de texto cargados para preservar todas las citas que se originan en fuentes en línea.

WebCite admite varias formas diferentes de recuperar el material citado, además de las direcciones web legibles y abreviadas, WebCite también proporciona citas con formatos de referencia más avanzados, como DOI (Identificador de Objeto Digital) y hashes criptográficos. Puedes enviar contenido a WebCite utilizando su marcador o a través de un formulario web en https://www.webcitation.org/archive.


Nota: Monitores visuales del sitio

Otra opción para recuperar contenido de sitios web y mantenerte actualizado si se produce algún cambio es utilizar monitores visuales de sitios. Estos son servicios que pueden rastrear y monitorear los cambios visuales en las páginas web, ya sea que ocurran en código, imágenes, texto, etc. Pueden ser muy útiles para las personas investigadoras y ayudarte a automatizar parte del trabajo si necesitas monitorear muchos sitios web que son útiles en tu investigación.

Los monitores visuales de sitios archivan páginas web de una manera diferente a las herramientas y servicios que exploramos anteriormente; le das al servicio una sección particular de una página web para ver, toma una fotografía, y luego monitorea la página en busca de cambios visibles. Si hay algún cambio, grande o pequeño, el monitor del sitio te enviará un correo electrónico para informarte, el correo electrónico incluirá un enlace a un sitio web donde puedes ver más detalles. Algunos monitores de sitios adjuntan capturas de pantalla de antes y después del cambio.

Como investigador o investigadora, puedes usar un monitor de sitio junto con un servicio de archivo para mantenerte al tanto de las actualizaciones importantes de sitios web. Para notificar los cambios, estas herramientas requieren que configures una cuenta y que les proporciones acceso a una dirección de correo electrónico o un número de teléfono. Puedes evitar exponer tu verdadera identidad y detalles de contacto creando una dirección de correo electrónico separada, especialmente si trabajas en investigaciones delicadas.

Visualping

Visualping ofrece un plan gratuito que te permite monitorear hasta 62 páginas web al mes. Esto significa que puede verificar desde dos páginas web al día (te da actualizaciones para dos páginas web diferentes diariamente, si ocurren cambios) o varias páginas semanalmente, hasta 62 páginas web al mes (donde una vez al mes verifica 62 páginas para ver los cambios) u otras combinaciones que prefieras. La versión gratuita puede ejecutar controles por hora, día, semana o mes para comparar una página web con sus versiones anteriores y alertarte por correo electrónico cuando se realicen modificaciones en el texto, imágenes, palabras clave o cualquier área de página seleccionada. El servicio también funciona a través del navegador Tor y recomendamos utilizar esta opción para una capa adicional de privacidad y seguridad.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_visualping.png >Captura de pantalla de Visualping

ChangeTower

ChangeTower ofrece un plan gratuito que monitorea hasta tres sitios web y realiza hasta seis controles por día (en este caso, puede escanear un sitio web en busca de cambios dos veces al día); Puede monitorear una URL específica (página web), un sitio web completo o diferentes variaciones (puedes seleccionar qué páginas de un sitio web deseas monitorear), puede buscar cambios en el contenido (texto), contenido visual, html, palabras clave, etc. El plan gratuito almacena tus resultados de monitoreo durante un mes. El servicio también funciona a través del navegador Tor y recomendamos utilizar esta opción para una capa adicional de privacidad y seguridad.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_changetower.png Captura de pantalla de ChangeTower

Publicado en abril del 2019

Recursos

Artículos y guías

  • Archive Today FAQs. Una lista de consejos útiles sobre cómo preservar la información y cómo usar el material ya archivado en Archive Today.

  • Wayback Machine and Internet Archive FAQs. Una lista de consejos útiles sobre cómo preservar la información y cómo usar el material ya archivado en la Wayback Machine. Hay una lista de preguntas frecuentes sobre aspectos legales también disponible aquí.

  • WebCite FAQs. Una lista de consejos útiles sobre cómo preservar la información y cómo utilizar el material ya archivado en WebCite.

Herramientas y bases de datos

  • Archive Today. Una herramienta de archivo web y una base de datos de contenido web archivado.

  • Wayback Machine. Una herramienta de archivo web y una base de datos de contenido web archivado, administrado por Internet Archive.

  • WebCite. Un servicio de archivo a pedido y una base de datos que conserva digitalmente material científico y educativo en la web.

Glosario

term-access-log

Access log: Registro de acceso: un archivo que registra cada visita de un sitio web y de los documentos, imágenes y otros objetos digitales en ese sitio web. Incluye información como quién visitó el sitio, de dónde, por cuánto tiempo y a qué contenido accedieron.

term-algorithm

Algoritmo: Una secuencia establecida de pasos para resolver un problema particular.

term-bandwidth

Bandwidth: Ancho de banda: en informática, la tasa máxima de transferencia de información por unidad de tiempo, a través de una ruta determinada.

term-bookmarklet

Bookmarklet: Marcador: una dirección web compleja que puedes agregar a tu lista de «marcadores» o «favoritos» del navegador. Cuando haces clic en un marcador, este generalmente envía información sobre la página que estás visitando actualmente a un servicio de terceros.

term-browserextension

Browser extension: Extensiones del navegador: también llamados complementos, son pequeñas piezas de software que se utilizan para ampliar las funcionalidades de un navegador web. Estas pueden ser desde extensiones que te permiten hacer capturas de pantalla de las páginas web que visitas hasta las que verifican y corrigen tu ortografía o bloquean los avisos no deseados de los sitios web.

term-cache

Cache: Caché: un almacenamiento temporal de alta velocidad para los datos que se han utilizado o procesado y que se pueden recuperar de nuevo rápidamente en lugar de visitar la fuente original o rehacer el proceso informático asociado con los datos solicitados.

term-crawlers

Crawlers: Rastreadores: software que recorre automáticamente las páginas de Internet para realizar funciones típicamente exploratorias.

term-cryptographichash

Cryptographic hash: Hash criptográfico: una forma de identificar datos mediante el envío de un archivo u otra información a través de un algoritmo que lo resume con una cadena alfanumérica de longitud fija (una combinación de letras y números, de menos de 100 caracteres). Esta cadena es muy difícil de romper matemáticamente, lo que significa que puedes dársela a alguien para ayudarlo a determinar si un archivo más grande es el correcto o está intacto.

term-directory

Directory: Directorio. Un contenedor utilizado para clasificar archivos u otros contenedores de archivos y datos.

term-doi

Digital Object Identifier (DOI): Identificador de objeto digital (DOI): un identificador único que referencia trabajos publicados, similar al ISBN, pero para trabajos publicados digitalmente. La asignación y administración de los DOI está coordinada por la Fundación DOI https://www.doi.org/.

term-domain-name

Domain name: Nombre de dominio: también llamado dominio web, es un nombre comúnmente utilizado para acceder a un sitio web que se traduce en una dirección IP.

term-ip

Internet Protocol (IP) address: Dirección de Protocolo de Internet (IP): Un conjunto de números utilizados para identificar una computadora o ubicación de datos a la que se está conectando. Ejemplo: 213.108.108.217

term-malware

Malware: software que tiene un comportamiento malicioso que generalmente está oculto para los usuarios.

term-robotstxt

Robots.txt: un archivo en un sitio web que instruye a los programas automatizados (bots / robots / rastreadores) sobre cómo comportarse con los datos en el sitio web.

term-server

Web server: Servidor web: también conocido como servidor de Internet, es un sistema que aloja sitios web y entrega su contenido y servicios a los usuarios finales a través de Internet.

term-screenshot

Screenshot: Captura de pantalla: una imagen de la pantalla del dispositivo capturada en formato digital.

term-script

Script: una lista de comandos ejecutados por un programa.

term-subdomain

Subdomain: Subdominio: un identificador adicional que generalmente se agrega antes de un nombre de dominio para indicar una subcategoría de datos o páginas. Por ejemplo, google.com es un nombre de dominio, translate.google.com es un subdominio.

term-third-party

Third party: Tercero: una persona o entidad que no forma parte directa de un contrato pero que, sin embargo, puede tener una función relacionada.

term-tor

Tor Browser: Navegador Tor: un navegador que mantiene tus actividades en línea privadas. Oculta tu identidad y protege tu tráfico web de muchas formas de vigilancia de Internet.

term-userbase

Userbase: Base de usuarios: una lista de usuarios asociados con una plataforma o sistema en particular.

term-vpn

VPN: Red privada virtual (VPN): software que crea un «túnel» encriptado desde tu dispositivo a un servidor ejecutado por tu proveedor de servicios VPN, enmascarando tu dirección IP real cuando visitas sitios web

term-website

Website: Sitio web: un conjunto de páginas o datos disponibles de forma remota, generalmente para personas con acceso a Internet o a la red.

term-webpage

Webpage: Página web: un documento (página) accesible a través de Internet, que se muestra en un navegador web.

term-wildcard

Wildcard: Comodín: en este contexto técnico, es un símbolo como «*» o «?» que se utiliza en algunos comandos informáticos o búsquedas para representar cualquier carácter o rango de caracteres. (https://www.collinsdictionary.com/dictionary/english/wild-card)