Recuperando e arquivando informações de sites

Por Wael Eskandar, Brad Murray

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_01-cik-illustration.png


Resumo: Você explorará maneiras de encontrar e recuperar informações históricas e informações «perdidas» de sites, para servir como prova de que algo existiu online, e maneiras de arquivar e preservar suas próprias páginas da web para referência futura.


Por favor note que a maioria dos hiperlinks apontam para sites e recursos em inglês.

Às vezes, quando você deseja verificar informações online, acaba seguindo uma trilha que leva a links quebrados ou a sites que não estão mais disponíveis.

Outras vezes, você encontrará sites com informações vitais que podem agregar grande valor a uma história, mas você não perceberá seu valor até pais tarde.

Ao revisitar esse website para documentá-lo, você pode descobrir que ele não existe mais, que a página da web específica de que você se lembra foi removida ou que a informação que você precisa não é mais acessível e foi substituída por um novo conteúdo.

É provável que você enfrente todos esses desafios em algum momento durante o curso de suas investigações.


Estudo de caso

Um exemplo notório de remoção de uma página da Web, que mais tarde provou conter evidências cruciais para os investigadores, foi a lista do Facebook de cases de sucesso em campanhas políticas ao redor do mundo.

Originalmente, o site do Facebook divulgava vários projetos de «Governo e Política» em que os partidos políticos e os candidatos usaram as ferramentas e serviços da rede social para atingir os eleitores online e influenciar os resultados eleitorais. Essa página estava disponível aqui: https://www.facebook.com/business/success/categories/government-politics. O link estava válido até que, de repente, não estava mais.

O Facebook removeu a página de sua lista de histórias de sucesso no início 2018, após o escândalo de coleta de dados da Cambridge Analytica estourar e atrair intenso escrutínio para a prática da empresa de permitir que terceiros acessassem sua base de usuários para fins comerciais e políticos.

The Intercept forneceu informações sobre este caso aqui.

E se houvesse uma maneira de viajar no tempo e obter uma cópia dessa página da web, ou mesmo uma parte dela, antes de ser alterada ou derrubada?

Felizmente, existem algumas maneiras fáceis de recuperar conteúdo antigo e páginas excluídas para que você ainda possa fazer referência a elas em sua investigação. Você pode também salvar as páginas atualmente acessíveis para que você possa usá-las mais tarde, mesmo que sejam modificadas ou excluídas nesse meio tempo.

Existem vários desses serviços que arquivam automaticamente versões anteriores de sites. Além do conteúdo, esses arquivos digitais muitas vezes contêm informações que podem ajudá-lo a identificar outros dados importantes, como proprietário(s) de um site, nomes úteis, detalhes de contato, documentos e links para outros sites. Alguns desses serviços permitem que você contribua para a lista de sites que eles arquivam salvando páginas manualmente à sua escolha. Você (e outros) podem acessar instantâneos desses sites mais tarde.

Voltando ao nosso caso acima, com a ajuda de um desses serviços - o Internet Archive”s Wayback Machine (que exploramos em detalhes abaixo) - podemos encontrar uma lista arquivada dos projetos políticos que o Facebook anteriormente apresentava, na agora extinta seção «Governo e Política» de sua Página «Histórias de sucesso» https://www.facebook.com/business/success. Uma busca por https://www.facebook.com/business/success/categories/government-politics no Wayback Machine revela que esses exemplos «Governo e Política» ainda estavam online em 2017, conforme salvo no Internet Archive aqui.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-archive-facebook-success.png Captura de tela da cópia do Wayback da página da Web agora removida do Facebook em «Histórias de sucesso - Governo e política».

Mais importante, alguns dos antigos conteúdos estão acessíveis, pois alguns dos links antigos da página arquivada ainda funcionam, então você pode realmente ler sobre os detalhes de seus projetos de campanha política.

Versões arquivadas de sites, como essas, preservam informações que podem ser incrivelmente valiosas para investigadores.


Exemplo:

O jornalista e pesquisador de segurança Brian Krebs usou material arquivado de um site que vendia malware para para identificar os prováveis autores desse malware. Uma versão arquivada do site continha um número de conta para WebMoney (uma empresa global de pagamentos para negócios online) que estava vinculado a um nome de usuário pertencente a alguém que estava promovendo o malware em um fórum clandestino. Seguindo essa pista, Krebs conseguiu rastrear os nomes de usuários desse fórum até as identidades reais dos indivíduos,] que supostamente criaram e distribuiram o kit de malware.


Segurança em primeiro lugar!

Quando você usa um serviço de arquivo numa página da web que lhe interessa, o serviço rastreará essa página e armazenará uma cópia dela. Quando se faz isso, a página da Web que está sendo arquivada adicionará automaticamente um informação a um «registro de acesso» (access log, que a maioria dos sites mantém) de quando e por quais endereços IP foi visitada.

Um administrador de site atento, ou um processo automatizado, podem então perceber que uma parte do site foi arquivada pelo Wayback Machine.

Isso, por sua vez, pode dar a eles pistas de que alguém está investigando uma parte do conteúdo específica, ou de uma pessoa relevante para eles. Em alguns casos, isso por si só poderia diminuir o impacto de sua investigação, se o que você está trabalhando é sensível e deve ser mantido longe dos olhos do público por algum tempo, pelo menos.

No mínimo, o administrador do site pode requerer que o material arquivado seja removido da Wayback Machine. (Esta é uma das razões pelas quais é uma boa idéia fazer sua própria cópia offline de qualquer coisa que seja crucial para sua investigação.) Esse administrador também pode remover ou modificar conteúdo que você ainda não encontrou.

A maioria dos serviços de arquivamento também mantém logs de acesso.

Webcite, por exemplo, registra o sistema operacional do computador e o navegador web de cada usuário, bem como o nome de domínio do provedor de serviço de internet de cada usuário (política de privacidade Webcite). Por isso, é uma boa ideia ativar uma Rede Privada Virtual ( VPN ) ou usar o Tor Navegador ao trabalhar com serviços de arquivamento.

Além disso, alguns serviços exigem que cada usuário crie uma conta, escolha um nome de usuário, forneça informações de pagamento, verifique em um endereço de email ou associe um perfil de mídia social.

Você deve considerar estabelecer um conjunto separado de contas, para uso com serviços como este, de forma a compartimentar (separar) o seu trabalho investigativo de sua identidade online pessoal.

Em alguns casos, você pode até querer criar uma «identidade» de uso único para uma investigação específica e descartá-la assim que a pesquisa for concluída.

De qualquer forma, seu primeiro passo será criar uma conta de email relativamente segura e compartimentalizadada. O que você pode fazer facilmente em tutanota.com/pt_br/ ou proton.me/pt-br/ (Protonmail).

Pagar por serviços comerciais de uma forma que não seja vinculada a sua identidade pessoal é muito mais difícil. Se você mora em uma região onde pode comprar um cartão de crédito pré-pago com dinheiro, isto pode ser a sua melhor opção.

Na situação potencial acima - o administrador do site que observa um súbito interesse da Wayback Machine - vale a pena notar que o alvo de sua investigação pode não necessariamente rastrear este interesse até você. Se seu serviço de arquivamento é confiável e se ninguém tiver acesso aos logs do site e ao arquivamento de logs do serviço, esse administrador pode ter dificuldade em conectar os pontos.

Dito isso, é melhor tomar as precauções recomendadas acima do que confiar nessa suposição. - Suponha, por exemplo, que apenas um punhado de endereços IP visualizaram a página arquivada no mesmo dia em que foi adicionada à Wayback Machine. Seria fácil para qualquer um descobrir que eles estão sendo observados de um determinado lugar.

Qualquer pequeno investimento de tempo, antes de iniciar sua investigação, pode ajudá-lo limitar esse tipo de risco.


Arquivando e recuperando conteúdo com a Wayback Machine

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_02-cik-illustration.png

The Wayback Machine é um projeto da organização sem fins lucrativos Internet Archive, uma biblioteca digital que tem se dedicado a preservar bilhões de sites desde 1996, como parte de um esforço para arquivar a internet e fornecer acesso universal a todo conhecimento. No início de 2019, havia arquivado aproximadamente 345 bilhões sites.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_wayback.png Wayback Machine

A Wayback Machine é uma ferramenta essencial para pesquisadores, historiadores, investigadores e estudiosos. Está disponível gratuitamente ao público e pode ajudar você a acessar instantâneos de arquivamento de páginas da Web em vários pontos do tempo.

Os raspadores automatizados da Wayback Machine (também conhecidos como crawlers e spiders) podem acessar e arquivar praticamente qualquer site público. No entanto, os rastreadores não têm um padrão fixo para decidir quais sites eles visitam e com que frequência o fazem, pois estão sujeitos a restrições de recursos e decisões políticas que influenciam o seu funcionamento.

Como resultado, você pode nem sempre encontrar uma versão arquivada de um determinado dia, mês ou mesmo ano. Além disso, os sites podem optar por não serem arquivados por serviços como o Wayback Machine. Ao publicar um conjunto de restrições em um arquivo de texto chamado “robots.txt”, um site pode instruir rastreadores para excluir algum ou todo o seu conteúdo de arquivamento ou indexação. No entanto, o vasto tesouro de dados da Wayback Machine provavelmente será indispensável em muitas de suas investigações.


Observação:

robots.txt é um arquivo que fica em um site e lista partes do site que devem ou não ser acessadas por rastreadores. Se um site tiver um arquivo robots.txt, você pode visualizá-lo adicionando «/robots.txt» ao seu domínio ou subdomínio. Por exemplo: https://google.com/robots.txt.

Os sites podem usar este arquivo para bloquear rastreadores da Wayback Machine, de mecanismos de pesquisa como o Google ou de qualquer outra indexação ou serviço de arquivamento. Há uma série de razões pelas quais alguns administradores de sites optam por arquivos robots.txt restritivos: para limitar os custos de largura de banda, para reduzir a pressão sobre servidores sobrecarregados, para proteger imagens de marcas registradas ou para evitar que sites inacabados apareçam nos resultados de busca, por exemplo. Em alguns casos, no entanto, eles o fazem para ocultar conteúdo potencialmente sensível.

Embora a Wayback Machine nem sempre cumpra essas restrições, ainda existem muitos sites em que seus rastreadores não conseguem arquivar, como resultado das diretivas do robots.txt. Se você tem problemas ao usar o Wayback Machine para visualizar ou arquivar algumas, mas não todas as páginas de um site, pode verificar o arquivo robots.txt dele para ver se há algumas partes do site que são «proibidas».

Além de oferecer uma interface simples para recuperação automática de sites arquivados, o Wayback Machine também permite que você armazene manualmente instantâneos de páginas da web para que possa garantir que eles não desapareçam repentinamente.

Este serviço não só pode arquivar páginas da web que são relevantes para sua investigação, mas também fornece uma maneira fácil de citar pesquisas e criar um link para os conteúdos à medida que sua investigação toma forma.

Embora muitas vezes seja uma boa ideia salvar cópias em HTML, ou PDF, de páginas importantes da web em seus próprios dispositivos para garantir que você tenha vários backups, arquivá-los com a Wayback Machine pode adicionar um elemento de neutralidade e confiança se você acabar compartilhando esses arquivos com outras pessoas. Também é muito mais conveniente, para a maioria das pessoas, do que manter um biblioteca offline de arquivos digitais.

Procurando páginas com Wayback Machine

Para encontrar uma página que não está mais acessível ou para visualizar um versão mais antiga de uma página da web, basta acessar https://web.archive.org e entrar na web endereço que você está procurando.

Se a página foi arquivada anteriormente, as datas em que foi salva aparecerão em um calendário do ano atual. Você pode navegar para anos anteriores usando a linha do tempo, que também exibe um gráfico de quantas vezes a página foi arquivada a cada ano. Depois de clicar no ano em que estiver interessado, os arquivos daquele ano serão marcados no calendário com pontos codificados por cores.

Aqui, estamos usando o exemplo de https://cambridgeanalytica.org/, um site que ficou fora do ar em 2018 e parte de 2019 devido ao fechamento da empresa (veja o exemplo acima do escândalo da Cambridge Analytica).


OBSERVE que momento em que este artigo foi traduzido para português (julho de 2023), o domínio https://cambridgeanalytica.org/ está ativo desde 2020, mas aparentemente é de outro proprietário. Além disto, o site apresentar diversas característias suspeitas como anúncios, links para endereços obscuros, etc. Recomendamos cuidado ao visitá-lo.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CAcalendar.png Captura de tela do calendário Wayback Machine para acessar o site da Cambridge Analytica

Um ponto azul indica que ocorreu uma captura completa da página da Web naquele data. Estes são geralmente os arquivos que você está procurando. Um ponto verde indica que, quando o rastreador acessou esse endereço da web, foi redirecionado automaticamente para outra página no mesmo site. Esses arquivos podem não conter o conteúdo que você está procurando. Pontos laranja e vermelhos indicam que ocorreu um erro durante o processo de arquivamento, possivelmente devido a uma falha no rastreador ou no servidor do site. Um ponto grande indica que vários arquivos foram armazenados naquele dia. Você pode passar o mouse sobre eles para selecionar um arquivamento específico com base na hora do dia.

Depois de selecionar uma versão arquivada da página, a barra de navegação do Wayback Machine é exibida na parte superior da tela. Isso permite que vocu navegue entre diferentes arquivos dessa página usando a linha do tempo ou clicando nos botões «seguinte» e «anterior».

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApage.png *Página Cambridge Analytica arquivada no Wayback Machine *


Dica:

Para ajudar a estabelecer a validade de sua evidência online, você pode precisar verificar a data exata e a hora em que a Wayback Machine rastreou e arquivou uma página da web. Você pode fazer isso verificando o “carimbo de data/hora” (time stamp) que está embutido no endereço da web do arquivo. Este carimbo de hora é formatado com um ano de quatro dígitos, seguido por representações de dois dígitos do mês, dia, hora, minuto, e segundo, de quando o arquivo foi capturado. Você pode encontrá-lo entre «https://archive.org/web/» e o endereço da página arquivada. Por exemplo, o seguinte arquivo foi capturado em 2017, 31st de agosto, às 06:00 e 27 segundos: https://web.archive.org/web/20170831060027/https://cambridgeanalytica.org.

Técnicas de pesquisa rápida usando seu navegador

A Wayback Machine também permite que você solicite um arquivo armazenado de um determinado site sem passar por sua interface de pesquisa. Em vez disso, você pode fazer isso em seu próprio navegador acessando um endereço da web formatado.

Basta adicionar o endereço do site ao final do endreço da Wayback Machine:

«https://web.archive.org/www.seusite.com/» (onde «www.seusite.com/» é qualquer site que você deseja pesquisar)

  • seu navegador exibirá a última versão arquivada do site que você deeseja visualizar.

Além disso:

  • Se você separar os dois endereços com um asterisco (*), seu navegador carregará a exibição de calendário do arquivo: «https://web.archive.org/*/www.seusite.com/»

  • Se você adicionar um asterisco no final também, a Wayback Machine vai te mostrar todos os arquivos sob esse domínio, não apenas a página inicial: «https://web.archive.org/*/www.seusite.com/*»

Por exemplo, navegar por https://web.archive.org/web/*/cambridgeanalytica.org/* exibirá uma listagem página por página de todas as cambridgeanalytica.org páginas arquivadas pela Wayback Machine.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_CApagelist.png Lista de páginas da Cambridge Analytica no Wayback Machine

Usando o Wayback Machine para arquivar páginas da web

Outro recurso importante do Wayback Machine é sua capacidade de arquivar páginas da web sob demanda.

Se você está procurando salvar e preservar informações para um investigação ou garantir a acessibilidade de seu próprio trabalho publicado, você pode navegar na https://archive.org/web e encontrar a opção «Salvar página Agora» no canto inferior direito da página. Basta digitar um endereço da web (digamos «http://www.seusite.com/projetos») e clicar no botão «SAVE PAGE» (Salvar Página).

A menos que o site em que você entrar tenha negado o acesso aos raspadores da Internet Archive, conforme discutido na seção robots.txt acima, o Wayback Machine começará a arquivá-lo. Você verá uma barra de progresso que avisará quando a página foi salva. Nesse ponto, você será aapaz de visualizar o arquivo da página, e uma linha do tempo exibirá qualquer capturas anteriores desse site.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles.png Salvando a página do Guardian no Cambridge Analytica no Wayback Machine

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_GuardianCAfiles_2.png Página do Guardian salva no Cambridge Analytica em Wayback Machine


Observação:

As etapas acima arquivarão apenas a página que você enviou (»https://www.seusite.com/projetos», neste caso), não todos os links externos e o conteúdo desse site. Se quiser arquivar um site inteiro usando este método, você precisará enviar cada página separadamente ou criar uma conta gratuita no Internet Archive, que lhe permitirá acessar mais recursos. Uma versão nova e aprimorada da função «Salvar página agora» lançada no final de 2019 permite que os usuários que criarem uma conta gratuita também salvem os links externos de uma página da web e recebam um relatório por e-mail sobre o status da solicitação de arquivamento.

No entanto, esses recursos não garantem que os arquivos regulares da página serão capturadaos no futuro, então você pode querer revisitar a Wayback Machine, de vez em quando, para solicitar instantâneos.

O Internet Archive e sua Wayback Machine estão constantemente se esforçando para melhorar os recursos e serviços de arquivamento de conteúdo, portanto, fique de olho no blog e nos avisos para atualizações regulares.

Baixando o conteúdo do arquivo

Infelizmente, o Internet Archive não permite que você pesquise o texto completo de todos os sites em seu vasto arquivo. Embora ofereça uma função de busca das páginas principais de determinados arquivos, atualmente, não indexa todas as suas 345 bilhões de páginas. Se você quiser pesquisar por meio de conteúdo arquivado de um determinado domínio, no entanto, há uma maneira de fazê-lo.

Se você instalar a linguagem de programação Ruby em seu computador (versão 1.9.2 ou superior), você pode usar o Wayback Machine Downloader script para baixar todos os conteúdos arquivados em um determinado domínio. este script permite que você especifique o intervalo de datas que deseja baixar, o que pode ser útil se você estiver trabalhando com sites que foram arquivados para muitos anos.

Limitações da Wayback Machine

Conforme mencionado acima, nem todos os sites são automática ou regularmente arquivados pela Wayback Machine.

Os sites são escolhidos com base em algoritmos que usam critérios como a frequência as pessoas que os visitam e com que frequência outros sites têm links para eles (o que também é um indicador de credibilidade).

Além disso, o Internet Archive executa seus próprios rastreadores e trabalha com centenas de voluntários que realizam buscas e arquivam sites para preservar a abundância de informações da internet.

Embora você possa arquivar certas páginas manualmente, como mostrado acima, você não pode influenciar o conjunto de sites que a Wayback Machine irá irquivar automática e regularmente.

A Wayback Machine também tem outras limitações. Os exemplos incluem:

  • Sites protegidos por senha não são arquivados.

  • Sites dinâmicos que dependem muito de JavaScript podem não ser arquivados apropriadamente.

  • Administradores de sites podem solicitar explicitamente que seus sites não sejam arquivados, seja publicando um arquivo robots.txt restritivo , como visto acima, ou enviando uma solicitação direta ao Internet Archive.

  • Os administradores do site podem solicitar que conteúdo arquivado anteriormente seja removido da Wayback Machine.

  • Atualmente, não há pesquisa de texto completa disponível no Internet Archive.


Exemplo:

Para ilustrar como os arquivos também podem desaparecer às vezes, o Internet Archive esteve recentemente no centro de um debate sobre um blog da jornalista Joy-Ann Reid. Os advogados de Reid procuraram o Internet Archive e tentaram ter versões arquivadas de seu blog removidas, alegando que alguns de seus artigos foram manipulados por um desconhecido que inseriu conteúdo fraudulento em seus escritos - conteúdo que foi então arquivado com o blog.

Quando isso não funcionou, o blog de Reid simplesmente mudou de arquivo robots.txt para restringir o acesso dos rastreadores do Wayback Machine. Quando os crawlers pegaram a mudança, eles removeram automaticamente complemente o blog de seus arquivos. Este caso ilustra como pessoas e organizações podem usar meios legais e técnicos para remover o conteúdo dos arquivos de terceiros.

Na União Europeia e em algumas outras regiões, O Direito a Ser Esquecido oferece aos indivíduos a opção de solicitar que os mecanismos de busca e arquivos digitais removam o conteúdo indexado relacionado a eles, que consideram nocivo ou calunioso. Este direito tem limitações pois que nem tudo pode, ou será removido mediante solicitação, mas vale a pena ter em mente que alguns atores de sua investigação (políticos, criminosos e outras figuras controversas) poderão estar usando a oportunidade para derrubar conteúdo da Internet, relacionado a eles, que seja relevante para sua investigação.


Observação:

Lembre-se de que nomes de domínio podem ser vendidos e nomes de domínio abandonados podem ser registrados novamente. Como resultado, um único domínio, às vezes, é gerenciado, ao longo do tempo, por vários proprietários. Nesses casos, o o histórico de arquivos de um site pode não ser contínuo e o material mais antigo pode não ser relevante para sua investigação.

Outras formas de recuperar e arquivar páginas da web

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_03-cik-illustration.png

Archive.today

Archive.today arquiva páginas da web de forma parecida com a Wayback Machine.

Archive.today difere, no entanto, por armazenar apenas páginas individuais, em vez de de sites inteiros, e o faz apenas a pedido de seus usuários, não automaticamente.

Aqui está um exemplo de páginas arquivadas de https://cambridgeanalytica.org/:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAshots.png *Cambridge Analytica acessado em Archive.today *

Como não rastreia sites, não tem nem de perto a amplitude de informações que você pode encontrar na Wayback Machine.

No entanto, ele fornece três recursos principais:

  • Primeiro, ao contrário do Wayback Machine, ele permite que você pesquise o texto de seus arquivos.

  • Em segundo lugar, ignora quaisquer restrições que possam ser especificadas nos arquivos robots.txt dos sites que arquiva. Como resultado, pode salvar instantâneos de algumas páginas que o Wayback Machine não consegue, como perfis públicos do Facebook e postagens do Twitter.

  • Terceiro, ele também salva uma cópia de texto e uma captura de tela das páginas arquivadas. Isso às vezes fornece maior precisão do que salvar a própria página, especialmente quando o arquivamento de conteúdo muda rapidamente (como imagens rolantes, ou instantâneos de mensagens de fórum, etc.). Este recurso também está disponível no Wayback Machine do Internet Archive, mas apenas para usuários registrados.

Você pode procurar um arquivo de página da web digitando seu endereço exato da web (como como «https://cambridgeanalytica.org») ou você pode usar um coringa (*) para encontrar subdomínios ou subdiretórios arquivados do site (por exemplo, «*.cambridgeanalytica.org»). Aqui está uma pesquisa *.cambridgeanalytica.org no Archive.today:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_archtoday_CAsearch.png Pesquise Cambridge Analytica no Archive.today

Como o Wayback Machine, o Archive.today fornece links diretos ao conteúdo arquivado usando endereços da web com carimbos de data incorporados, como o seguinte: http://archive.today/2018.01.01-042001/https://ocean.cambridgeanalytica.org/


Dica:

Archive.today também oferece um serviço Tor em archivecaslytosk.onion. Os serviços Onion só podem ser acessados por meio do Navegador Tor, mas facilitam a manter anônima a sua interação com o serviço. Isso é particularmente útil e vital se você estiver pesquisando um tópico delicado ou se suspeita que suas atividades online podem ser rastreadas.

Cache do Google

O cache do Google é outra maneira de encontrar uma página que foi derrubada ou está inacessível.

Quando o Google acessa uma página da web, ele cria uma versão em cache dessa página, como um cópia de segurança. Muitas vezes, disponibiliza essas cópias em seus resultados de pesquisa.

Para acessar a versão em cache de uma página do Google, use o buscador para procurar a página que deseja encontrar, clique no botão com uma pequena seta à direita do endereço da web do resultado da pesquisa e selecione «em cache». Isso carregará uma versão em cache do site que foi copiado pelo Google quando seus rastreadores o indexaram anteriormente.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAorg.png Captura de tela do Google Cache

No caso acima, tentamos procurar um cache do site https://cambridgeanalytica.org/, mas que 28 de fevereiro de 2019 que não estava mais disponível em uma pesquisa do Google (só conseguimos encontrar um formulário da web no lugar). No entanto, uma versão em cache ainda estava disponível em 26 fevereiro de 2019 e, como visto abaixo, conseguimos capturar com archive.today

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_cache_CAcapture.png Cambridge Analytica no Archive.today

Ao contrário dos serviços de arquivamento mencionados acima, o cache do Google não fornece registros históricos das páginas que ele armazena.

Em vez disso, ele exibe o conteúdo dessas páginas na última vez em que seus rastreadores os acessaram, então pode revelar o conteúdo que está faltands na versão atual de uma página da web, ou dar acesso a uma página que desde então foi removida.

Encontrar uma página da web em cache indica que ela já existiu, mas os caches são freqüentemente substituídos por conteúdo atualizado ou desaparecem completamente (como no nosso caso acima). Além disso, os administradores do site podem solicitar que o Google remova as páginas de seu cache.

Por um motivo ou outro, o Google pode não preservar uma página em cache por tempo suficiente para você usá-lo como prova em sua investigação, por isso geralmente é uma boa ideia fazer backup da própria página em cache usando um serviço de arquivo adicional, como archive.today, e fazer sua própria cópia offline como cópia de segurança. Capturas de tela e PDFs são úteis para documentar como você encontrou um versão específica de uma página e podem ajudá-lo mais tarde se você precisar demonstrar que as informações são precisas.


Dica:

Ao arquivar uma página da web com um serviço como o Wayback Machine, ou archive.today - especialmente se tiver um endereço da web longo e complicado como uma cópia arquivada de uma entrada do Google Cache - certifique-se de registrar esse link em algum lugar em um arquivo em seu computador, em uma pasta segura na nuvem ou em outro lugar. Confiar no histórico do seu navegador para encontrar essas coisas é uma receita para o desastre.

WebCite

Webcite é um serviço gratuito que oferece uma maneira de preservar links que foram citados em artigos ou periódicos, incluindo páginas da web ou outro conteúdo digital na internet.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_webcite.png WebCite

Este serviço é geralmente utilizado por autores, pesquisadores e editores que desejam preservar as citações online em seus trabalhos.

O WebCite permite a preservação rápida e manual de endereços e páginas web individuais. Dispõe ainda de um serviço que faz, automaticamente, um ‘pente fino’ nos documentos de texto carregados, para preservar todas as citações originárias de fontes online.

O WebCite suporta várias maneiras diferentes de recuperar o material citado. Além de endereços da web legíveis e encurtados, o WebCite também fornece citações com formatos mais avançadas de referências, como DOI (Digital Identificador de objeto) e hashes criptográficos.


Nota: Anteriormente, era possível enviar conteúdo para o WebCite usando o bookmarklet ou por meio de um formulário da web em https://webcitation.org/archive. Mas, atualmente (Julho de 2023), este serviço já não é mais oferecido.


Nota: Monitores visuais do site

Outra opção para recuperar conteúdos de sites e se manter atualizado, se houver mudanças, é usar monitores visuais de site. Estes são serviços que podem rastrear e monitorar mudanças visuais em páginas da web, quer aconteçam em código, imagens, texto etc.. Podem ser muito úteis para pesquisadores e ajudam a automatizar parte do trabalho, se você precisar monitorar muitos sites que são úteis em sua investigação.

Monitores visuais de sites arquivam páginas da web de maneira diferente das ferramentas e serviços que exploramos acima. Você dá ao serviço uma seção específica de uma página da web para vigiar, e tira um instantâneo, depois monitora a página para alterações visíveis.

Se houver alguma alteração, grande ou pequena, o monitor do site enviará um e-mail para que você saiba.

O e-mail incluirá um link para um site onde você pode ver mais detalhes. Alguns monitores do site anexam capturas de tela de antes e depois da mudança.

Como investigador, você pode usar um monitor de site em conjunto com um serviço de arquivamento para ficar a par das atualizações importantes do site.

Para notificá-lo sobre alterações, essas ferramentas exigem que você configure uma conta e forneça acesso a um endereço de e-mail ou número de telefone. Você pode evitar expor sua verdadeira identidade e detalhes de contato, criando um endereço de e-mail separado, especialmente se você trabalha com investigações.

Visualping

Visualping oferece um plano gratuito que permite monitorar até 62 páginas da web por mês. Isso significa que ele pode verificar qualquer coisa entre duas páginas da web por dia (fornece atualizações de duas páginas da web diferentes diariamente, se ocorrerem alterações) ou várias páginas semanalmente, até 62 páginas da web por mês (onde verifica alterações em 62 páginas, uma vez por mês) – ou outras combinações que funcionem para você. A versão gratuita pode executar verificações de hora em hora, diariamente, semanalmente ou mensalmente, para comparar uma página da web com suas versões anteriores e alertá-lo por e-mail quando modificações no texto, imagens, palavras-chave ou quaisquer áreas das páginas selecionadas, ocorrem. O serviço também funciona via Tor Navegador e recomendamos usar esta opção para uma camada extra de privacidade e segurança.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_visualping.png

Visualização de captura de tela

ChangeTower

ChangeTower oferece um plano gratuito que monitora até três sites e conduz até seis verificações por dia (neste caso, pode escanear um site para alterações duas vezes ao dia). Ele pode monitorar uma URL específica (página da web), um site inteiro ou variações diferentes (você pode selecionar quais páginas de um site deseja monitorar). Ele pode procurar alterações no conteúdo textual, conteúdo visual, html, palavras-chave etc.. O plano gratuito armazena os resultados do monitoramento por até um mês. O serviço também funciona via navegador Tor e recomendamos usar esta opção para uma camada extra de privacidade e segurança.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/Web_Archive_changetower.png

Captura de tela ChangeTower


Publicado em abril de 2019
Traduzido para português em julho de 2023

Recursos

Artigos e guias

Ferramentas e Bancos de Dados

  • Archive Today. Uma ferramenta de arquivamento da web e banco de dados de conteúdo da web arquivado.

  • Wayback Machine. Uma ferramenta de arquivamento da web e banco de dados de conteúdo da web arquivado, administrado pelo Arquivo da Internet.

  • WebCite. Um serviço de arquivamento sob demanda e banco de dados que preserva digitalmente material científico e educacional na web.

Glossário

term-access-log

Registro/Log de acesso - um arquivo que registra todas as visualizações de um site e dos documentos, imagens e outros objetos digitais nesse site. Inclui informações como quem visitou o site, de onde, por quanto tempo, e qual o conteúdo acessado.

term-algorithm

Algoritmo - uma sequência estabelecida de etapas para resolver um determinado problema.

term-bandwidth

Largura de banda – em computação, a taxa máxima de transferência de informações por unidade de tempo, em um determinado caminho.

term-bookmarklet

Bookmarklet – um endereço da web complexo, que você pode adicionar à sua lista de “marcadores” ou “favoritos” do navegador. Quando você clica em um bookmarklet, ele normalmente envia informações sobre a página que você está visitando, no momento, para um serviço de terceiros.

term-cache

Cache – um armazenamento temporário para dados que foram recentemente usados ou processados, e podem ser recuperados novamente, de forma rápida, em vez de visitar a fonte original, ou refazer a computação associada aos dados solicitados.

term-crawlers

Rastreadores/Crawlers – software que percorre automaticamente páginas da Internet para executar funções tipicamente exploratórias.

term-cryptographichash

Hash criptográfica - uma forma de identificar dados enviando um arquivo ou outra informação por meio de um algoritmo que a resume em uma cadeia alfanumérica de comprimento fixo (uma combinação de letras e números, de até 100 caracteres). Esta cadeia é muito difícil de quebrar matematicamente, o que significa que você pode dá-la a alguém para ajudar a determinar se um arquivo maior é o correto, ou se está intacto.

term-directory

Diretório – um contêiner usado para categorizar arquivos ou outros contêineres de arquivos e dados.

term-doi

** DOI - Identificador De Objeto Digital** - do inglês Digital Object Identifier, um identificador único que se refere a trabalhos publicados, semelhante ao ISBN, mas para trabalhos publicados digitalmente. A atribuição e administração de DOIs é coordenada pela Fundação DOI https://www.doi.org/.

term-domain

Nome de domínio - um nome comumente usado para acessar um site (por exemplo, tacticaltech.org). Os nomes de domínio são traduzidos em endereços IP.

term-extension

Extensão do navegador – também chamados de add-ons, são pequenos pedaços de software usados para estender as funcionalidades de um navegador da web. Estes podem pode ser qualquer coisa, desde extensões que permitem tirar screenshots de páginas da web que você visita, até aquelas que verificam e corrigem sua ortografia. ou bloqueiam anúncios indesejadas de sites.

term-ip

Endereço IP – Endereço de Protocolo de Internet (IP vem do inglês Internet Protocol), é um conjunto de números usados para identificar um computador ou local de dados ao qual você está se conectando. Exemplo: 213.108.108.217 (IPv4) ou 2606:4700:4700::1111 (IPv6)

term-malware

Malware - software com comportamento malicioso que geralmente fica oculto para os usuários.

term-robotstxt

Robots.txt – um arquivo em um site que instrui programas automatizados (robôs/bots/robots/crawlers) sobre como se comportar com os dados no site.

term-server

Servidor – um programa de computador ou dispositivo de hardware que fornece um serviço para outro programa de computador e seu usuário (conhecido como cliente). Um exemplo de serviço de servidor típico é o fornecimento de dados a outros computadores. Outro é hospedar uma página da Web ou enviar e receber e-mail de/para outros computadores.

term-screenshot

Captura/Imagem de tela - uma imagem da tela do dispositivo capturada em formato digital.

term-script

Script – uma lista de comandos que são executados por um determinado programa para automatizar processos. Por exemplo, visitar um URL a cada dois segundos e salvar o dados que são retornados.

term-sourcecode

Código-fonte - O código subjacente, escrito por programadores de computador, que permite a criação de software ou sites. A leitura do código-fonte de um determinada ferramenta ou site pode revelar como funciona e se pode ser inseguro ou malicioso.

term-thirdparty

Terceiro - uma pessoa ou entidade que não faz parte diretamente de um contrato ou relacionamento, mas pode ter uma função relacionada a ele no entanto.

term-tor

Navegador Tor – um navegador que mantém suas atividades online mais privadas. Ele disfarça sua identidade e protege seu tráfego na web de várias formas de vigilância na internet. Também pode ser usado para ignorar certos filtros da Internet.

term-userbase

Base de usuários - uma lista de usuários associados a uma determinada plataforma ou sistema.

term-vpn

Rede Privada Virtual (VPN) - tradicionalmente chamada de VPN (do inglês Virtual Private Network), é um software que cria um «túnel» criptografado entre seu dispositivo e um servidor mantido pelo seu provedor de VPN. Sites e outros serviços online receberão as solicitações de - e retornarão suas respostas para - o endereço IP desse servidor em vez do seu endereço IP real, mascarando seu endereço IP real quando você visita sites e utilizar outros serviços online.

term-website

Website – um conjunto de páginas ou dados que estão disponíveis remotamente, normalmente para visitantes com acesso à Internet ou à rede.

term-webpage

Página da Web – um documento (página) acessível pela Internet, exibido em um navegador da web.

term-wildcard

Coringa (Wildcard) – neste contexto técnico, é um símbolo como «*» ou «?» que é usado em alguns comandos ou pesquisas de computação para representar qualquer caractere ou intervalo de caracteres.(https://pt.wikipedia.org/wiki/Caractere_curinga)