Como ver o que está por trás de um site

Por Brad Murray, Wael Eskandar https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites-cik-illustration.png


Resumindo: Uma visão prática de ferramentas e técnicas para investigar a propriedade de sites e descobrir informações ocultas online, bem como dicas essenciais sobre como fazê-lo com segurança.


Superficialmente, os sites parecem ter sido projetados para tornar as informações disponível ao público. No entanto, há muitas informações valiosas escondidas atrás do que você pode ver em seu navegador.

Às vezes é importante pesquisar dados ocultos: identificar o indivíduos ou empresas que possuem um nome de domínio ou mantém um site, para determinar onde esse site foi registrado ou para desenterrar o conteúdo que já continha, mas que já foi removido.

Fazer isso nem sempre é simples. Por exemplo, pessoas que não deseja ser associadas ao conteúdo de um sitem ou aos negócios afiliados, às vezes tentam ocultar sua conexão com o site usando intermediários quando registram seu nome de domínio.

Um investigador de site às vezes é como um mecânico. Assim como um mecânico pode precisar vasculhar dentro do motor de um carro para diagnosticar um problema, um investigador pode precisar examinar o funcionamento interno de um site para descobrir quem e o que está por trás dele.

Encontrar conteúdo oculto e conexões não é uma ciência exata, e sim uma combinação de habilidades, um conjunto de ferramentas e uma dose de perseverança. Exploraremos algumas ferramentas e métodos úteis, que podem ajudar um investigador determinado a desenterrar pistas enterradas em um site – de detalhes de registro e metadados para código-fonte e configurações do servidor.

Um site e seus elementos

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_03-cik-illustration_2.png

Para investigar um site de forma eficaz, você precisará saber o que acontece dentro de um. Isso inclui elementos que são imediatamente aparentes para visitantes e outros que se escondem sob a superfície.

Site e página da web

Um site é composto de páginas da Web que exibem informações. Informações que podem incluir o perfil de uma empresa, uma lista de postagens, mídia, uma descrição de um produto, uma coleção de fotografias, um banco de dados de informações jurídicas ou qualquer coisa outro.

Essas páginas da Web normalmente podem ser visualizadas por qualquer pessoa com acesso à Internet e um navegador da web. Considerado de outra perspectiva, no entanto, uma página da web é realmente apenas um arquivo digital que é armazenado em um disco que está conectado a um computador que está conectado à energia e conectado a um cabo de rede em algum lugar do mundo físico. Às vezes é útil ter isso em mente ao investigar um site.

Endereço de IP

Para visitar um site, seu dispositivo precisa saber o endereço do Protocolo de Internet, ou endereço IP, (Internet Protocol em inglês) do computador que o hospeda. Hospedar um site significa disponibilizá-lo para o mundo; os computadores responsáveis por fazer isso geralmente são chamados de servidores.

Um endereço IP (ou mais precisamente IPv4) é normalmente escrito como uma série de quatro números, separados por pontos, cada um variando de 0 a 255.

Por exemplo: 172.217.16.174 é o endereço IP de um dos servidores que hospeda o site «google.com», no qual os visitantes podem acessar o mecanismo de busca do Google.

A qualquer momento, cada dispositivo conectado diretamente à internet - seja um webserver, um serviço de e-mail ou um roteador WiFi doméstico - é identificado por um endereço IP específico. Isso permite que outros dispositivos o encontrem, solicitem acesso ao que estiver hospedando e, em alguns casos, enviem conteúdo como termos de pesquisa, senhas ou mensagens de e-mail.

Muitos dispositivos, incluindo a maioria dos telefones celulares, laptops e desktops computadores, conectam-se à internet indiretamente. Eles podem entrar em contato com sites e outros serviços - e eles podem receber respostas - mas a maioria outros dispositivos não podem alcançá-los. Em certo sentido, eles não são escutando conexões. Muitos desses dispositivos têm o que chamamos de «endereços IP internos.» Isso significa que os dispositivos no mesmo local rede pode se conectar a eles diretamente, mas outros não. Se você procurar o endereço IP do seu telefone ou laptop, você provavelmente encontrará um endereço IP, mas você raramente encontrará um associado a um site.

Nome do domínio

Como a maioria dos números longos, os endereços IP são difíceis de lembrar, por isso tendemos a usar nomes de domínio. Cada nome de domínio aponta para um ou mais endereços IP. No exemplo acima, o nome de domínio «google.com» aponta para 172.217.16.174 e é muito mais fácil para a maioria das pessoas lembrar.

Registrador de domínio, titulares de domínio e registro de domínio

Os nomes de domínio são únicos. Só pode haver um «google.com», para exemplo. O processo de compra de um nome de domínio é chamado de registro de domínio.

Este processo garante que os nomes de domínio permaneçam únicos e torna mais difícil para alguém se passar por um site que não controla. Quando alguém registra um nome de domínio, um registro é criado para acompanhar proprietário e administrador oficial desse domínio (ou seus representantes).

Uma pessoa que registra um domínio é chamada de titular. Esse titular - ou alguém a quem eles dão acesso - pode apontar o domínio para um endereço IP específico. Se um servidor web está escutando naquele endereço IP, um site nasce.

As empresas que tratam do processo de registro são chamadas de registradores (também conhecido por seu nome em inglês, registrar/s), e eles quase sempre cobram uma taxa por seus serviços. Exemplos de registradores incluem o registro.br no Brasil. GoDaddy.com, Domain.com e Bluehost.com, entre muitos outros. Estas empresas são obrigadas a rastrear certas informações sobre cada um dos titulares.

Uma organização sem fins lucrativos chamada Internet Corporation for Assigned Nomes e números (ICANN) rege o processo de registro de domínio para todos os sites do mundo.

Servidor web e hospedagens

Sabemos que um site tem um nome de domínio e que um nome de domínio é traduzido em um endereço IP. Também sabemos que todo site é realmente armazenado em um computador em algum lugar do mundo físico. O computador que hospeda o site é chamado de servidor web.

Existe toda uma indústria de empresas que armazenam e veiculam sites. Eles são chamados de empresas de hospedagem na web. Eles têm edifícios cheios de computadores que armazenam sites e podem estar localizados em qualquer lugar do mundo. Embora seja mais comum que os sites sejam hospedados em «centros de dados» (data centers) como esses, eles podem ser hospedados em praticamente qualquer dispositivo com uma conexão com a internet.


Segurança em primeiro lugar!

Há muitas maneiras de descrever o uso e a pesquisa na Internet. Muitas dessas descrições envolvem «viajar» para algum lugar, por exemplo «navegar» na Internet ou «acessar» um site.

O fato é que uma descrição melhor seria abrir uma porta ou discar número de telefone. Quando você disca um número de telefone, a pessoa do outro lado pode ver o seu número de telefone. Quando você visita o endereço IP de um site, o site pode ver seu endereço IP. Quando você abre uma porta para olhar para fora, alguém do outro lado pode olhar. É importante entender que quando você visita um site está enviando informações ocultas sobre você mesmo a esse site.

Essas informações incluem que tipo de dispositivo ou computador você possui (iPhone 6/7/X, Samsung Galaxy, MacBook etc.), qual sistema operacional você está executando (Windows, MacOS, Linux) e até mesmo quais fontes você instalou.

Todas essas informações podem ser usadas para descobrir quem você é, onde está, e até mesmo em quais outros sites você esteve.

Existem ferramentas que você pode usar para ver alguns dos dados com os quais está compartilhando os sites que você visita. Usando seu navegador da Web atual, visite as ferramentas abaixo para ver quais informações você pode estar vazando para os sites você visita e as empresas que os possuem.

  • Cover Your Tracks – analisa quão bem seu navegador e seus complementos protegem você contra técnicas de rastreamento. Este site também funciona no Navegador Tor.

  • Browser Leaks – exibe uma lista de ferramentas de teste de segurança do navegador da Web que informam a você quais dados pessoais você pode estar vazando para outras pessoas, sem o seu conhecimento ou permissão, quando você navega na Internet. Este site também funciona no Navegador Tor.

Certifique-se de verificar se há vazamentos relacionados à Web Real-Time Communication Protocolo (WebRTC) – uma tecnologia que suporta bate-papo por vídeo e áudio - e para vazamentos de DNS – que permitem que terceiros como o seu provedor de serviços de internet (ISP) para ver quais sites você visita e quais aplicativos que você usa. Os sites acima também indicam se o seu IP real é visível ou não para os sites que você visita.

Tendo visto algumas de suas fraquezas e formulado algumas preocupações sobre como sua pesquisa online pode expor suas informações ou ameaçar sua segurança, agora você pode dar o próximo passo. Na seção final - Como se manter seguro ao investigar sites - examinamos algumas ferramentas e técnicas que você pode usar para proteger a si mesmo e a seus dados ao investigar online.

Consulta básica de WHOIS

Ao pesquisar um site, uma das fontes de dados mais úteis pode ser ser encontrado em seus detalhes de registro de domínio.

Ao longo de sua investigação, pode ser relevante saber quem – seja uma organização ou um indivíduo – possui um determinado domínio, quando foi registrado e por qual registrador, bem como outros detalhes. Em muitos casos, essas informações podem ser acessadas por meio de serviços de terceiros detalhados abaixo.

No entanto, como mencionado anteriormente, às vezes o proprietário de um domínio não deseja aparecer como vinculado ao site. Seja qual for o motivo - seja querendo não ser associado ao conteúdo do site ou apenas desejando manter um certo grau de privacidade - vale a pena notar que os domínios podem ser registrados por meio de organizações intermediárias que ocultam o detalhes completos do registro.

As informações coletadas dos titulares de domínio são chamadas de dados WHOIS, e inclui detalhes de contato da equipe técnica designada para gerenciar o site, bem como detalhes de contato do proprietário real do site ou seu intermediário.

Esses dados estão disponíveis ao público há muito tempo em sites como WHOIS do Registro.Br, e WHOIS da ICANN. No entanto, atualmente existem outros serviços gratuitos ou parcialmente gratuitos (alguns têm taxas para serviços avançados pesquisas e resultados estendidos) que também agregam informações WHOIS e que muitas vezes fornecem mais detalhes e informações mais precisas e atualizadas informações do que a ICANN.

Observe que, se você estiver fazendo muitas solicitações de informações em um curto período de tempo, na maioria desses sites você pode receber um erro e precisar esperar ou mudar para um serviço diferente para continuar suas pesquisas. Da mesma forma, muitos desses sites exigem que você preencha CAPTCHAs para fazer certeza de que você não é um robô.

Estes são alguns dos sites que fornecem dados WHOIS úteis gratuitamente:

Conforme mencionado acima, muitos registradores oferecem a capacidade de atuar como contatos intermediários nos formulários de registro de domínio, serviço conhecido como «privacidade WHOIS». Nesses casos, os domínios registrados com privacidade WHOIS não listam os nomes reais, nem números de telefone, endereços postais e de e-mail dos verdadeiros titulares e proprietários do site, mas sim os detalhes do serviço de intermediação. Embora isso possa frustrar algumas consultas WHOIS, a pesquisa na ferramenta é, no entanto, um recurso poderoso para investigar um domínio.

Como diferentes mecanismos de pesquisa retornam resultados diferentes para a mesma consulta dependendo de seus índices e algoritmos, pode ser que pesquisar com diferentes serviços de consulta WHOIS retornará diferentes quantidades de detalhes sobre seu domínio de interesse. Verificando com várias fontes sempre que possível é, portanto, uma boa maneira de garantir que você conseguiri o máximo de informações possível, como é padrão em qualquer parte do uma investigação.

Para ilustrar isso, vejamos a que nos leva uma pesquisa por «usps.com» (o site do Serviço Postal dos Estados Unidos) em vários serviços WHOIS.

Uma consulta de dados WHOIS para «usps.com» usando ICANN WHOIS Lookup retorna:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-icann-ups.png Dados WHOIS da ICANN para «usps.com» em 19 de fevereiro de 2019

As informações que obtemos sobre o titular são limitadas – só podemos ver as datas de criação e expiração do domínio - e os detalhes do registrador aparecem no lugar dos dados do titular.

Para mostrar como as informações retornadas desses serviços podem diferir, a busca por «usps.com» em https://who.is/ retorna mais informações sobre a USPS, incluindo um endereço, contato de e-mail e telefone número.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whodotis.png Dados WHOIS do serviço Who.is para «usps.com» em 19 de fevereiro de 2019


Dica:

Além das ferramentas de pesquisa WHOIS acima, IntelTechniques – o site de Michael Bazzel, um consultor de inteligência de código aberto - fornece uma lista agregada de ferramentas de pesquisa de domínio que permitem comparar resultados de pesquisa de várias fontes de dados WHOIS. Basta verificar o menu de pesquisa de nome de domínio no lado esquerdo. Observe também que a IntelTechniques tem uma ampla oferta de outras ferramentas que você pode usar em suas investigações, como pesquisa de metadados de imagem e ferramentas de pesquisa em redes sociais.


Implicações do GDPR O

Regulamento Geral de Proteção de Dados (GDPR) da A União Europeia (UE) gerou muita incerteza quanto ao status de registros WHOIS públicos na UE porque, em teoria, os dados WHOIS dos proprietários e administradores de domínios registrados na UE não devem ser coletados e publicados pelos registradores. Sob o GDPR, são considerados informação privada.

No entanto, o ICANN discorda desta interpretação da GDPR, acreditando que a regulação permite o acesso limitado ao WHOIS dados, e processou vários registradores. Mesmo depois da GDPR, a ICANN continuou a exigir registradores para, pelo menos, coletar dados sobre proprietários de sites e administradores, se não para torná-los publicamente disponíveis. A interpretação da ICANN interpretação tem sido repetidamente rejeitada pelos tribunais europeus, mas sua insistência de que sua política para titulares da UE está em conformidade com o GDPR deixa muitas perguntas sem respostas. Provavelmente,a coleta e o acesso a dados WHOIS para titulares baseados na UE serão restritos.

Mesmo nessas condições, alguns pesquisadores estão encontrando formas de trabalhar em torno das restrições que tornam os dados de alguns titulares inacessíveis em certas circustâncias. Esta postagem de GigaLaw - um escritório de advocacia americano especializado em disputas de nomes de domínios - fornece algumas dicas e técnicas que podem ser bem-sucedidas às vezes.

Histórico de WHOIS

Os dados históricos podem ser uma ferramenta útil ao investigar sites, porque pode rastrear a transferência da propriedade de um domínio. Também pode ajudar identificar proprietários de sites que não optaram consistentemente por ocultar seus dados de registro usando um serviço de privacidade WHOIS.


Exemplo:

Um exemplo em que esses dados históricos se mostraram úteis foi o investigação de uma gangue de cibercrimes conhecido como Carbanak, que se acredita ter roubado mais de um bilhão dólares dos bancos. Usando os dados históricos fornecidos pelo DomainTools, um pesquisador foi capaz de vincular vários sites juntos passando por seus registros históricos e encontrar centenas de domínios que foram inicialmente registrados com o mesmo número de telefone e endereço de e-mail do Yahoo. Esses detalhes de contato foram usados posteriormente para estabelecer um link entre Carbanak e uma empresa de segurança russa.

Para suas próprias investigações, várias empresas oferecem acesso a registros históricos de WHOIS, embora esses registros possam ser frequentemente restritos a países não pertencentes à UE países devido ao GDPR, conforme mencionado acima.

_DomainTools$1 $2 talvez a mais conhecida dessas empresas que oferecem dados históricos de WHOISe e de hospedagem. Infelizmente, esses dados não são gratuitos e o DomainTools exige que você registrar-se como membro para acessá-lo.

Whoisology Uma alternativa às ferramentas de domínio que também fornece dados históricos de WHOIS. Isso requer você crie uma conta tantos os básicos gratuitos, bem como serviços avançados e pagos. Há um limite diário para o número de pesquisas gratuitas e esta opção fornece apenas os últimoss arquivo de dados históricos de um site (não histórico completo). O arquivos históricos completos exigem pagamento e há vários planos anuais taxas dependendo do número de pesquisas e outras características do serviço fornece. Whoisology não funciona através do navegador Tor, e também pode use CAPTCHAs para verificar se você é uma pessoa real procurando por fnformação.


Segurança em primeiro lugar!

Se você decidir criar uma conta nesses serviços, pode ser uma boa ideia criar um novo endereço de email que você pode usar apenas para esta finalidade. Desta forma, você evita compartilhar seus dados de contato regulares e outros dados pessoais.

Consulta reversa de WHOIS

Diretórios telefônicos reversos, que permitiam que você procurasse um número de telefone para determinar a quem pertencia, costumava ser um ítem básico de investigação antigamente. Esses diretórios continham as mesmas informações que uma lista telefónica, mas organizaram-na de forma diferente: as entradas foram ordenadas por números de telefone e não por nomes. Isso permitiu aos investigadores fazer referência cruzada de números de telefone de volta para os nomes das pessoas a quem esses números pertenciam. Embora os diretórios reversos impressos tenham sido substituídos por bancos de dados online (como White Pages Reverse Phone), a necessidade por informações de referência cruzada se expandiu para muitas outras aplicações.

Os investigadores muitas vezes precisam procurar residentes pelo endereço residencial, para obter nomes a partir endereços de e-mail ou encontrar empresas por seus funcionários ou agentes de incorporação (uma pessoa ou empresa que realiza serviços de fundação de empresas em nome dos proprietários reais). Os diretórios reversos devem fazer parte do kit de ferramentas de qualquer investigador. A noção de traçar pequenas peças de informação de volta às suas fontes é fundamental para a mentalidade investigativa.

Quando você procura os nomes de domínio registrados em um determinado endereço de e-mail, número de telefone ou nome, é chamado de «pesquisa WHOIS reversa». Vários sites oferecem esses tipos de pesquisas.

Para identificar o proprietário de um domínio - especialmente quando esse proprietário assumiu algumas etapas para obscurecer sua identidade - você precisará localizar todas as informações sobre o site que podem ser pesquisadas inversamente. As ferramentas disponíveis para informações de referência cruzada de um site será diferente e as informações disponíveis variam para cada site, mas em geral princípio é consistente. Ao tentar localizar o proprietário de um nome de domínio, concentre-se em localizar informações que podem ajudá-lo a «reverter» ao proprietário final.

Aqui estão algumas ferramentas que você pode usar para pesquisas reversas:

_ViewDNSinfo$1 $2 gratuito e permite pesquisas por e-mail ou número de telefone. O ViewDNSinfo também fornece outras opções úteis, como pesquisa por um indivíduo ou empresa, pesquisa histórica de endereço IP (lista histórica de endereços IP em que um determinado nome de domínio foi hospedado, bem como onde esse endereço IP está geograficamente localizado) etc. Observe que o endereço IP dos proprietários às vezes são marcados como “desconhecidos” e, portanto, é uma boa ideia usar vários sites para suas pesquisas e combinar os resultados para obter uma imagem mais completa. Funciona via navegador Tor e não possui CAPTCHA.

Domain Eye Você pode se registrar no Domain Eye para obter 10 pesquisas gratuitas por dia. Funciona via navegador Tor e não possui CAPTCHA.

Domain Tools Um serviço pago para WHOIS reverso, sem demonstrações gratuitas disponíveis no momento. Funciona via navegador Tor e não possui CAPTCHA.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-viewdns.png Exemplo ViewDNSinfo de pesquisa WHOIS reversa com base no endereço de e-mail info@archive.org (usado pelo Internet Archive), data da pesquisa em 11 de janeiro de 2019

Encontrando informações com hospedagem compartilhada e pesquisa reversa de IP

Muitas vezes não é tão simples determinar a propriedade do domínio, particularmente se o proprietário fez de tudo para esconder sua identidade. Neste ponto devemos tentar olhar para a situação de outra perspectiva.

Se as consultas de pesquisa diretas não estiverem fornecendo resultados frutíferos, pode procurar por pistas menores e menos aparentes vasculhando dados que estão de alguma forma relacionado ao site, mas pode não estar obviamente conectados ou fáceis de coletar.

Os sites são hospedados em um ou mais servidores ou computadores que executam aplicativos servidores, que transmitem o conteúdo do site aos visitantes. Hospedagem na web tem um custo, seja na forma de assinatura mensal ou na forma de compra e operação de infra-estrutura física de computadores. Para reduzir custos, ou às vezes por causa de relacionamentos anteriores com administradores da web, sites relacionados geralmente compartilham hospedagem. Analisando os outros domínios compartilhando o mesmo serviço de hospedagem às vezes pode jogar luz sobre o proprietário ou administrador do site que você está investigando.


Observação:

Existe uma diferença entre o proprietário do domínio da web e seu administrador. Às vezes, um administrador registrado pode não ser o proprietário real do domínio. Em muitos casos, um ponto de contato técnico pode se encarregar de registrar o domínio e administrar a infraestrutura do site em nome do proprietário. Isso não inclui necessariamente a administração e responsabilidade pelo conteúdo do site.

Você pode usar o endereço IP para ver quais outros sites estão hospedados no mesmo servidor. Isso é útil para identificar sites que, por serem hospedados no mesmo servidor, podem estar relacionados.

ViewDNSinfo

Você pode encontrar resultados completos pesquisando um nome de domínio ou IP endereço na caixa de pesquisa reverse IP da ViewDNSinfo.

Vamos procurar por «tacticaltech.org» e ver quais são os outros domínios hospedado em seu endereço IP, 213.108.108.217.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-viewdns-reversee.png Exemplo ViewDNSinfo de pesquisa reversa de IP para tacticaltech.org

A pesquisa retorna uma lista de diversos domínios hospedados no mesmo servidor e compartilhando o endereço IP. Acontece que neste caso são todos relacionados com a mesma organização, Tactical Tech. Isso nem sempre será o caso, pois muitas vezes acontece que domínios não relacionados compartilham o mesmo IP do servidor, portanto, mais pesquisas são necessárias antes que você possa concluir que é uma conexão real.

Robtext

Este site oferece informações com curadoria de várias fontes, incluindo SEM rush, que dá uma noção da probabilidade dos mecanismos de pesquisa incluirem estes sites em resultados. Alguns serviços são gratuitos, mas você pode comprar crédito para baixar informações mais detalhadas, como relatórios de WHOIS reverso. Robtext também funciona através do navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-robtex.png Robtex.com procure por tacticaltech.org

Netcraft

Exibe informações de domínio, bem como outras informações que podem ser útil na investigação de um site, como rastreadores da web, história de hospedagem e tecnologias do site. Ao pesquisar um domínio na caixa de pesquisa «site contains» aqui: https://searchdns.netcraft.com, você poderá clicar no ícone «relatório do site» para obter o resultado relevante.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-netcraft.png Resultados do relatório do site da Netcraft para archive.org

Webhostinghero

Este serviço mostra qual empresa de hospedagem na web está sendo usada por um nome de domínio. Dois domínios hospedados na mesma empresa não significam que estejam relacionados ou tenham o mesmo proprietário. No entanto, é comum que os administradores que gerenciam vários sites usem o mesmo provedor de hospedagem por conveniência – uma prática que pode revelar conexões. Webhostinghero também funciona através do navegador Tor.

Em alguns casos, os administradores não usam provedores de hospedagem, mas hospedam seus sites de forma independente, seja em seu próprio data center, escritório ou até mesmo em casa. Nesses casos, pode ser mais simples identificar links entre os sites hospedados lá.

Outros serviços como este incluem: https://www.whoishostingthis.com/ e https://hostingchecker.com/ , ambos acessíveis através do navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-webhosting-hero.png webhosting hero

Built With

Os sites que compartilham um proprietário geralmente são projetados e hospedados usando o mesmo software. BuiltWith irá escanear um site e tentar determinar o tecnologias da web nas quais o site se baseia. Você pode então pesquisar outros sites que você suspeita que possam estar relacionados e procurar por semelhanças. Se você encontrar uma correspondência, você pode usar as outras ferramentas apresentadas aqui para encontrar evidências adicionais de uma conexão.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-builtwith-siab.png resultados de pesquisa BuiltWith para securityinabox.org

Descobrindo informações úteis no código-fonte de uma página da web

Uma página da Web que você vê em seu navegador é uma tradução gráfica de um código.

As páginas da Web geralmente são escritas em texto simples usando uma combinação de linguagens de marcação e scripting como HTML (HyperText Markup Language) e JavaScript, entre outros.

Juntos, eles são chamados de código fonte, que inclui conteúdo e um conjunto de instruções, escritas por programadores, para que o conteúdo seja exibido como pretendido.

Seu navegador processa essas instruções nos bastidores e produz a combinação de texto e imagens que você vê ao acessar um site. Com uma simples etapa extra, seu navegador permitirá que você visualize o código-fonte de qualquer página que visitar.

Teste: Abra seu navegador e dê uma olhada na fonte código de um site de seu interesse. Normalmente, você pode clicar com o botão direito do mouse no página e selecionar «Exibir fonte da página». Na maioria dos navegadores Windows e Linux, você também pode pressionar CTRL+U. Para obter instruções sobre Mac e dicas adicionais, confira este guia em como ler o código-fonte (também acessível pelo navegador Tor)


Por exemplo:

Parte do código-fonte do site da Casa Branca https://www.whitehouse.gov, que você pode revelar clicando com o botão direito seu cursor e selecionando «Exibir código-fonte», fica assim: https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whitehouse-sourcecode.png Exemplo de código-fonte

Se você nunca olhou para o código fonte de um site antes, você pode estar impressionado com a quantidade de informação que é transmitida ao seu computador não aparece quando você visualiza a página em seu navegador.

Por exemplo, pode haver comentários deixados por quem escreveu a fonte código. Esses comentários são visíveis apenas quando você visualiza a fonte - eles nunca são exibidos na página renderizada (ou seja, a página já com gráficos e texto processado). Um comentário começa com <!--, que indica que o que vem a seguir é um comentário e deve não ser exibido na página. Eles terminam com -->, que sinaliza o fim do comentário.

Os comentários geralmente são escritos em linguagem simples e às vezes fornecem dicas sobre quem mantém um site. Eles também podem incluir notas pessoais ou revelar informações como endereço ou designação de direitos autorais.

Encontrando conexões com o ID reverso do Google Analytics

Existem inúmeras coisas que você pode descobrir no código-fonte de uma página, mas um bom exemplo é o código que ajuda os proprietários e administradores de sites monitorar o tráfego que um site está recebendo. Um dos serviços mais populares deste tipo é Google Analytics - https://analytics.google.com.

Os sites relacionados geralmente compartilham um ID do Google Analytics. Porque o Google Analytics permite que vários sites sejam gerenciados por uma só conta para monitoramento de tráfego, e você pode usar seus números de identificação para identificar domínios que podem ser conectados por um administrador ou proprietário compartilhado.

Sites que usam o Google Analytics incorporam um número de ID em seu fonte código. Todos os IDs do Google Analytics começam com «UA-» e são seguidos por um número de conta. Eles se parecem um pouco com isso: «UA-12345678-2».


Por exemplo:

Para seguir o exemplo da Casa Branca acima, o ID do Google Analytics para www.whitehouse.gov é «UA-12099831-10». Você pode descobrir isso sozinho seguindo estas etapas enquanto estiver no site:

  • vá para o código-fonte do site clicando com o botão direito do mouse e selecionando «Exibir código-fonte», conforme indicado acima,

  • abra uma caixa de pesquisa com «Ctrl-F» ou «Command-F» enquanto estiver no [código-fonte] da página (view-source:https://www.whitehouse.gov/),

  • procure por «UA-» digitando-o na caixa de pesquisa; você encontrará o código do Google Analytics do site «UA-12099831-10».

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whitehouse-analytics.png Código do Whitehouse Analytics

o número depois do primeiro traço (-12099831) é o número da conta do Google Analytics da Casa Branca. O número no final (10, neste caso) indica quantos sites diferentes dependem da mesma conta para rastrear visitantes.

Uma vez que vários sites podem ser gerenciados em uma conta Google Analytics, você pode usar os números de ID do Google Analytics para identificar domínios que podem ser conectados por um administardor ou proprietário compartilhado.

Existem várias ferramentas de pesquisa reversa que permitem localizar sites que compartilham determinados IDs. Os exemplos incluem:

  • DNSLytics – pesquisável por nome de domínio, endereço IP ou ID do Analytics. Também funciona através do Navegador Tor.

  • DomainIQ - pesquisável por nome de domínio ou ID de análise. Não funciona através do Navegador Tor.

Como de costume, é aconselhável pesquisar o mesmo ID do Google Analytics em vários desses sites, pois seus resultados tendem a variar.


Observação:

Às vezes, um site pode copiar o código-fonte de outro, mesmo que não estejam realmente relacionados. Isso levará a resultados enganosos ao pesquisar o ID do Google Analytics. pesquisas reversas de ID do Google Analytics deve sempre ser tratado como uma pista possível e não como uma evidência concreta. Essa técnica pode ser útil, mas vale a pena repetir a importância de verificar com várias fontes antes de tirar conclusões.

Por exemplo, no caso acima, pesquisar o ID da Casa Branca (UA-12099831-10) com qualquer um destes serviços retornarão uma lista de sites que compartilham o mesmo ID do Google Analytics com a Casa Branca. (Observe também que os resultados tendem a diferir de serviço para serviço; alguns retornarão mais sites outros menos, então pesquise mais para compilar uma lista completa de descobertas.) Se você fizer este exercício, você irá notar que vários sites que provavelmente não têm relação com o site oficial da Casa Branca também aparecem na lista. Alguns são sites de paródia, outros são sites de jogos, e assim por diante. Embora isso pareça bizarro à primeira vista, a explicação é bastante simples – o código-fonte da Casa Branca foi copiado e replicado sem excluir o Google Analytics ID. Portanto, nem todos os sites listados estão relacionados neste caso. Também vale a pena notar que os sites não relacionados não estão realmente usando o ID do Google Analytics da Casa Branca e seus sites genuinamente relacionados, eles estão apenas exibindo-o.


Atualização importante para pesquisas de ID de Analytics

Desde 1º de julho de 2023, o Google desativou o familiar formato de ID «UA-» como parte do lançamento do Google Analytics 4. Os editores não precisam mais adicionar um UA-ID ao site para usar o GA.

Conforme explicado pelo investigador Craig Silverman aqui (em inglês), o Google não exige que um site remova seu UA-ID existente como parte da migração para o GA4. Um UA-ID herdado permanece em um site, a menos que um proprietário opte por removê-lo.

  • «O Google Analytics 4 agora usa o G-ID, conhecido como tag do Google. Isso já estava em uso antes de 1º de julho e foi coletado/rastreado por serviços como o DNSlytics. “Estamos coletando IDs AW-, DC-, G- e GTM- desde o quarto trimestre de 2022”, disse-me Paul Schouws, que administra o DNSlytics.»

  • «O Google está eliminando o sufixo que fazia parte dos UA-IDs. Este era o número que seguia o ID principal. Por exemplo, o sufixo neste ID é “-3”: UA-3742720-3. Se o sufixo fosse maior que um, normalmente significava que um ID era usado em vários sites. “Verifiquei alguns sites de notícias e minha amostra nada científica revelou que os antigos UA-IDs foram removidos e substituídos por um G- ou GTM-ID. O GTM-ID está vinculado ao Google Tag Manager, um produto usado para gerenciar várias tags/IDs. Não se surpreenda se vir GTM- em um site em vez de UA- ou G-.”»

Como essas pesquisas podem ajudar uma investigação?

Se o proprietário ou administrador de um site estiver ocultando sua identidade em um site, eles podem não ter tomado medidas semelhantes em todos os sites que gerenciam ou são donos. Enumerar esses sites por pesquisa reversa de IDs do Google Analytics podem ajudar você a localizar sites relacionados que podem ser mais fáceis de identificar.


Exemplo:

Em um artigo de 2011, O colunista da Wired, Andy Baio, revelou que de uma amostra de 50 blogs anônimos ou de pseudônimos que ele pesquisou, 15 por cento estavam compartilhando o ID do Google Analytics com outro site. Esta descoberta provou ser frutífera para desmascarar sites anônimos. Da amostra de 50, Baio afirmou ter identificado sete dos blogueiros em 30 minutos de busca. a história completa está disponível aqui.

Vamos fazer um exercício e ver se o site Our Revolution usa o Google Analytics para monitorar o tráfego.


https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-ourrevolution.png Captura de tela de «Ourrevolution.com»

Para determinar se «Our Revolution» tem um ID do Google Analytics, temos que visualizar o código-fonte conforme descrito acima.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-ua-example.png Código fonte de «ourrevolution.com»

Podemos então usar uma das ferramentas de pesquisa reversa mencionadas acima para ver se outros sites são usando o mesmo ID do Google Analytics. No DNSlytics, por exemplo, escolha Reverse Analytics no menu de navegação superior Reverse Tools.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnslytics.png Pesquisa por ID do Google Analytics no DNSlytics

Além do domínio «ourevolution» onde encontramos o Analytics ID, a pesquisa retorna outro nome de domínio: «Summer for Progress» - https://web.archive.org/web/20190831040944/https://summerforprogress.com/ (site arquivado pois o site real «https://summerforprogress.com/» agora está offline»).

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnslytics-reverse.png Resultados da pesquisa de ID do Google Analytics em dnslytics.com

Análise de metadados

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_01-cik-illustration_small.png

Quando alguém cria um arquivo (como um documento, PDF ou planilha) em seu computador, os programas que eles usam incorporam informações automaticamente em esse arquivo.

Podemos considerar “dados” o conteúdo que você vê em um arquivo: as palavras em um documento, os gráficos em um PDF, os números em uma planilha ou o elementos de uma fotografia.

Por outro lado, as informações incorporadas automaticamente são chamadas “metadados”.

Exemplos de metadados podem incluir o tamanho do arquivo, a data em que o arquivo foi criado ou o data em que foi alterado ou acessado pela última vez. Os metadados também podem incluir o nome do autor do arquivo ou o nome da pessoa que possui o computador usado para criá-lo.

Existem muitos tipos de metadados. Aqui, veremos como encontrar e entender vários exemplos que são úteis para as investigações.

Com documentos, mesmo que os metadados nem sempre identifiquem o autor ou criador de um arquivo (se eles tomarem medidas para manter essa identidade oculta, por exemplo, excluindo metadados como nome ou datas), muitas vezes ainda fornece pistas sobre sua identidade ou outros fatos significativos sobre eles ou os dispositivos e softwares que eles usaram para trabalhar nesses arquivos.

Uma situação semelhante acontece quando tiramos fotos: a imagem que nossas câmeras produzem muitas vezes contêm um tipo de metadados chamado EXIF. Metadados EXIF ​​podem revelar informações relacionadas a quando e onde a foto foi tirada: hora, data, GPS, localização, etc.

Os usuários podem remover manualmente essas informações potencialmente identificáveis ​​e muitos aplicativos e sites limpam metadados de arquivos enviados para proteger seus usuários. Em alguns casos, no entanto, os metadados EXIF ​​que permanecem na versão final de uma fotografia pode acabar revelando pistas sobre a identidade do fotógrafo, locais, datas e outras informações que podem ajudá-lo a conectar os elos perdidos em sua investigação.


Exemplo:

Por exemplo, o serial killer americano Dennis Rader foi preso após enviar um disquete contendo documentos de sua igreja para um jornal. Os documentos continham metadados que identificavam seu autor Aqui está um artigo no The Atlantic mostrando como faconteceu.

Com isso em mente, se você não conseguir encontrar o proprietário de um nome de domínio por meio dos meios e ferramentas apresentados acima, pode ser útil baixar todos documentos de texto, planilhas, PDFs e outros arquivos hospedados pelo site.

A partir daí, você pode analisar os metadados dos documentos e procurar um nome do autor ou outros detalhes de identificação. Você pode fazer isso verificando as propriedades dos documentos depois de baixá-los. Tenha em mente, no entanto, que documentos como esses às vezes contêm malware que pode colocar você e aqueles com quem você trabalha em risco. Para evitar isso, você não deve abrí-los com um dispositivo que você usa para quaisquer outros fins (trabalho ou pessoal) ou que esteja conectado à internet.


Segurança em primeiro lugar! - Abrindo arquivos baixados de fontes desconhecidas

Alguns investigadores mantêm um laptop separado que usam apenas para abrir arquivos não confiáveis. Esses dispositivos são frequentemente chamados de computadores herméticos ou com «air gap» porque, uma vez configurados, nunca ficam conectados à internet.

Como alternativa, você pode reiniciar seu computador a partir de um stick USB que contém o sistema operacional Tails quando você precisa analisar documentos suspeitos. Mesmo que um documento contenha malware que afeta Tails, qualquer dano que possa causar se tornará irrelevante quando você reiniciar novamente em seu sistema operacional normal. E da próxima vez que você iniciar o Tails, você terá um sistema limpo novamente, caso esteja configurado sem persistência de dados (a configuração padrão). Tails é baseado no sistema operacional GNU/Linux, no entanto, o que pode representar uma curva de aprendizado.

Para usar qualquer uma dessas técnicas, você precisará de um pendrive ou disco rígido externo para que você possa transferir os arquivos em questão.

Finalmente, se você não está preocupado em se associar aos documentos ou sobre expor estes conteúdos o ao Google (ou a qualquer pessoa com a autoridade para acessar as contas do Google de outras pessoas), você pode subir eles para o Google Drive e procurar por metadados usando o Google Docs. Não se preocupe, o Google é muito bom em proteger seus servidores contra malware!

Nem todos os documentos conterão metadados. Nem sempre está no documento, e o criador pode excluí-lo ou modificá-lo facilmente, assim como qualquer outra pessoa com a capacidade de editar o documento. Além disso, nem todos metadados se relacionam com o autor original. Os documentos mudam de mãos e são às vezes criados em dispositivos que pertencem a outras pessoas que não o autor.

Novamente, qualquer informação que você encontrar precisa ser verificada e corroborada por várias fontes. Apesar disso, os metadados podem fornecer você pistas adicionais ou ajudar para confirmar outras evidências que você tem já encontrado.


Estudo de caso

Além de ajudá-lo a identificar o verdadeiro dono de um documento ou site, os metadados também podem fornecer pistas sobre contratos de trabalho e outras afiliações e conexões. Por exemplo, um escritor da Slate analisou PDFs encontrados em um site de política conservadora administrado pela ex-personalidade de mídia Campbell Brown e descobriu que todas elas foram escritas por funcionários que trabalham para um grupo separado de políticas de direita. A ligação entre esses dois grupos não era conhecido até que a análise de metadados. A história completa está disponível aqui.

Vamos ver como essa descoberta pode ser replicada.

O PDF descrito neste artigo foi originalmente encontrado no seguinte endereço da web no site commonsensecontract.com: https://commonsensecontract.com/assets/downloads/Rewards_for_Great_Teachers.pdf (documento arquivado aqui).

Desde então, foi retirado e, de fato, esse nome de domínio agora aponta para um site completamente diferente: https://commonsensecontract.com. Você ainda pode encontrar o original arquivado no Internet Archive”s Wayback Machine.

Para saber mais sobre a Wayback Machine, consulte nosso recurso em «Recuperando e arquivando informações de sites.»

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-archived-commonsense.png

Página arquivada de «commonsensecontract.com»

Você pode seguir as etapas abaixo para examinar os metadados em questão. Mas primeiro:

  • Recomendamos o uso de um visualizador de documentos online para evitar expor-se para qualquer malware que possa estar à espreita nos documentos que você baixa. (Não encontramos nenhum malware neste documento, nem é particularmente sensível, mas é melhor planejar para o pior.)

  • Se você estiver usando um visualizador de documentos online que exija que você faça uma conta, o como Google Docs, recomendamos criar uma conta separada neste serviço. Isso o ajudará a evitar associar suas atividades investigativas com seu perfil online pessoal. No exemplo abaixo, usaremos um serviço online simples que não requer uma conta.

  • Lembre-se de que você está exibindo este documento e seus metadados, para quem executa o serviço que você usa. Eles, por sua vez, poderiam compartilhar ou publicá-lo. Se isso não for aceitável, você pode ter que usar uma das outras técnicas mencionadas nas seções «Segurança em primeiro lugar» deste Kit.

Para visualizar os metadados neste PDF:

  1. Navegue até a Wayback Machine - https://archive.org/web/

  2. Pesquise o endereço da Web original: https://commonsensecontract.com/assets/downloads/Rewards_for_Great_Teachers.pdf

  3. Clique no ano de 2014

  4. Clique em um dos pontos azuis do calendário (o de maio ou o de dos dois em setembro)

  5. Clique no link de download no canto superior direito da tela

  6. Salve o PDF em algum lugar do seu dispositivo, mas não o abra ainda

  7. Navegue até o Online PDF Reader (ele também funciona no navegador Tor e não tem CAPTCHA)

  8. Clique no botão “Iniciar leitura online de PDF”

  9. Carregue o arquivo Rewards_for_Great_Teachers.pdf

  10. Clique no link documento “Rewards_for_Great_Teachers.pdf” Document >Properties no canto superior esquerdo da tela

  11. Observe que o autor está listado como Elizabeth Vidyarthi.

Expor conteúdo da Web oculto

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_02-cik-illustration_2.png

Quase todos os sites da internet escondem algo (e muitas vezes, muitas coisas) dos visitantes, intencionalmente ou não. Por exemplo, o conteúdo os sistemas de gerenciamento empregados pela maioria dos sites ocultam os arquivos internos usados para gerar postagens e manter o site. Bancos de dados que armazenam dados para sites e aplicativos geralmente estão ocultos do acesso público.

Cookies e outros dados do lado do cliente, embora acessíveis e legíveis para um usuário experiente, são ocultados da visão do usuário comum, sendo armazenado e processado automaticamente no fundo.

Existem ferramentas e técnicas simples que permitem a qualquer um acessar essas informações sem fazer nada obscuro. Estes são apenas pequenos truques que permitem que você veja do que um site é feito e quais dados adicionais que pode revelar a você. O acesso a tais informações pode ser útil ao investigar um site para determinar seus proprietários ou identificar conexões com outros sites. Também pode ajudar a mostrar detalhes de contato ou pistas adicionais para sua pesquisa.

Robots.txt

Os sites indicam como os raspadores e os mecanismos de pesquisa devem interagir com seu conteúdo usando um arquivo chamado «robots.txt». Este arquivo permite que os administradores do site solicitem que raspadores, indexadores e rastreadores limitam suas atividades de determinadas maneiras (por exemplo, alguns não querem que informações e arquivos de seus sites sejam raspados).

Os arquivos robots.txt listam arquivos específicos ou subdiretórios - ou sites inteiros - que são fora dos limites para «robôs». Por exemplo, isso poderia ser usado para evitar que rastreadoresdo Wayback Machine arquivem todos ou parte do conteúdo de um site.

Alguns administradores podem adicionar endereços da Web confidenciais a um arquivo robots.txt em um tentar mantê-los escondidos. Essa abordagem pode sair pela culatra, pois o arquivo em si é fácil de acessar, geralmente adicionando «/robots.txt» ao nome do domínio.

Certifique-se de verificar o arquivo robots.txt dos sites que você investiga, apenas no caso de listarem arquivos ou diretórios que os sites administradores querem esconder. Se um servidor estiver configurado com segurança, o endereços da web listados podem ser bloqueados. Se estiverem acessíveis, no entanto, eles podem conter informações valiosas.

Cada subdomínio é gerenciado por seu próprio arquivo robots.txt. Subdomínios têm endereços web que incluam pelo menos uma palavra adicional na frente do nome de domínio. Por exemplo, o próprio Internet Archive tem pelo menos dois arquivos robots.txt: um para seu site principal, em https://archive.org/robots.txt, e outro para seu blog, em https://blog.archive.org/robots.txt.

Vale a pena notar que os arquivos robots.txt não se destinam a restringir acesso por humanos usando navegadores da web. Além disso, os sites raramente conseguem garantir essas restrições. Portanto, coletores de e-mail, spambots e rastreadores maliciosos frequentemente os ignora. Se você estiver raspando um site usando ferramentas automatizadas, no entanto, é considerado educado cumprir quaisquer diretrizes que você possa encontrar em um arquivo robots.txt.


Exemplo:

Como teste, podemos acessar o arquivo robots.txt para o site dos Padrões de segurança da indústria de cartões de pagamento, PCI.

Este é um exemplo interessante não porque o Conselho está tentando esconder alguma coisa, mas porque seu arquivo robots.txt - pcisecuritystandards.org/robots.txt / arquivado aqui - inclui um número de arquivos digitais - incluindo documentos do Word, PDFs e planilhas - os quais nenhum dos quais estaria em resultados de pesquisa normais:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-robots-txt.png

Captura de tela do robots.txt

Para visitar uma página da web ou baixar um documento que você encontra desta maneira, basta copiar o endereço da web parcial no lado direito de uma restrição que inicia com “Disallow:” e colar na barra de endereços do seu navegador após o nome de domínio. Neste caso, você pode baixar o arquivo “SAQ_C_V3.docx” que você vê na imagem, por exemplo, usando o seguinte endereço da web: https://www.pcisecuritystandards.org/SAQ_C_v3.docx.

Muitas vezes, tais arquivos estarão acessíveis através do próprio site, então este pode ser apenas um atalho. Em alguns casos, no entanto, você pode se deparar com páginas ou arquivos que um administrador de site estava tentando esconder.

Lembre-se - arquivos digitais podem conter malware, então tome cuidado ao abri-los Considere usar um visualizador de documentos online, a menos que esteja preocupado sobre compartilhar o conteúdo desses documentos com quem quer que opere seu serviço de visualização de documentos.

Sitemap.xml

Os arquivos Sitemap são o oposto dos arquivos robots.txt. Eles são usados pelos administradores do site para informar a buscadores sobre páginas em seu site que estão disponíveis para rastreamento.

Os sites geralmente usam arquivos de mapa do site para listar todas as partes do site eles desejam ser indexados e com que frequência desejam que sejam atualizados nos índices dos buscadores.

Assim como os arquivos robots.txt, os sitemaps ficam na pasta ou diretório superior do site (às vezes chamado de diretório “raiz”).

Para sites grandes e complexos, o mapa do site geralmente contém links para outros arquivos E_x_tensible _M_arkup _L_anguage (XML), que às vezes são compactados, ou “zipados”. Quando esses arquivos estão acessíveis, às vezes eles apontam para seções do site que podem ser interessantes.

Às vezes, o resultado são URLs que normalmente não aparecem nas buscas e que você pode explorar manualmente.

Para acessar os sitemaps, você precisa adicionar «/sitemap.xml» ao nome do domínio. Mas nem todos os sites terão um arquivo sitemap.xml acessível.

O site de investigações de código aberto baseado no Reino Unido Bellingcat tem um que você pode acessá-lo digitando https://www.bellingcat.com/sitemap.xml no endereço do seu navegador bar (observe que «sitemap.xml pode não funcionar da mesma forma em todos os navegadores). Você obterá uma lista de arquivos xml, conforme mostrado abaixo.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-sitemap.png Exemplos de mapa de site para bellingcat.com

Você pode clicar em qualquer um dos endereços listados para ver o que eles contêm. Neste exemplo podemos acessar https://www.bellingcat.com/attachment-sitemap1.xml

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-sitemap2.png Exemplos de mapa do site para www.bellingcat.com/attachment-sitemap1.xml

Enumeração de subdomínio

Um subdomínio é um identificador extra, normalmente adicionado antes de um nome domínio, que representa uma subcategoria de conteúdo. Por exemplo, «google.com» é um nome de domínio, enquanto «translate.google.com» é um subdomínio.

Os sites geralmente têm subdomínios não listados que seus administradores acreditam que são privados. Esses subdomínios ocasionalmente apontam para arquivos inacabados conteúdo ou conteúdo destinado a um público interno. Isso pode incluem subdomínios de desenvolvimento usados por programadores para testar novos conteúdos, páginas de eventos com links para materiais distribuídos em conferências, ou páginas de login de um webmail interno.

Muitos subdomínios são desinteressantes do ponto de vista investigativo, mas alguns podem revelar detalhes ocultos sobre seu assunto de pesquisa que não são facilmente acessíveis por meio de pesquisa online básica.

Aqui estão algumas ferramentas e técnicas que você pode usar ao pesquisar sites subdomínios:

DNSDumpster

_DNSDumpster_fornece dados sobre subdomínios, localizações de servidores e outras informações de domínio. Como FindSubdomains.com, ele não verifica ativamente em tempo real o site que você solicitou informações, o que significa que suas pesquisas não podem ser rastreadas pelo site que você está investigando. Também funciona através do navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnsdumpster.png Exemplo de subdomínio para tacticaltech.org via DNSDumpster.com

Embora já tenhamos analisado muitas ferramentas e métodos, há muito mais por aí para aqueles apaixonados por investigações online. Para obter mais dicas e técnicas relacionadas à descoberta de conteúdo oculto do site, dê uma olhada em outro recurso do Kit: «Pesquis de Forma Esperta com Vacilação».


Segurança em primeiro lugar!

COMO SE MANTER SEGURO AO INVESTIGAR WEBSITES

Pesquisar e coletar informações sobre propriedade de domínio, história, código-fonte do site, metadados e muitos outros elementos que podem ajudá-lo a construir sua evidência ao investigar sites, envolve navegar em um grande número de ferramentas e serviços online. Alguns desses funcionam com o Navegador Tor e isso permite que você proteja sua privacidade em alguma medida. Outros não apenas não funcionam no Tor, como também exigem você se inscrever com um endereço de e-mail, nome e outros detalhes pessoais.

Aqui estão algumas sugestões de ferramentas e técnicas de segurança digital que você pode usar para proteger sua privacidade, bem como a segurança de seus dispositivos e dados ao investigar online.

CONTAS

Alguns serviços exigem que os usuários criem uma conta, escolham um nome de usuário, forneçar informações de pagamento, verifiquei endereços de e-mail ou para associem um perfil de mídia social para obter acesso a informações em suas plataformas.

Você deve considerar estabelecer um conjunto separado de contas, para uso com serviços como estes, de forma a compartimentalizar (separar) o seu trabalho investigativo de sua identidade online pessoal.

Em alguns casos, você pode até querer criar uma «identidade» de uso único para uma investigação particular, e eliminá-lo uma vez que a pesquisa é feita.

De qualquer forma, seu primeiro passo será criar uma conta de email relativamente e compartimentalizad, que você pode fazer facilmente com Tutanota ( tutanota.com/pt_br/ ) ou Protonmail ( proton.me/pt-br/ ).

NAVEGADORES

Como alguém que está procurando descobrir verdades ocultas, você provavelmente já usar a internet para comunicação pessoal e para algumas de suas pesquisas.

É uma boa ideia usar navegadores diferentes para sua pesquisa e para navegação casual na web. Ao fazer isso, você está praticando «compartimentalização», deixando um navegador para pesquisa e outro para todo o resto. É como separar as coisas em duas caixas diferentes ou compartimentos.

Recomendamos que você escolha um navegador «amigável à privacidade» para sua pesquisa e evitar fazer login em e-mails e mídia social nesse navegador. O uso de um navegador amigável à privacidade impedirá que muitos de seus dados pessoais sejam enviados para os sites que você visita.

Antes de usar qualquer uma das ferramentas online das quais falamos aqui ou no kit geral, é uma boa ideia baixar e instalar um desses navegadores. Em seguida, adicione uma camada extra de certeza testando o navegador com uma ferramenta como Browser Leaks, Cover Your Tracks ou outras ferramentas semelhantes. Os resultados do que você vê devem ser diferentes de quando você visita Browserleaks ou Panopticlick com um navegador normal, o que geralmente revela mais brechas.

Estes são alguns exemplos de ferramentas que podem ajudar a proteger sua privacidade durante a pesquisa online, com alguns prós e contras de usá-los.

Navegador Tor

Prós: Este é o melhor navegador amigável à privacidade. O código é publicado abertamente para que qualquer um possa ver como funciona. Ele possui uma maneira integrada de alterar seu endereço IP e criptografar seu tráfego.

Cons: Existem lugares no mundo onde o uso do navegador Tor é bloqueado ou banido. Embora existam maneiras de contornar esses bloqueios, como Tor Bridges, usar o Tor também pode sinalizar seu tráfego como suspeito nesses locais.

E se eu não puder usar o Navegador Tor? Há casos em que o navegador Tor pode não seja o melhor para você. Aqui estão algumas outras opções. Esses outros navegadores não estão no mesmo nível do Tor, mas podem ser considerados. Certifique-se de sempre testar o navegador que você escolher em Browserleaks, CoverYourTracks ou outras ferramentas semelhantes.

NOTA - O site Security-in-a-Box da Tactical Tech inclui guias detalhados sobre como permanecer anônimo e contornar a censura na Internet usando o navegador Tor no Linux, Mac e Windows, entre outros.

Firefox

Prós: Firefox bloqueia rastreadores e cookies com uma configuração chamada «Proteção aprimorada contra rastreamento», que é ativada automaticamente quando você define «Bloqueio de conteúdo» como «estrito».

Cons: Você precisa ativar esta opção, ela está desativada por padrão. Quando você usa o Firefox, é importante lembrar que seu endereço IP ainda visível para os sites que você visita. WebRTC é ativado por padrão, e pode vazar seu endereço IP real, mesmo se você estiver usando, por exemplo, uma VPN.

Brave

Prós: Brave tenta proteger a privacidade sem a necessidade de ativar opções ou adicionar complementos ou extensões. Brave tem um configuração de segurança para apagar todos os dados privados quando o navegador está fechado. Tem um recurso chamado “Shields” onde você pode bloquear anúncios e rastreadores. O Brave também permite que você crie uma nova «Aba Privada com Tor», que usa a rede Tor para proteger seu endereço IP (o uso regular não o protegerá). Isso até permite que você visite o Tor sites de serviços ocultos - que são sites que terminam em .onion e são configurado para ser acessado com segurança apenas por navegadores habilitados para Tor. Se você encontra uma página da web que bloqueia o Tor, você pode decidir se ou não visitá-lo com o Tor desligado.

Cons: O Brave tem um recurso chamado «pagamentos» ou «Pagamentos do Brave» – isto é para aqueles que desejam doar para criadores de conteúdo ou sites que eles acessam via Brave (uma parte dos pagamentos vai para o navegador para sustentar suas operações). É importante manter esta opção desativada, pois envia dados que podem ser usados para identificá-lo. Quando você usa o Brave, você deve usar o recurso “Guia Privada com Tor” para proteger seu endereço IP.

Epic Browser

Prós: o navegador Epic possui uma tecnologia integrada para ocultar seu endereço IP chamada proxy criptografado.

Cons: Epic é apenas para Mac e PC, não para Linux.

Waterfox e Palemoon

Prós: São dois projetos diferentes baseados no Firefox, mas removeram o código que pode enviar informações para a Mozilla, o proprietário do Firefox.

Cons: Esses navegadores são baseados em versões mais antigas do Código Firefox. Palemoon não está disponível para computadores Apple. Quando você usa Waterfox ou Palemoon, é importante lembrar que seu endereço IP ainda está vazando para os sites que você visita.

DuckDuckGo

Prós: Este é um buscador amigável à privacidade (não um navegador) que afirma não coletar quaisquer dados pessoais sobre seus usuários. Você pode usar o DuckDuckGo em combinação com o navegador Tor para preservar ainda mais sua privacidade.

Cons: DuckDuckGo salva suas consultas de pesquisa (mas não coleta dados que possam identificar você pessoalmente).

REDES PRIVADAS VIRTUAIS (VPNs)

A menos que você esteja usando o Navegador Tor, recomendamos que você sempre use uma Rede Virtual Privada(VPN) ao conduzir sua pesquisa.

Explicamos que visitar um site é como fazer uma ligação telefônica. O site que você está visitando pode ver seu «número» - seu endereço IP - que pode ser usado para mapear de onde você está vindo.

Para ilustrar, se você estiver pesquisando uma corporação e visitar com frequência sua página de diretoria - uma página que normalmente recebe muito pouco tráfego - suas visitas repetidas nesta página específica podem fazer a empresa ciente de sua pesquisa.

Uma maneira de evitar ser identificado nessa situação é disfarçando seu endereço IP. Isso é o que uma VPN faz: em vez de ver seu endereço IP real, os sites que você visita verão o IP do seu provedor de VPN.

Você pode pensar na VPN como um túnel de concreto entre você e o site você quer visitar. A VPN cria um túnel em torno do seu tráfego para que não pode ser observado de fora, e o encaminha através de um servidor intermediário pertencente ao seu provedor, para que seu tráfego seja direcionado a qualquer site que você visita como se estivesse vindo de um local diferente de onde você realmente é. Nem o navegador da web, seu provedor de serviço de internet nem o site que você visita verá seu IP ou poderá identificar você. Os sites verão apenas que seu tráfego vem do endereço IP do seu provedor de VPN.

Existem muitas opções de VPN e pode ser confuso decidir qual um para escolher. Para aumentar a confusão, a maioria das avaliações e listagens de VPN não são independentes, e alguns são realmente tendenciosos. Safety Detectives é um site de revisão de VPN que você pode conferir, entre muitos outros. Verifique também este guia (mais antigo, mas ainda relevante) sobre como escolher uma VPN «Aquele site de privacidade» (este site não está mais sendo atualizado).

Recomenda-se que você escolha uma empresa de VPN que afirme não registrar logs de seu tráfego.

Embora a maioria das VPNs gratuitas deva ser evitada porque geralmente financiam sua operação vendendo seus dados de log (registros de quais sites os usuários visita através da VPN), existem alguns respeitáveis que podemos endossar, como como:

Publicado em abril de 2019 / atualizado em março de 2023
Traduzido para português em julho de 2023

Recursos

Artigos e guias

Ferramentas e Bancos de Dados

  • IntelTechniques por Michael Bazzell. Um recurso de inteligência e forense digital de código aberto com ferramentas, guias e dicas úteis para investigar sites e pessoas online.

  • ICANN Whois, da Internet Corporation for Assigned Names and Numbers. A ferramenta oficial de busca Whois da ICANN para sites registrados em todo o mundo.

  • Cover Your Tracks, da Electronic Frontier Foundation. Uma ferramenta online que analisa o quão bem seu navegador e complementos protegem você contra técnicas de rastreamento online.

Glossário

term-access-log

Registro/Log de acesso - um arquivo que registra todas as visualizações de um site e dos documentos, imagens e outros objetos digitais nesse site. Inclui informações como quem visitou o site, de onde, por quanto tempo, e qual o conteúdo acessado.

term-algorithm

Algoritmo - uma sequência estabelecida de etapas para resolver um determinado problema.

term-bandwidth

Largura de banda – em computação, a taxa máxima de transferência de informações por unidade de tempo, em um determinado caminho.

term-bot

Robô – também chamado de robot, bot, web bot ou internet bot, é um software aplicativo que executa tarefas automatizadas pela internet. Por exemplo, um robô do Twitter que publica mensagens automatizadas e feeds de notícias.

term-extension

Extensão do navegador – também chamados de add-ons, são pequenos pedaços de software usado para estender as funcionalidades de um navegador da web. Estes podem ser qualquer coisa, desde extensões que permitem fazer imagens de páginas da web que você visita àquelas que verificam e corrigem sua ortografia ou bloqueiam anúncios nos sites.

term-brute

Força bruta - uma técnica de quebra de senha que envolve tentar todas as combinações possíveis.

term-captcha

CAPTCHA – um teste automatizado usado por sites e serviços online para determinar se um usuário é humano ou robô. Por exemplo, um teste pedindo usuários para identificar todos os semáforos em uma série de nove fotos.

term-cloud

Armazenamento em nuvem - um modelo de armazenamento de dados em que as informações são mantidas em servidores remotos que os usuários podem acessar via internet.

term-cms

Sistema Gerenciador de Conteúdo (CMS) - Também chamados de Content Management System, software usado para gerenciar conteúdo que é posteriormente renderizado em páginas na internet.

term-crawler

Rastreador/Crawler – também chamado de spider, é um robô da internet que sistematicamente navega na Internet, normalmente com o propósito de indexação na Web (Wikipedia)

term-database

Banco de dados - um sistema usado para armazenar e organizar coleções de dados com um foco ou propósito específico. Por exemplo, um banco de dados de terras e propriedade de propriedade no país Z.

term-dataset

Conjunto de dados – uma coleção de dados que compartilham alguns atributos comuns e que geralmente é organizado em linhas e colunas para facilitar em processamento. Por exemplo, um conjunto de dados dos proprietários estrangeiros de terras e propriedades no país Z.

term-directory

Diretório – um contêiner usado para categorizar arquivos ou outros contêineres de arquivos e dados.

term-domain

Nome de domínio - um nome comumente usado para acessar um site (por exemplo, tacticaltech.org). Os nomes de domínio são traduzidos em endereços IP.

term-dnsservice

Serviço de Nomes de Domínio (DNS)- Do inglês Domain Name Service, é um serviço distribuído que converte nomes de domínio em endereços IP como 213.108.108.217

term-dns

Systema de Nomes de Domínio, (DNS) – Do inglês Domain Name System, é um sistema de nomenclatura usado por computadores para transformar nomes de domínio em IP endereços para se conectar a sites.

term-dnsleak

Vazamento de DNS – quando os pedidos para visitar um determinado site ou domínio são expostos a um provedor de internet, apesar dos esforços para ocultá-los usando VPN.

term-dnsquery

Consulta DNS – o processo de solicitar a tradução de um nome de domínio para um Endereço de IP.

term-encryption

Criptografia- Uma maneira de usar matemática para criptografar, ou codificar, uma mensagem ou informação de forma que só possa ser decodificada e lida por alguém que tenha uma senha específica ou uma chave de criptografia. (fonte: Security-in-a-Box)

term-fulldisk

Criptografia de disco completo – também chamada de FDE (Full Disk Encryption), é criptografia que ocorre em um nível de dispositivo, disco, drive ou hardware. Por exemplo, criptografar todo o disco do computador também criptografaria automaticamente todos os dados salvos nele.

term-ip

Endereço IP – Endereço de Protocolo de Internet (IP vem do inglês Internet Protocol), é um conjunto de números usados para identificar um computador ou local de dados ao qual você está se conectando. Exemplo: 213.108.108.217 (IPv4) ou 2606:4700:4700::1111 (IPv6)

term-json

JSON - JavaScript Object Notation, um formato popular para troca de dados. De acordo com o site JSON, é fácil para os humanos lerem e escrever e fáceis para as máquinas analisarem e gerarem.

term-metadata

Metadados – informações que descrevem as propriedades de um arquivo, seja imagem, documento, gravação de som, mapa etc. Por exemplo, o conteúdo de uma imagem são os elementos visíveis nela, enquanto a data em que a imagem foi capturada, a localização e o dispositivo em que foi capturada são chamados de metadados.

term-feed

Feed (web) público – um serviço de fornecimento de dados online que oferece informações atualizadas regularmente para seus usuários ou para o público em geral público. Pode ser configurado através da assinatura do feed de um site/mídia ou pode estar publicamente disponível para todos.

term-registrar

Registrador/Registrar - uma empresa que fornece serviços de registro de domínio.

term-registrant

titular - uma pessoa que registra e tem a titularidade um domínio.

term-robotstxt

Robots.txt – um arquivo em um site que instrui programas automatizados (robôs/bots/robots/crawlers) sobre como se comportar com os dados no site.

term-root

Diretório Raiz – a pasta ou diretório de nível superior, que pode ou não pode conter outros subdiretórios.

term-script

Script – uma lista de comandos que são executados por um determinado programa para automatizar processos. Por exemplo, visitar um URL a cada dois segundos e salvar o dados que são retornados.

term-server

Servidor – um programa de computador ou dispositivo de hardware que fornece um serviço para outro programa de computador e seu usuário (conhecido como cliente). Um exemplo de serviço de servidor típico é o fornecimento de dados a outros computadores. Outro é hospedar uma página da Web ou enviar e receber e-mail de/para outros computadores.

term-serverconfig

Configuração do servidor – uma combinação de configurações que determinam o comportamento do servidor.

term-sitemap

Protocolo de mapa do site / Sitemap - um conjunto de diretrizes que permite aos administradores do site informar a buscadores sobre páginas em seu site que estão disponíveis para rastreamento.

term-subdomain

Subdomínio – um identificador extra, geralmente adicionado antes de um nome de domínio, que representa uma subcategoria de conteúdo (por exemplo, google.com é um nome de domínio, enquanto translate.google.com é um subdomínio).

term-sourcecode

Código-fonte - O código subjacente, escrito por programadores de computador, que permite a criação de software ou sites. A leitura do código-fonte de um determinada ferramenta ou site pode revelar como funciona e se pode ser inseguro ou malicioso.

term-targetads

Publicidade ou Anúncios direcionados – uma forma de publicidade que visa atingir ou serem mostrados apenas acertos grupos selecionados ou indivíduos com características particulares ou de áreas geográficas específicas, com base nos dados disponíveis sobre eles. Por exemplo, colocar anúncios de venda de bicicletas em contas do Facebook de jovens em Amsterdã.

term-sd

Subdiretório – um diretório dentro de um diretório.

term-tor

Navegador Tor – um navegador que mantém suas atividades online mais privadas. Ele disfarça sua identidade e protege seu tráfego na web de várias formas de vigilância na internet. Também pode ser usado para ignorar certos filtros da Internet.

term-tracker

Rastreador da Web – ferramenta ou software usado por sites para rastrear seus visitantes e como eles interagem com o site.

term-url

Universal Resource Locator (URL) – um endereço da web usado para recuperar um página ou dados em uma rede ou internet. Popularmente chamado de endereço, e às vezes, link.

term-vpn

Rede Privada Virtual (VPN) - tradicionalmente chamada de VPN (do inglês Virtual Private Network), é um software que cria um «túnel» criptografado entre seu dispositivo e um servidor mantido pelo seu provedor de VPN. Sites e outros serviços online receberão as solicitações de - e retornarão suas respostas para - o endereço IP desse servidor em vez do seu endereço IP real, mascarando seu endereço IP real quando você visita sites e utilizar outros serviços online.

term-vps

Servidor Privado Virtual (VPS) - Do inglês Virtual Private Server, é uma máquina virtual, alugada como um serviço, por uma empresa de hospedagem na Internet.

term-webdomain

Domínio da Web – um nome comumente usado para acessar um site que se traduz em um endereço IP. Por exemplo, tacticaltech.org.

term-webinterf

Interface da Web – uma interface gráfica do usuário na forma de uma página da Web que é acessada através do navegador de internet.

term-webpage

Página da Web – um documento (página) acessível pela Internet, exibido em um navegador da web.

term-webserver

Servidor da Web – também conhecido como servidor de internet, é um sistema que hospeda websites e entrega seu conteúdo e serviços aos usuários finais através da Internet. Inclui hardware (máquinas servidoras físicas que armazenam o informação) e software que facilitam o acesso dos usuários ao conteúdo.

term-website

Website – um conjunto de páginas ou dados que estão disponíveis remotamente, normalmente para visitantes com acesso à Internet ou à rede.