Cómo Ver lo Que Está Detrás de un Sitio Web

Por Brad Murray y Wael Eskandar

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites-cik-illustration.png


SÍNTESIS: Una descripción práctica de herramientas y técnicas para investigar la propiedad de los sitios web y descubrir información oculta en línea, así como consejos esenciales sobre cómo hacerlo de forma segura.


En la superficie, los sitios web parecen diseñados para poner la información a disposición del público, sin embargo, hay mucha información valiosa que se esconde detrás de lo que puedes ver en tu navegador web.

A veces es importante investigar datos ocultos: identificar a las personas o empresas que poseen un nombre de dominio o mantienen un sitio web, determinar dónde se registró ese sitio o desenterrar contenido que fue eliminado.

Hacerlo no siempre es sencillo; por ejemplo, las personas que no desean ser asociadas con el contenido de un sitio web o con la empresa afiliada, a veces intentan ocultar su conexión al sitio utilizando intermediarios cuando registran su nombre de dominio.

Un investigador o investigadora de sitios web es a veces como una persona que se dedica a la mecánica. Del mismo modo que esa persona podría tener que hurgar dentro del motor de un automóvil para diagnosticar un problema, la persona que investiga podría necesitar examinar el funcionamiento interno de un sitio web para averiguar quién y qué hay detrás de él.

Encontrar contenido oculto y conexiones no es una ciencia exacta, sino una combinación de habilidades adquiridas, un conjunto de herramientas y una dosis de perseverancia.

Exploraremos algunas herramientas y métodos útiles, que pueden ayudar a un investigador decidido a descubrir pistas enterradas en un sitio web, desde detalles de registro y metadatos hasta el código fuente y las configuraciones del servidor.

Un sitio web y sus elementos

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_03-cik-illustration_2.png

Para investigar un sitio web de manera efectiva, necesitarás saber cómo está constituido, esto incluye elementos que son inmediatamente evidentes para las y los visitantes u otros que acechan abajo de la superficie.

Sitio web y página web

Un sitio web está compuesto por páginas web que muestran información, esa información puede incluir el perfil de una empresa, una lista de publicaciones en redes sociales, una descripción de un producto, una colección de fotografías, una base de datos de información legal o casi cualquier otra cosa.

Estas páginas web generalmente pueden ser vistas por cualquier persona con acceso a Internet y un navegador web. Considerado desde otra perspectiva, sin embargo, una página web es realmente sólo un archivo digital almacenado en un disco conectado a una computadora que está enchufada a un tomacorriente y conectada a un cable de red en algún lugar del mundo físico. A veces es útil tener esto en cuenta al investigar un sitio web.

Dirección IP

Para visitar un sitio web, tu dispositivo necesita conocer la dirección del Protocolo de Internet, o la dirección IP, de la computadora que lo aloja. Alojar un sitio web significa ponerlo a disposición del mundo; las computadoras responsables de hacerlo a menudo se denominan servidores.

Una dirección IP generalmente se escribe como una serie de cuatro números, separados por puntos, cada uno de los cuales varía de 0 a 255.

Por ejemplo: 172.217.16.174 es la dirección IP de uno de los servidores que aloja el sitio web «google.com», en el que los visitantes pueden acceder al motor de búsqueda de Google.

En cualquier momento, cada dispositivo que está conectado directamente a Internet, ya sea un servidor web, un servicio de correo electrónico o un enrutador WiFi doméstico, se identifica mediante una dirección IP particular; esto permite que otros dispositivos lo encuentren, soliciten acceso a lo que sea que esté alojando y, en algunos casos, envíen contenido como términos de búsqueda, contraseñas o mensajes de correo electrónico.

Muchos dispositivos, incluida la mayoría de los teléfonos móviles, computadoras portátiles y computadoras de escritorio, se conectan a Internet indirectamente, pueden comunicarse con sitios web y otros servicios, y pueden recibir respuestas, pero muchos otros dispositivos no pueden comunicarse con ellos. En cierto sentido, no están escuchando conexiones. Muchos de estos dispositivos tienen lo que se llama «direcciones IP internas».Esto significa que los dispositivos en la misma red local pueden conectarse directamente a ellos, pero otros no. Si buscas la dirección IP de tu teléfono o computadora portátil, es probable que encuentres una dirección IP interna, pero rara vez encontrarás una asociada a un sitio web.

Nombre de dominio

Como la mayoría de los números largos, las direcciones IP son difíciles de recordar, por lo que tendemos a usar nombres de dominio. Cada nombre de dominio apunta a una o más direcciones IP. En el ejemplo anterior, el nombre de dominio «google.com» dirige a 172.217.16.174 y es mucho más fácil de recordar para la mayoría de las personas que dicho número.

Registradores, registrantes y registro de dominios

Los nombres de dominio son únicos, sólo puede haber un «google.com», por ejemplo. El proceso de compra de un nombre de dominio se llama registro de dominio. Este proceso garantiza que los nombres de dominio sigan siendo únicos y hace que sea más difícil para alguien hacerse pasar por un sitio web que no controla. Cuando alguien registra un nombre de dominio, se crea un registro para realizar un seguimiento de la persona propietaria y administradora oficial de ese dominio (o sus representantes).

Una persona que registra un dominio se llama registrante de dominio, ese registrante o a quien le dan acceso, puede dirigir su dominio a una dirección IP particular, si un servidor web está escuchando en esa dirección IP, nace un sitio web.

Las empresas que manejan el proceso de registro se denominan registradoresde dominio, y casi siempre cobran una tarifa por sus servicios. Ejemplos de registradores son GoDaddy.com, Domain.com y Bluehost.com, entre muchos otros. Estas empresas están obligadas a realizar un seguimiento de cierta información sobre cada uno de sus registrantes.

Una organización sin fines de lucro llamada Internet Corporation for Assigned Name and Numbers (ICANN) rige el proceso de registro de dominio para cada sitio web en el mundo.

Alojamiento web

Sabemos que un sitio web tiene un nombre de dominio y que un nombre de dominio se traduce a una dirección IP, también sabemos que cada sitio web está realmente almacenado en una computadora en algún lugar del mundo físico. La computadora que aloja el sitio web se denomina alojamiento (host) web.

Hay toda una industria de empresas que almacenan y albergan sitios web. Se llaman empresas de alojamiento web, tienen edificios llenos de computadoras que almacenan sitios web, y se pueden ubicar en cualquier parte del mundo. Si bien es más común que los sitios web se alojen en «centros de datos» como estos, en realidad pueden estar alojados en casi cualquier dispositivo con conexión a Internet.


¡La seguridad es lo primero!

Hay muchas formas de describir el uso y la investigación en Internet, muchas de estas descripciones implican «viajar» a algún lugar, por ejemplo «navegar» por Internet o «ir a» un sitio web.

El hecho es que una mejor descripción sería abrir una puerta o marcar un número de teléfono. Cuando marcas un número de teléfono, la persona en el otro extremo puede ver tu número de teléfono. Cuando visitas la dirección IP de un sitio web, el sitio web puede ver tu dirección IP. Cuando abres una puerta para mirar hacia afuera, alguien del otro lado puede mirar hacia adentro. Es importante comprender que cuando visitas un sitio web estás enviando información oculta sobre ti a ese sitio web.

Esa información incluye qué tipo de dispositivo o computadora tienes (iPhone, Samsung, MacBook, etc.), qué sistema operativo estás ejecutando (Windows, MacOS, Linux) e incluso qué fuentes tipográficas has instalado.

Toda esta información se puede utilizar para determinar quién eres, dónde te encuentras e incluso en qué otros sitios web has estado.

Existen herramientas que puedes usar para ver algunos de los datos que compartes con los sitios web que visitas. Con tu navegador web actual, visita las herramientas en línea disponibles a continuación para ver qué información podrías estar filtrando a los sitios web que visitas y las compañías que los poseen.

  • Cover Your Tracks – analiza qué tan bien tu navegador y sus complementos te protegen contra las técnicas de seguimiento en línea. Este sitio también funciona en el navegador Tor.

  • Browser Leaks – muestra una lista de herramientas de prueba de seguridad del navegador web que indican qué datos personales puedes estar filtrando a otros, sin tu conocimiento o permiso, cuando navegas por Internet. Este sitio también funciona en el navegador Tor.

Asegúrate de verificar si hay fugas relacionadas con el protocolo de comunicación web en tiempo real (WebRTC), una tecnología que admite chat de video y audio, y fugas de DNS, que permiten a terceros como tu proveedor de servicios de Internet (ISP) ver qué sitios web visitas y qué aplicaciones usas. Los sitios anteriores también indican si tu dirección IP real es visible o no para los sitios web que visitas.

Después de haber visto algunas de tus debilidades y expresado algunas inquietudes acerca de cómo tu investigación en línea podría exponer tu información o amenazar tu seguridad, ahora puedes dar el siguiente paso, en la sección final - Cómo mantenerse seguro al investigar sitios web - revisamos algunas herramientas y técnicas que puedes usar para protegerte y proteger tus datos al investigar en línea.

Búsqueda básica de WHOIS

Al investigar un sitio web, una de las fuentes de datos más útiles se puede encontrar en los detalles de registro de su dominio.

En el transcurso de tu investigación puede ser relevante saber quién posee un dominio en particular, ya sea una organización o una persona, cuándo fue registrado y por qué registrador, así como otros detalles. En muchos casos, se puede acceder a esta información a través de servicios de terceros que se detallan luego.

Sin embargo, como se mencionó anteriormente, a veces el propietario o propietaria de un dominio no quiere aparecer vinculado al sitio, sea cual sea el motivo, ya sea que no quiera asociarse con el contenido del sitio o simplemente porque desea mantener un cierto grado de privacidad, vale la pena señalar que los dominios pueden registrarse a través de organizaciones proxy o intermediarias que ocultan los detalles completos del registro.

La información recopilada de las y los registrantes de dominio se denomina datos de WHOIS e incluye datos de contacto del personal técnico asignado para administrar el sitio, así como los datos de contacto del propietario o propietaria del sitio o su representante.

Estos datos desde hace tiempo han estado disponibles públicamente en sitios como la búsqueda de WHOIS de ICANN, sin embargo, actualmente hay otros servicios gratuitos o parcialmente gratuitos (algunos tienen tarifas por búsquedas avanzadas y resultados extendidos) que también agregan información de WHOIS y que a menudo proporcionan más detalles e información más precisa y actualizada que ICANN.

Ten en cuenta que si realizas muchas solicitudes de información en un corto período de tiempo, en la mayoría de estos sitios puedes recibir un error y deberás esperar o cambiar a un servicio diferente para continuar tus búsquedas. Del mismo modo, muchos de estos sitios requieren que completes un CAPTCHA (seleccionando varios elementos de las imágenes) para asegurarse de que no eres un robot.

Estos son algunos de los sitios que proporcionan datos útiles de WHOIS de forma gratuita:

Como se mencionó anteriormente, muchos registradores ofrecen la capacidad de actuar como contactos proxy en los formularios de registro de dominio, un servicio conocido como «Privacidad de WHOIS». En tales casos, los dominios registrados con privacidad de WHOIS no enumerará los nombres, números de teléfono, direcciones postales y de correo electrónico reales de la verdadera persona registrante y propietaria del sitio, sino más bien los detalles del servicio de proxy. Si bien esto puede impedir algunas consultas de WHOIS, la herramienta de búsqueda es un recurso poderoso para investigar un dominio.

Ya que diferentes motores de búsqueda devuelven resultados diferentes para la misma consulta dependiendo de sus índices y algoritmos, puede ser que la búsqueda con diferentes servicios de consulta de WHOIS devuelva cantidades variables de detalles sobre el dominio de tu interés. Por lo tanto, consultar con múltiples fuentes siempre que sea posible es una buena manera de asegurarte de recopilar tanta información como sea posible, como es habitual en cualquier estudio de una investigación.

Para ilustrar esto, veamos a qué conduce una búsqueda de «usps.com» (el sitio web del Servicio Postal de los Estados Unidos) en varios servicios de WHOIS.

Una consulta de datos de WHOIS para «usps.com» utilizando la búsqueda de WHOIS de ICANNarroja lo siguiente:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-icann-ups.png Datos de WHOIS de ICANN para «usps.com» el 19 de febrero del 2019

La información que obtenemos sobre la persona registrante es limitada, sólo podemos ver las fechas de creación y vencimiento del dominio, y los detalles del registrador aparecen en lugar de los de la persona registrante.

Para mostrar cómo puede diferir el resultado que arrojan estos servicios, una búsqueda de «usps.com» en https://who.is/ devuelve más información sobre el Servicio Postal, incluyendo una dirección, contacto de correo electrónico y número de teléfono.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whodotis.png Datos de WHOIS en who.is para «usps.com» el 19 de febrero del 2019


Consejo:

Además de las anteriores herramientas de búsqueda de WHOIS, IntelTechniques, el sitio web de Michael Bazzel, un consultor de inteligencia de código abierto, proporciona una lista agregada de herramientas de búsqueda de dominio que te permiten comparar los resultados de búsqueda de varias fuentes de datos de WHOIS. Simplemente revisa el menú de búsqueda de Nombre de dominio en el lado izquierdo. También ten en cuenta que IntelTechniques tiene una amplia oferta de otras herramientas que puedes utilizar en tus investigaciones, como la búsqueda de metadatos de imagen y las herramientas de búsqueda de redes sociales.

Consecuencias del GDPR

El Reglamento General de Protección de Datos (GDPR) de la Unión Europea (UE) ha generado mucha incertidumbre sobre el estado de los registros públicos de WHOIS en la UE porque, en teoría, los datos de WHOIS de las personas propietarias y administradoras de dominios registrados en la UE no deben ser recopilados ni publicados por los registradores. Según el GDPR, se considera información privada.

Sin embargo, ICANN ha demandado a varios registradores europeospor apartarse de su interpretación del GDPR, que tiene un enfoque más relajado de la regulación y permite un acceso limitado a los datos de WHOIS. Incluso después de la implementación del GDPR, ICANN continuó exigiendo a los registradores de la UE que al menos recopilen datos sobre las personas propietarias y administradoras del sitio, aunque no para que estén disponibles al público. La interpretación de ICANN ha sido rechazada repetidamentepor los tribunales, pero su insistencia en que su política para las y los solicitantes de registro de la UE cumple con el GDPR deja muchas preguntas sin respuesta. Lo más probable es que se restrinja la recopilación y el acceso a los datos de WHOIS para las y los solicitantes de registro con sede en la UE.

Incluso en estas condiciones, algunos investigadores e investigadoras están encontrando formas de evitar las restricciones que a veces hacen que los datos de algunos registrantes sean inaccesibles. Esta publicación de GigaLaw, una firma de abogados de EE. UU. especializada en controversias en materia de nombres de dominio, proporciona algunos consejos y técnicas que en ocasiones pueden tener éxito.

WHOIS histórico

Los datos históricos pueden ser una herramienta útil al investigar sitios web, porque pueden rastrear la transferencia de la propiedad de un dominio. También puede ayudar a identificar a los propietarios de sitios web que no han optado sistemáticamente por ocultar sus datos de registro utilizando un servicio de privacidad de WHOIS.


Ejemplo:

Un ejemplo en el que estos datos históricos resultaron útiles fue la investigación de una banda especializada en delitos cibernéticos conocida como Carbanak, que según se cree ha robado más de mil millones de dólares de los bancos. Utilizando los datos históricos proporcionados por DomainTools, un investigador pudo vincular varios sitios revisando sus registros históricos y encontrar cientos de dominios que inicialmente se registraron con el mismo número de teléfono y dirección de correo electrónico de Yahoo. Estos datos de contacto se usaron luego para establecer un vínculo entre Carbanak y una compañía de seguridad rusa.

Para tus propias investigaciones, varias compañías ofrecen acceso a registros históricos de WHOIS, aunque estos registros a menudo pueden estar restringidos a países no pertenecientes a la UE debido al GDPR, como se mencionó anteriormente.

DomainTools

Es quizás la más conocida de estas compañías que ofrecen datos históricos de hosting y WHOIS. Desafortunadamente, estos datos no son gratuitos y DomainTools requiere que te registres como miembro para acceder a ellos.

Whoisology

Es una alternativa a Domain Tools que también proporciona datos históricos de WHOIS, requiere que crees una cuenta tanto para servicios básicos gratuitos como para servicios avanzados tarifados. Existe un límite para la cantidad diaria de búsquedas básicas gratuitas y esta opción sólo te proporciona el último archivo de datos históricos de un sitio web (no el historial completo). Los archivos históricos completos requieren el pago y hay varias tarifas anuales que dependen del número de búsquedas y otras características que ofrece el servicio. Whoisology no funciona con el navegador Tor, y también puede usar CAPTCHA para verificar que eres una persona real que busca información.


¡La seguridad es lo primero!

Si decides configurar una cuenta con estos servicios, puede ser una buena idea crear una nueva dirección de correo electrónico que puedas usar exclusivamente para este propósito. De esta manera, evitas compartir tus datos de contacto habituales y otros datos personales.

Búsqueda inversa de WHOIS

Los directorios telefónicos inversos, que te permitían buscar un número de teléfono para determinar a quién pertenecía, fueron un elemento básico del trabajo de investigación durante años. Estos directorios contenían la misma información que una guía telefónica, pero organizada de manera diferente: las entradas se clasificaban por números de teléfono en lugar de por nombres. Esto permitió a las personas investigadoras hacer referencias cruzadas de números de teléfono con los nombres de las y los titulares de esos números. Si bien los directorios inversos impresos han sido reemplazados por bases de datos en línea (como White Pages Reverse Phone), la necesidad de cruzar información se ha expandido a muchas otras aplicaciones.

En la investigación a menudo se necesita buscar a las y los residentes por domicilio, obtener nombres a partir de direcciones de correo electrónico o encontrar negocios por funcionario, funcionaria o agente de incorporación (una persona o empresa que realiza servicios de constitución de empresas en nombre de las y/o los verdaderos propietarios). Los directorios inversos deben formar parte del conjunto de herramientas de cualquier investigador. La noción de rastrear pequeñas piezas de información hasta sus fuentes es fundamental para la mentalidad investigativa.

Cuando buscas los nombres de dominio registrados a una determinada dirección de correo electrónico, número de teléfono o nombre, se denomina «búsqueda inversa de WHOIS». Varios sitios ofrecen este tipo de búsquedas.

Para identificar a la persona propietaria de un dominio, especialmente cuando esa persona ha tomado algunas medidas para ocultar su identidad, deberás ubicar toda la información sobre el sitio web que se pueda buscar a la inversa. Las herramientas disponibles para cruzar información de un sitio web cambiarán, y la información disponible variará para cada sitio, pero el principio general es coherente. Cuando intentes ubicar a la persona propietaria de un nombre de dominio, concéntrate en localizar información que pueda ayudarte a «revertir» a un propietario o propietaria final.

A continuación algunas herramientas que puedes usar para búsqueda inversa:

ViewDNSinfo

Es gratis y permite búsquedas por correo electrónico o número de teléfono. ViewDNSinfo también proporciona otras opciones útiles, como la búsqueda por persona o empresa, la búsqueda histórica de direcciones IP (lista histórica de direcciones IP en las que se ha alojado un nombre de dominio dado y dónde se encuentra esa dirección IP geográficamente), etc. Ten en cuenta que las personas propietarias de direcciones IP a veces se marcan como “desconocidos” o “desconocidas”, por lo que es conveniente usar varios sitios web para tus búsquedas y combinar los resultados para obtener una imagen más completa. Funciona a través del navegador Tor y no tiene CAPTCHA.

Domain Eye

Puedes registrarte en Domain Eye para obtener 10 búsquedas gratuitas por día. Funciona a través del navegador Tor y no tiene CAPTCHA.

Domain Tools

Un servicio pago sin demostraciones gratuitas disponibles para búsqueda inversa de WHOIS en este momento. Funciona a través del navegador Tor y no tiene CAPTCHA.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-viewdns.png

Ejemplo de búsqueda inversa de WHOIS en ViewDNSinfo basada en la dirección de correo electrónico info@archive.org (usada por Internet Archive), fecha de búsqueda 11 de enero del 2019

Encontrar información con alojamiento compartido y búsqueda inversa de IP

A menudo no es tan simple determinar la propiedad del dominio, especialmente si la persona propietaria ha hecho todo lo posible para ocultar su identidad. En este punto, debemos tratar de ver la situación desde otra perspectiva. Si las consultas de búsqueda directa no brindan resultados provechosos, podemos buscar pistas más pequeñas y menos evidentes analizando datos que de alguna manera están relacionados con el sitio web, pero que puedan no estar conectados de manera obvia o no ser fáciles de recopilar.

Los sitios web están alojados en uno o más servidores, o computadoras que ejecutan aplicaciones de servidor que transmiten el contenido del sitio a las personas visitantes. El alojamiento web tiene un costo, ya sea en forma de una suscripción mensual o en la forma de adquirir y administrar una infraestructura informática física. Para reducir costos, o en ocasiones debido a relaciones previas con administradores web, los sitios web relacionados a menudo comparten hosting. Analizar los otros dominios que comparten el mismo servicio de alojamiento a veces puede arrojar luz sobre la persona propietaria o administradora del sitio que estás investigando.


Nota:

Hay una diferencia entre el propietario del dominio web y su administrador. En ocasiones, una persona administradora registrada puede no ser la propietaria real del dominio. En muchos casos, un punto de contacto técnico puede encargarse de registrar el dominio y administrar la infraestructura del sitio web en nombre de la persona propietaria. Esto no incluye necesariamente la administración y la responsabilidad del contenido del sitio web.

Puedes usar la dirección IP para ver qué otros sitios están alojados en el mismo servidor, esto es útil para identificar sitios web que, dado que están alojados en el mismo servidor, podrían estar relacionados.

ViewDNSinfo

Puedes encontrar resultados completos buscando un nombre de dominio o una dirección IP en la caja de búsqueda de IP inversa de ViewDNSinfo.

Busquemos «tacticaltech.org» y veamos qué otros dominios están alojados en su dirección IP, 213.108.108.217.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-viewdns-reversee.png Ejemplo de búsqueda inversa de IP en ViewDNSinfo para tacticaltech.org

La búsqueda arroja como resultado una lista de 19 dominios alojados en el mismo servidor y que comparten la dirección IP. Sucede que en este caso, todos están relacionados con la misma organización, Tactical Tech. Este no siempre será el caso, ya que a menudo sucede que dominios no relacionados comparten la misma IP del servidor, por lo que se requiere seguir investigando antes de poder concluir que existe una conexión real.

Búsqueda de IP en Bing

Otra forma de crear una lista de sitios que comparten la misma dirección IP es agregando el prefijo «IP:» a tu consulta de dirección IP en el motor de búsqueda Bing, como se ilustra en el siguiente ejemplo.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-reverse-ip.png Usando el prefijo de búsqueda «IP:» de Bing para identificar sitios alojados en las mismas direcciones IP

Vale la pena señalar que, si bien ViewDNS proporciona una lista de dominios, la búsqueda de una dirección IP con el prefijo de búsqueda «IP:» en Bing también devuelve direcciones de página web específicas (como https://myshadow.org/location-tracking, que se muestra arriba). Dados los variados resultados de cualquier conjunto de fuentes, nuevamente debes usar múltiples servicios y comparar los resultados.

Entre los recursos adicionales que ofrecen servicios similares figuran:

Robtext

Este sitio web ofrece información de varias fuentes, que calcula la popularidad de los sitios web, y SEM rush, que da una idea de la probabilidad de que los motores de búsqueda incluyan resultados sobre los sitios web. Algunos servicios son gratuitos, pero puedes comprar crédito para descargar hallazgos más detallados, como informes de WHOIS inversos. Robtext también funciona a través del navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-robtex.png Búsqueda en Robtex.com para tacticaltech.org

Netcraft

Muestra información de dominio, así como otra información que puede ser útil para investigar un sitio web, como los rastreadores web, el historial de alojamiento y la tecnología del sitio. Al buscar un dominio en el recuadro de búsqueda «site contains» aquí: https://searchdns.netcraft.com/, podrás hacer clic en el icono «informe del sitio» para obtener el resultado relevante.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-netcraft.png Resultados del informe del sitio de Netcraft para archive.org

Webhostinghero

Este servicio te muestra qué empresa de alojamiento web está siendo utilizada por un nombre de dominio. Que dos dominios estén alojados en la misma compañía no significa que estén relacionados o tengan la misma persona propietaria. Sin embargo, es común que las y los administradores que administran varios sitios web usen el mismo proveedor de alojamiento por conveniencia, una práctica que podría revelar conexiones. Webhostinghero también funciona a través del navegador Tor.

En algunos casos, las y los administradores no utilizan proveedores de alojamiento, sino que alojan sus sitios web de forma independiente, ya sea desde su propio centro de datos, oficina o incluso desde su hogar. En estos casos, puede ser más sencillo identificar conexiones entre los sitios web allí alojados.

Otros servicios similares son: https://www.whoishostingthis.com/ y https://hostingchecker.com/, ambos funcionan a través del navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-webhosting-hero.png Captura de pantalla:webhostinghero

Built With

Los sitios web que comparten una persona propietaria a menudo se diseñan y alojan utilizando el mismo software. BuiltWith escaneará un sitio web e intentará determinar las tecnologías web en las que se basa el sitio, luego puedes buscar en otros sitios que sospeches que podrían estar relacionados y buscar similitudes. Si encuentras una coincidencia, puedes usar las otras herramientas presentadas aquí para encontrar evidencia adicional de la existencia de una conexión.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-builtwith-siab.png Resultados de búsqueda en BuiltWith para securityinabox.org

Descubrir información útil en el código fuente de una página web

Una página web que ves en tu navegador es una traducción gráfica de código, las páginas web a menudo se escriben en texto sin formato utilizando una combinación de lenguajes de secuencias de comandos como HTML (HyperText Markup Language) y JavaScript, entre otros.

Juntos, estos se conocen como el código fuentede un sitio web, que incluye tanto contenido como un conjunto de instrucciones, escritas por programadores, que aseguran que el contenido se muestre como estaba previsto.

Tu navegador procesa estas instrucciones detrás de escena y produce la combinación de texto e imágenes que ves al acceder a un sitio web, con un simple paso adicional, tu navegador te permitirá ver el código fuente de cualquier página que visites.

Puedes probar, abre tu navegador y echa un vistazo al código fuente de un sitio web que te interese. Por lo general, puedes hacer clic derecho en la página y seleccionar «Ver código fuente de página». En la mayoría de los navegadores Windows y Linux, también puedes presionar “CTRL + U”. Para obtener instrucciones de Mac y consejos adicionales, consulta esta guía sobre cómo leer el código fuente(también accesible a través del navegador Tor)


Por ejemplo:

Así se ve parte del código fuente del sitio web de la Casa Blanca https://www.whitehouse.gov, que puedes revelar haciendo clic derecho con el cursor y seleccionando «Ver código fuente»:

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whitehouse-sourcecode.png Ejemplo de código fuente

Si nunca antes has visto el código fuente de un sitio, es posible que te sorprenda la cantidad de información que se transmite a tu computadora que no aparece cuando ves la página en tu navegador.

Por ejemplo, puede haber comentarios de quien escribió el código fuente, estos comentarios solamente son visibles cuando ves la fuente; nunca se muestran en la página representada (es decir, la página que se ha traducido a gráficos y texto). Los comentarios comienzan con, que indica que lo que sigue es un comentario y no se debe mostrar en la página. Terminan con, que señala el final del comentario.

Los comentarios a menudo se escriben en lenguaje sencillo y a veces proporcionan pistas sobre quién mantiene un sitio web; también pueden incluir notas personales o revelar información como una dirección o designación de derechos de autor.

Descubrir conexiones con el ID de Google Analytics a la inversa

Hay numerosas cosas que puedes descubrir a partir del código fuente de una página, pero un buen ejemplo es el código que ayuda a las personas propietarias y administradoras del sitio web a monitorear el tráfico que recibe un sitio web. Uno de los servicios más populares es Google Analytics, https://analytics.google.com.

Los sitios relacionados a menudo comparten un ID de Google Analytics. Debido a que Google Analytics permite que varios sitios web sean administrados por una cuenta de monitoreo de tráfico, puedes usar sus números de identificación para identificar dominios que podrían estar conectados por una persona propietaria o administradora compartida.

Los sitios que usan Google Analytics insertan un número de identificación en su código fuente, todOs los ID de Google Analytics comienzan con «UA-» seguidos de un número de cuenta. Se parecen un poco a esto: «UA-12345678-2».


Por ejemplo:

Para seguir con el ejemplo anterior de la Casa Blanca, el ID de Google Analytics para http://www.whitehouse.gov es «UA-12099831-10». Puedes descubrirlo tú mismo siguiendo estos pasos mientras estás en el sitio web:

  • Ve al código fuente del sitio web haciendo clic derecho y seleccionando «Ver código fuente», como se indicó anteriormente,

  • Abre un recuadro de búsqueda con «Ctrl-F» o «Comando-F» mientras estás en el código fuente de la página,

  • Busca «UA-» escribiéndolo en el recuadro de búsqueda; encontrarás el código de Google Analytics del sitio «UA-12099831-10».

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-whitehouse-analytics.png Ejemplo de Código Analytics de la Casa Blanca whitehouse.gov

El número después del primer guión (-12099831) es el número de cuenta de Google Analytics de la Casa Blanca. El número al final (10, en este caso) indica cuántos sitios web diferentes dependen de esa misma cuenta para rastrear visitantes.

¿Cómo es posible administrar varios sitios web en una cuenta de Google Analytics? Puedes usar los números de identificación de Google Analytics para identificar dominios que pueden estar conectados por un propietario o administrador compartido.

Existen varias herramientas de búsqueda inversa que te permiten ubicar sitios que comparten un ID de Analytics determinado. Algunos ejemplos son:

  • DNSLytics – Se puede buscar por nombre de dominio, dirección IP o ID de Analytics. También funciona a través del navegador Tor.

  • DomainIQ – Se puede buscar por nombre de dominio o ID de Analytics. No funciona a través del navegador Tor.

Como de costumbre, es recomendable buscar el mismo ID de Google Analytics en varios de estos sitios web, ya que los resultados tienden a variar.


Nota:

A veces, un sitio web puede copiar el código fuente de otro incluso si no están realmente relacionados, esto conducirá a resultados engañosos al buscar el ID de Google Analytics. Las búsquedas inversas de ID de Google Analytics siempre deben tratarse como una posible pista y no como una evidencia sólida. Esta técnica puede ser útil pero vale la pena destacar la importancia de verificar múltiples fuentes antes de sacar conclusiones.

Por ejemplo, en el caso anterior la búsqueda del ID de la Casa Blanca (UA-12099831-10) con cualquiera de estos servicios devolverá una lista de sitios que comparten el mismo ID de Google Analytics con el sitio web de la Casa Blanca, ten en cuenta también que los resultados tienden a diferir de un servicio a otro; algunos devolverán más sitios y otros menos, así que busca en muchos para recopilar una lista exhaustiva de resultados. Si haces este ejercicio, notarás que es probable que haya varios sitios web no relacionados con el sitio oficial de la Casa Blanca que también aparecen en la lista, algunos son sitios de parodia, otros son sitios de juegos, etc. Aunque esto resulta extraño al principio, la explicación es bastante simple: el código fuente de la Casa Blanca se ha copiado y replicado sin eliminar el ID de Google Analytics. Por lo tanto, no todos los sitios enumerados están relacionados en este caso. También vale la pena señalar que los sitios web no relacionados en realidad no están utilizando el ID de Google Analytics de la Casa Blanca y sus sitios genuinamente relacionados, simplemente lo están mostrando.

¿Cómo pueden estas búsquedas ayudar a una investigación?

Si la persona propietaria o administradora de un sitio web oculta su identidad en un sitio, es posible que no haya tomado medidas similares en todos los sitios que administra o posee. Enumerar estos sitios mediante la búsqueda inversa de los ID de Google Analytics puede ayudarte a localizar sitios web relacionados que pueden ser más fáciles de identificar.


Ejemplo:

En un artículo del 2011, el columnista de Wired Andy Baio reveló que de una muestra de 50 blogs anónimos o con seudónimos que investigó, el 15 por ciento compartía su ID de Google Analytics con otro sitio web. Este hallazgo resultó provechoso para desenmascarar sitios anónimos; De la muestra de 50, Baio afirmó haber identificado a siete de los bloggers en 30 minutos de búsqueda. La historia completa está disponible aquí.

Intentemos un ejercicio y veamos si el sitio web Our Revolution usa Google Analytics para monitorear el tráfico.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-ourrevolution.png Captura de pantalla de «Ourrevolution.com»

Para determinar si «Our Revolution» tiene un ID de Google Analytics, tenemos que ver el código fuente como se describió anteriormente.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-ua-example.png Código fuente de «ourrevolution.com»

Luego, podemos usar una de las herramientas de búsqueda inversa mencionadas anteriormente para ver si otros sitios están usando el mismo ID de Google Analytics. En DNSlytics, por ejemplo, elige Reverse Analytics en el menú de navegación superior de Reverse Tools.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnslytics.png Búsqueda por ID de Google Analytics en DNSlytics

Además del dominio «Our Revolution» donde encontramos el ID de Analytics, la búsqueda devuelve otro nombre de dominio: «Summer for Progress» - https://web.archive.org/web/20190831040944/https://summerforprogress.com/ (el sitio web archivado como el sitio web real «https://summerforprogress.com/» está fuera de línea a partir de 2023»).

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnslytics-reverse.png Resultados de la búsqueda por ID de Google Analytics en dnslytics.com

Análisis de metadatos

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_01-cik-illustration_small.png

Cuando alguien crea un archivo (como un documento, PDF u hoja de cálculo) en su computadora, los programas que usa incorporan automáticamente información en ese archivo. Podemos considerar «datos» al contenido que ves en un archivo: las palabras en un documento, los cuadros en un PDF, los números en una hoja de cálculo o los elementos de una fotografía.

Por otro lado, la información incorporada automáticamente se denomina «metadatos»; Los ejemplos de metadatos pueden incluir el tamaño del archivo, la fecha en que fue creado o la fecha en que se modificó o accedió por última vez. Los metadatos también pueden incluir el nombre del autor o autora del archivo o el nombre de la persona propietaria de la computadora utilizada para crearlo. Hay muchos tipos de metadatos, aquí veremos cómo encontrar y dar sentido a varios ejemplos que son útiles para las investigaciones.

Con los documentos, incluso si los metadatos no siempre identifican la autoría o la persona creadora de un archivo (si toman medidas para mantener oculta esta identidad, por ejemplo, al eliminar metadatos como el nombre o las fechas); aún así, a menudo proporcionan pistas sobre su identidad u otros hechos importantes sobre ellas o los dispositivos y software que utilizaron para trabajar en esos archivos.

Una situación similar ocurre cuando tomamos fotografías: los archivos de imagen que producen nuestras cámaras a menudo contienen un tipo de metadatos llamado EXIF (formato de archivo de imagen intercambiable). Los metadatos EXIF pueden revelar información relacionada con cuándo y dónde se tomó la fotografía: hora, fecha, ubicación GPS (Satélite de posición global), etc.

Las personas usuarias pueden eliminar manualmente esta información potencialmente identificable, y muchas aplicaciones y sitios web borran metadatos de los archivos cargados para proteger a sus usuarios y usuarias. Sin embargo, en algunos casos, los metadatos EXIF que permanecen en la versión final de una fotografía pueden terminar revelando pistas sobre la identidad de la persona fotógrafa, ubicaciones, fechas y otra información que puede ayudarte a llenar los espacios que faltan en tu investigación.


Ejemplo:

Por ejemplo, el asesino en serie estadounidense Dennis Rader fue arrestado después de enviar un disco que contenía documentos de su iglesia a una organización de noticias. Los documentos contenían metadatos que identificaban a su autor. Aquí hay un artículo en The Atlantic que muestra cómo sucedió.

Con esto en mente, si no puedes encontrar al propietario de un nombre de dominio a través de los medios y herramientas presentados anteriormente, puede ser útil descargar todos los documentos de texto, hojas de cálculo, PDF y otros archivos alojados en el sitio. A partir de ahí, puedes analizar los metadatos de los documentos y buscar el nombre de un autor o autora u otros detalles de identificación; Puedes hacerlo comprobando las propiedades de los documentos después de descargarlos. Sin embargo, ten en cuenta que documentos como estos a veces contienen malware que puede ponerte en riesgo a ti y a aquellas personas con quienes trabajas. Para evitar esto, no debes abrirlos con un dispositivo que utilices para ningún otro fin (laboral o personal) o que esté conectado a Internet.


¡La seguridad es lo primero!

Abrir archivos descargados de fuentes desconocidas.

Algunas personas investigadoras mantienen aparte una computadora portátil que usan solamente para abrir archivos no confiables. Estos dispositivos a menudo se denominan computadoras «con espacio de aire» porque, una vez que se configuran, nunca se conectan a Internet.

Como alternativa, puedes reiniciar tu computadora desde una memoria USB que contenga el sistema operativo Tails cuando necesites analizar documentos sospechosos, incluso si un documento contiene malware que afecte a Tails, cualquier daño que pueda causar será irrelevante una vez que la reinicies en su sistema operativo normal. Y la próxima vez que reinicies en Tails, tendrás un sistema limpio una vez más. Sin embargo, Tails se basa en el sistema operativo GNU / Linux, por lo que conlleva un ciclo de aprendizaje.

Para utilizar cualquiera de estas técnicas, necesitarás una memoria USB o un disco duro externo para poder transferir los archivos en cuestión.

Finalmente, si no te preocupa asociarte con los documentos o exponer tus contenidos a Google (o a cualquier persona con autoridad para acceder a las cuentas de Google de otras personas), puedes cargarlos en Google Drive y buscar metadatos usando Google Docs. ¡No te preocupes, Google es bastante bueno protegiendo sus servidores del malware!

No todos los documentos contendrán metadatos, en primer lugar, no siempre están insertados, y el creador o creadora puede eliminarlos o modificarlos fácilmente, al igual que cualquier otra persona con capacidad de editar el documento; además, no todos los metadatos se relacionan con el autor o autora original. Los documentos cambian de manos y a veces se crean en dispositivos que pertenecen a personas distintas del autor.

Nuevamente, cualquier información que encuentres debe ser verificada y corroborada desde múltiples fuentes. A pesar de eso, los metadatos podrían proporcionar pistas adicionales o ayudarte a confirmar otra evidencia que ya hayas encontrado.


Caso de estudio

Además de ayudarte a identificar a la verdadera persona propietaria de un documento o sitio web, los metadatos también pueden proporcionar pistas sobre contratos de trabajo y otras afiliaciones y conexiones. Por ejemplo, un escritor de Slate analizó los archivos PDF encontrados en un sitio web político conservador administrado por la ex personalidad de los medios >estadounidenses Campbell Brown y descubrió que todos ellos fueron escritos por personal que trabajaba para un grupo político de derecha independiente. El vínculo entre estos dos grupos no se conocía hasta que se realizó el análisis de metadatos. La historia completa está disponible aquí (documento archivado aquí).

Veamos cómo se puede replicar este hallazgo.

El PDF descrito en este artículo se encontró originalmente en el siguiente sitio web: commonsensecontract.com en la dirección web:

http://commonsensecontract.com/assets/downloads/Rewards_for_Great_Teachers.pdf. Desde entonces ha sido eliminado y de hecho ese nombre de dominio ahora dirige a un sitio web completamente diferente: http://commonsensecontract.com. Todavía puedes encontrar el original archivado en la Wayback Machine de Internet Archive.

Para más información sobre la Wayback Machine, consulta nuestro recurso sobre «Recuperación y archivo de información de sitios web.»

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-archived-commonsense.png Página web archivada de «commonsensecontract.com»

Puedes seguir los pasos a continuación para examinar los metadatos en cuestión. Pero primero:

  • Recomendamos utilizar un visor de documentos en línea para evitar exponerte a cualquier malware que pueda estar al acecho en los documentos en línea que descargues. (No encontramos ningún malware en este documento, ni es particularmente sensible, pero es mejor prepararse para lo peor).

  • Si estás utilizando un visor de documentos en línea que requiere que inicies sesión, como Google Docs, te recomendamos que crees una cuenta separada en ese servicio. Esto te ayudará a evitar asociar tus actividades de investigación con tu perfil personal en línea. En el siguiente ejemplo, utilizaremos un servicio en línea simple que no requiere una cuenta.

  • Ten en cuenta que estás mostrando este documento y sus metadatos a quien administra el servicio que utilizas. Ellos, a su vez, podrían compartirlo o publicarlo. Si eso no es aceptable, es posible que tengas que usar una de las otras técnicas mencionadas en las secciones de «La seguridad primero» de este Kit.

Para ver los metadatos en este PDF:

  1. Navega a la Wayback Machine - https://archive.org/web/

  2. Busca la dirección web original: http://commonsensecontract.com/assets/downloads/Rewards_for_Great_Teachers.pdf

  3. Haz clic en el año 2014

  4. Haz clic en uno de los puntos azules en el calendario (el de mayo o uno de los dos de setiembre)

  5. Haz clic en el enlace de descarga en la esquina superior derecha de la pantalla

  6. Guarda el PDF en algún lugar del dispositivo, pero no lo abras aún

  7. Navega al lector de PDF en línea (también funciona en el navegador Tor y no tiene CAPTCHA)

  8. Haz clic en el botón «Start Online PDF Read» (empezar lectura en línea del PDF)

  9. Cargar el archivo Rewards_for_Great_Teachers.pdf

  10. Haz clic en el enlace Documentos Propiedades de «Rewards_for_Great_Teachers.pdf» en la esquina superior izquierda de la pantalla

  11. Observa que el autor aparece como Elizabeth Vidyarthi.

Revelar contenido web oculto

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Investigating-Websites_Breakdown_02-cik-illustration_2.png

Casi todos los sitios en Internet ocultan algo (y a menudo, muchas cosas) a las personas que los visitan, intencionalmente o no. Por ejemplo, los sistemas de gestión de contenido empleados por la mayoría de los sitios ocultan los archivos internos utilizados para generar publicaciones y mantener el sitio web. Las bases de datos que almacenan datos para sitios y aplicaciones generalmente están ocultas al acceso público; Las cookies y otros datos del lado del cliente, si bien son accesibles y legibles para una persona usuaria conocedora, se ocultan a la vista de las y los usuarios promedio, se almacenan y procesan automáticamente en segundo plano.

Existen herramientas y técnicas simples que permiten a cualquiera acceder a dicha información sin hacer nada sospechoso. Estos son sólo pequeños trucos que te permiten ver de qué está hecho un sitio web y qué datos adicionales podría revelarte, acceder a dicha información puede ser útil cuando se investiga un sitio web para determinar sus propietarios o para identificar conexiones a otros sitios, también puede ayudarte a obtener detalles de contacto u otras pistas potenciales para tu investigación.

Robots.txt

Los sitios web indican cómo los scrapers (extractores) y los motores de búsqueda deben interactuar con su contenido mediante el uso de un archivo llamado «robots.txt». Este archivo permite a las y los administradores del sitio solicitar que los extractores, indexadores y rastreadores limiten sus actividades de ciertas maneras (por ejemplo, algunos no quieren que se extraiga información y archivos de sus sitios web).

Los archivos robots.txt enumeran archivos particulares o subdirectorios, o sitios web completos, que están fuera del alcance de los «robots». Como ejemplo, esto podría usarse para evitar que los rastreadores de la Wayback Machine archiven todo o parte del contenido de un sitio web.

Algunas personas administradoras pueden agregar direcciones web confidenciales a un archivo robots.txt en un intento de mantenerlos ocultos, este enfoque puede ser contraproducente, ya que el archivo en sí es de fácil acceso, generalmente agregando «/robots.txt» al nombre de dominio.

Asegúrese de revisar el archivo robots.txt de los sitios web que investiga, por si acaso enumere los archivos o directorios que los administradores de los sitios desean ocultar. Si un servidor está configurado de forma segura, las direcciones web enumeradas pueden estar bloqueadas. Sin embargo, si son accesibles, pueden contener información valiosa.

Cada subdominio es administrado por su propio archivo robots.txt, los subdominios tienen direcciones web que incluyen al menos una palabra adicional delante del nombre de dominio. Por ejemplo, el propio Internet Archive tiene al menos dos archivos robots.txt: uno para su sitio principal, https://archive.org/robots.txt, y otro para su blog, en https://blog.archive.org/robots.txt.

Vale la pena señalar que los archivos robots.txt no están destinados a restringir el acceso de las personas mediante navegadores web; Además, los sitios web rara vez aplican estas restricciones, por lo que los recolectores de correo electrónico, los robots de spam y los rastreadores maliciosos a menudo los ignoran, sin embargo, si estás extrayendo datos de un sitio web utilizando herramientas automatizadas, se considera de buena educación cumplir con las directivas que puedas encontrar en un archivo robots.txt.


Ejemplo:

Como prueba, podemos acceder al archivo robots.txt del Consejo de Normas de Seguridad de la Industria de Tarjetas de Pago.

Este es un ejemplo interesante, no porque el Consejo esté tratando de ocultar nada, sino porque su archivo robots.txt, pcisecuritystandards.org/robots.txt / archivado aquí, incluye una serie de archivos digitales, incluidos documentos de Word, PDF y hojas de cálculo, ninguno de los cuales aparecerán en resultados de búsqueda regulares:

![](https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/> web-robots-txt.png) Captura de pantalla de robots.txt

Para visitar una página web o descargar un documento que encuentres de esta manera, simplemente copia la dirección web parcial en el lado derecho de la restricción «Disallow:» (no permitir:) y pégala en la barra de direcciones de tu navegador después del nombre de dominio. En este caso, puedes descargar el archivo «SAQ_C_V3.docx» que ves en la imagen, por ejemplo, utilizando la siguiente dirección web: https://www.pcisecuritystandards.org/SAQ_C_v3.docx.

A menudo, se podrá acceder a dichos archivos a través del sitio web, por lo que esto podría ser un acceso directo; Sin embargo, en algunos casos, puedes tropezar con páginas o archivos que la persona administradora de un sitio web intentaba ocultar.

Recuerda: los archivos digitales pueden contener malware, así que ten cuidado al abrirlos, considera utilizar un visor de documentos en línea a menos que te preocupe compartir el contenido de esos documentos con quien opera tu servicio de visualización de documentos.

Sitemap.xml

Los archivos de mapa del sitio son algo opuesto a los archivos robots.txt. Las personas administradoras del sitio los utilizan para informar a los motores de búsqueda acerca de las páginas de su sitio que están disponibles para el rastreo. Los sitios web a menudo usan archivos de mapa del sitio para enumerar todas las partes del sitio que quieren que se indexen y con qué frecuencia desean que se actualicen los índices de los motores de búsqueda.

Al igual que los archivos robots.txt, los mapas del sitio se encuentran en la carpeta o directorio superior del sitio web (a veces llamado el directorio «raíz»).

Para sitios web grandes y complejos, el mapa del sitio a menudo enlaza con otros archivos de Lenguaje de Marcado Extensible (XML), que a veces están comprimidos o «zipeados», cuando estos archivos son accesibles, a veces dirigen a secciones del sitio web que pueden ser interesantes.

El resultado son a veces URL que normalmente no aparecen en las búsquedas, y puedes explorarlos manualmente.

Para acceder a los mapas de sitio, debes agregar «/sitemap.xml» al nombre de dominio. No todos los sitios tendrán un archivo sitemap.xml accesible.

El sitio de investigaciones de código abierto con sede en el Reino Unido Bellingcat tiene uno al que puedes acceder escribiendo https://www.bellingcat.com/sitemap.xml en la barra de direcciones de tu navegador (tenga en cuenta que «sitemap.xml podría no funcionar en todos los navegadores). Obtendrás una lista de archivos xml, como se ve a continuación.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-sitemap.png Ejemplos de mapa de sitio de bellingcat.com

Puedes hacer clic en cualquiera de las direcciones enumeradas para ver qué contienen. En este ejemplo podemos acceder a https://www.bellingcat.com/attachment-sitemap1.xml

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-sitemap2.png Ejemplos de mapas de sitio para www.bellingcat.com/attachment-sitemap1.xml

Enumeración de subdominio

Un subdominio es un identificador adicional, normalmente se agrega antes de un nombre de dominio, que representa una subcategoría de contenido. Por ejemplo, «google.com» es un nombre de dominio, mientras que «translate.google.com» es un subdominio.

Los sitios web a menudo tienen subdominios no listados que sus administradores creen que son privados, estos subdominios ocasionalmente dirigen a contenido inconcluso o contenido destinado a una audiencia interna; Esto podría incluir subdominios de desarrollo utilizados por los programadores para probar nuevo contenido, páginas de eventos con enlaces a materiales distribuidos en conferencias o páginas de inicio de sesión para correo web interno.

Muchos subdominios no son interesantes desde el punto de vista investigativo, pero algunos pueden revelar detalles ocultos sobre el tema de investigación que no son fácilmente accesibles a través de la búsqueda básica en línea.

Aquí hay algunas herramientas y técnicas que puedes usar al investigar subdominios de sitios web:

DNSDumpster

DNSDumpster proporciona datos similares sobre subdominios, ubicaciones de servidores y otra información de dominio. Al igual que FindSubdomains.com, no escanea activamente el sitio web cuando solicitas esta información, lo que significa que el sitio web que estás investigando no puede rastrear tus búsquedas. También funciona a través del navegador Tor.

https://cdn.ttc.io/i/fit/800/0/sm/0/plain/kit.exposingtheinvisible.org/web-dnsdumpster.png Ejemplo de subdominio para tacticaltech.org vía DNSDumpster.com

Aunque ya hemos revisado muchas herramientas y métodos, hay mucho más para aquellos apasionados y apasionadas por las investigaciones en línea. Para obtener más consejos y técnicas relacionadas con el descubrimiento de contenido oculto de un sitio web, echa un vistazo a otro recurso del Kit: « Busca de forma más inteligente con Dorking».


¡La seguridad es lo primero!

CÓMO MANTENER LA SEGURIDAD AL INVESTIGAR SITIOS WEB

Buscar y recopilar información sobre la propiedad del dominio, el historial, el código fuente del sitio web, los metadatos y muchos otros elementos que pueden ayudarte a construir tu evidencia al investigar sitios web, implica navegar por una gran cantidad de herramientas y servicios en línea. Algunos de estos funcionan con el navegador Tor y eso te permite proteger tu privacidad hasta cierto punto. Otros no sólo no trabajan con Tor, sino que también requieren que te registres con una dirección >de correo electrónico, nombre y otros datos personales.

Aquí hay algunas sugerencias de herramientas y técnicas de seguridad digital que puedes utilizar para proteger tu privacidad, así como la seguridad de tus dispositivos y datos al investigar en línea.

CUENTAS

Algunos servicios requieren que las personas usuarias creen una cuenta, elijan un nombre de usuario, proporcionen información de pago, verifiquen direcciones de correo electrónico o asocien un perfil de redes sociales para obtener acceso a la información en sus plataformas.

Deberías considerar crear un conjunto separado de cuentas para usar con servicios como estos, con el fin de compartimentar (separar) tu trabajo de investigación de tu identidad personal en línea.

En algunos casos, es posible que incluso desees crear una «identidad» de uso único para una investigación en particular y deshacerte de ella una vez que se haya realizado la investigación.

De cualquier manera, tu primer paso será crear una cuenta de correo electrónico compartimentada relativamente segura, puedes hacerlo con bastante facilidad con Tutanota tutanota.de o Protonmail protonmail.com.

NAVEGADORES

Como alguien que busca descubrir verdades ocultas, probablemente ya uses Internet para tu comunicación personal y para algunas de tus investigaciones.

Es una buena idea utilizar diferentes navegadores para tu investigación y para la navegación web informal, al hacerlo estás practicando la «compartimentación», identificando un navegador para investigación y otro para todo lo demás. Es como clasificar las cosas en dos cajas o compartimentos diferentes.

Te recomendamos que elijas un navegador «consciente de la privacidad» para tu investigación y evites iniciar sesión en el correo electrónico basado en la web y las redes sociales en ese navegador. El uso de un navegador con privacidad evitará que muchos de tus datos personales se envíen a los sitios que visitas.

Antes de usar cualquiera de las herramientas en línea de las que hablamos aquí o en el Kit en general, es una buena idea descargar e instalar uno de estos navegadores. Luego, agrega una capa adicional de seguridad probando el navegador con herramientas como Browser Leaks, Cover Your Tracks u otras similares. Los resultados de lo que ves deberían ser diferentes de cuando visitas >Browserleaks o Panopticlick con un navegador normal, lo que generalmente revela más debilidades.

Estos son algunos ejemplos de herramientas que pueden ayudarte a proteger tu privacidad mientras investigas en línea, con algunas de las ventajas y desventajas de usarlas.

Navegador Tor

Pros: Este es el mejor navegador con privacidad. El código ha sido publicado abiertamente para que cualquiera pueda ver cómo funciona. Tiene una forma integrada de cambiar tu dirección IP y encriptar tu tráfico.

Contras: Hay lugares en el mundo donde el uso del navegador Tor está bloqueado o prohibido. Si bien hay formas de evitar estos bloqueos, como los puentes Tor, el uso de Tor también puede señalar tu tráfico como sospechoso en dichos lugares.

¿Qué pasa si no puedo usar el navegador Tor? Hay casos en los que el navegador Tor podría no ser el mejor para ti; aquí hay algunas otras opciones, estos otros navegadores no están al mismo nivel que Tor, pero se pueden aceptar. Asegúrate de probar siempre el navegador que elijas en Browserleaks, Panopticlick u otras herramientas similares.

NOTA - El sitio web Security-in-a-Box de Tactical Tech incluye guías detalladas sobre cómo permanecer anónimo y eludir la censura en internet usar el navegador Tor en Linux, Mac y Windows, entre otros.

Firefox

Pros: Firefox bloquea los rastreadores y las cookies con una configuración llamada «Protección de seguimiento mejorada», que se activa automáticamente cuando configuras «Bloqueo de contenido» en modo «estricto».

Contras: Debes activar esta opción, está desactivada de manera predeterminada. Cuando usas Firefox, es importante recordar que tu dirección IP aún es visible para los sitios que visitas. WebRTC está habilitado de manera predeterminada y puede filtrar tu dirección IP real, incluso si estás utilizando, por ejemplo, una VPN.

Brave

Pros: Brave intenta proteger la privacidad sin la necesidad de activar opciones o agregar complementos o extensiones. Brave tiene una configuración de seguridad para borrar todos los datos privados cuando el navegador está cerrado. Tiene una función llamada «Escudos» donde puedes bloquear anuncios y rastreadores. Brave también te permite crear una nueva «Pestaña privada con Tor», que utiliza la red Tor para proteger tu dirección IP (el uso regular no la protegerá). Esto incluso te >permite visitar sitios de servicios ocultos de Tor, que son sitios que terminan en .onion y están configurados para que sólo los navegadores habilitados con Tor tengan acceso seguro. Si encuentras una página web que bloquea Tor, puedes decidir si visitarla o no con Tor desactivado.

Contras: Brave tiene una función llamada «pagos» o «pagos Brave»: esto es para aquellos que desean donar a los creadores de contenido o sitios web a los que acceden a través de Brave (una parte de los pagos va al navegador para mantener sus operaciones). Es importante mantener esta opción desactivada ya que envía datos que podrían usarse para identificarte. Cuando uses Brave, debes usar la función «Pestaña privada con Tor» para proteger tu dirección IP.

Epic Browser

Pros: El navegador Epic tiene una tecnología incorporada para ocultar tu dirección IP llamada proxy cifrado.

Contras: Epic es sólo para Mac y PC, no para Linux.

Waterfox y Palemoon

Pros: Estos son dos proyectos diferentes basados en Firefox, pero han eliminado el código que puede enviar información a Mozilla, el propietario de Firefox.

Contras: Estos navegadores se basan en versiones anteriores del código de Firefox. Palemoon no está disponible para computadoras Apple. Cuando usas Waterfox o Palemoon, es importante recordar que tu dirección IP todavía se filtra a los sitios que visitas.

DuckDuckGo

Pros: Este es un motor de búsqueda con privacidad (no un navegador) que afirma no recopilar ningún dato personal sobre sus usuarios. Puedes usar DuckDuckGo en combinación con el navegador Tor para preservar aún más tu privacidad.

Contras: DuckDuckGo guarda tus consultas de búsqueda, pero no recopila datos que puedan identificarte personalmente.

REDES PRIVADAS VIRTUALES (VPN)

A menos que estés utilizando el navegador Tor, te recomendamos que utilices siempre una red privada virtual (VPN) cuando realices tu investigación.

Hemos explicado que visitar un sitio web es como hacer una llamada telefónica, el sitio web que estás visitando puede ver tu «número», tu dirección IP, lo que puede usarse para mapear de dónde vienes.

Para ilustrarlo, si estás investigando una corporación y visitas con frecuencia la página de su junta directiva, una página que generalmente recibe muy poco tráfico, tus visitas repetidas desde tu ubicación específica pueden hacer que la compañía esté al tanto de tu investigación.

Una forma de evitar que te identifiquen en esta situación es disfrazar tu dirección IP. Esto es lo que hace una VPN: en lugar de ver tu dirección IP real, los sitios que visites verán la IP del proveedor de VPN.

Puedes pensar en la VPN como un túnel de concreto entre tú y el sitio que deseas visitar; La VPN crea un túnel alrededor de tu tráfico para que no se pueda observar desde el exterior, y lo enruta a través de un servidor intermediario propiedad de tu proveedor, para que tu tráfico se dirija a cualquier sitio que visites como si viniera de un lugar diferente de donde en realidad estás. Ni el navegador web, ni tu proveedor de servicios de Internet ni el sitio que visitas verán tu IP ni podrán >identificarte, los sitios sólo verán que tu tráfico proviene de la dirección IP de tu proveedor de VPN.

Hay muchas opciones de VPN y puede ser confuso decidir cuál elegir. Para generar más confusión, la mayoría de las reseñas y listados de VPN no son independientes, algunos son tendenciosos. Detectives de Seguridad es un sitio de revisión de VPN que puede consultar, entre muchos otros. Consulte también esta guía (más antigua pero aún relevante) sobre [cómo elegir una VPN] (https://web.archive.org/web/20230314120534/https://thatoneprivacysite.xyz/choosing-the-best-vpn-for -usted/) «Ese único sitio de privacidad» (este sitio ya no se actualiza).

Se recomienda elegir una compañía VPN que afirme que no guardan registros de tu tráfico.

Si bien la mayoría de las VPN gratuitas deben evitarse porque a menudo financian su operación vendiendo sus datos de registro (registros de los sitios que visitan las personas usuarias a través de la VPN), hay algunas de buena reputación que podemos respaldar, tales como:

Publicado en abril del 2019 / Actualizado en marzo de 2023

Recursos

Artículos y guías

Herramientas y Bases de datos

  • IntelTechniques de Michael Bazzell. Un recurso en código abierto sobre inteligencia y análisis forense digital con herramientas, guías y consejos útiles para investigar sitios web y personas en línea.

  • ICANN Whois, de la Corporación de Internet para nombres y números asignados. La herramienta oficial de búsqueda Whois de ICANN para sitios web registrados en todo el mundo.

  • Cover Your Tracks, de la Electronic Frontier Foundation. Una herramienta en línea que analiza qué tan bien tu navegador y complementos te protegen contra las técnicas de seguimiento en línea.

Glosario

term-algorithm

Algoritmo: Una secuencia establecida de pasos para resolver un problema particular.

term-api

API: Significa interfaz de programación de aplicaciones, por la cual una plataforma puede hacer que sus datos sean accesibles a desarrolladores externos de forma gratuita o bajo ciertas condiciones o tarifas. (no utilizado)

term-bandw

Bandwidth / Ancho de banda: en informática, la tasa máxima de transferencia de información por unidad de tiempo, a través de una ruta determinada.

term-bot

Bot: También llamado robot web o bot de internet, es una aplicación de software que ejecuta tareas automatizadas en internet. Por ejemplo, un bot de Twitter que publica mensajes automáticos y noticias.

term-extension

Browser extension / Extensiones del navegador: también llamados complementos, son pequeñas piezas de software que se utilizan para ampliar las funcionalidades de un navegador web. Estas pueden ser desde extensiones que permiten tomar capturas de pantalla de las páginas web que visitas, hasta las que verifican y corrigen tu ortografía o bloquean los avisos no deseados de los sitios web.

term-brute

Brute force: Una técnica para descifrar contraseñas que implica probar todas las combinaciones posibles.

term-captcha

CAPTCHA: Una prueba automatizada utilizada por sitios web y servicios en línea para determinar si una persona usuaria es humana o robot. Por ejemplo, una prueba que pide a las y los usuarios que identifiquen todos los semáforos en una serie de nueve imágenes.

term-cloud

Cloud storage / Almacenamiento en la nube: un modelo de almacenamiento de datos mediante el cual, la información se mantiene en servidores remotos a los que los usuarios pueden acceder a través de Internet.

term-cms

Content Management System (CMS) / Sistema de administración de contenido: Software utilizado para administrar contenido que luego se convierte en páginas en Internet.

term-crawler

Crawler: También llamado araña, es un robot de Internet que navega sistemáticamente por Internet, generalmente con el fin de indexar la Web (Wikipedia).

term-database

Database / Base de datos: un sistema utilizado para almacenar y organizar colecciones de datos con un enfoque o propósito particular. Por ejemplo, una base de datos de propiedad de la tierra en el país Z.

term-dataset

Dataset / Conjunto de datos: una colección de datos que comparten algunos atributos comunes y que generalmente se organiza en filas y columnas para un procesamiento más fácil. Por ejemplo, un conjunto de datos de las y los dueños extranjeros de tierras y propiedades en el país Z.

term-directory

Directorio: Un contenedor utilizado para clasificar archivos u otros contenedores de archivos y datos.

term-domain

Domain name / Nombre de dominio: Un nombre que se usa comúnmente para acceder a un sitio web (por ejemplo, tacticaltech.org). Los nombres de dominio se traducen a direcciones IP.

term-dnservice

Domain Name Service (DNS) / Servicio de nombres de dominio (DNS): el servicio distribuido que convierte los nombres de dominio en direcciones IP como 213.108.108.217

term-dns

Domain Name System (DNS) / Sistema de nombres de dominio (DNS): un sistema de nomenclatura utilizado por los dispositivos para convertir los nombres de dominio en direcciones IP para conectarse a sitios web.

term-dnsleak

DNS leak / Fuga de DNS: cuando las solicitudes para visitar un determinado sitio o dominio están expuestas a un proveedor de Internet a pesar de los esfuerzos para ocultarlas utilizando VPN.

term-dnsquery

DNS query / Consulta DNS: el proceso de solicitar traducir un nombre de dominio a una dirección IP.

term-encryption

Encryption / Cifrado: una forma de usar cálculos ingeniosos para codificar un mensaje o información de modo que sólo pueda ser decodificado y leído por alguien que tenga una contraseña particular o una clave de cifrado.

term-fulldisk

Full-disk encryption(FDE) / Cifrado de disco completo (FDE): cifrado que ocurre a nivel de dispositivo o hardware. Por ejemplo, el cifrado del disco completo de la computadora también cifrará automáticamente todos los datos guardados en él.

term-ip

Internet Protocol (IP) address / Dirección de Protocolo de Internet (IP): Un conjunto de números utilizados para identificar una computadora o ubicación de datos a la que se está conectando. Ejemplo: 213.108.108.217

term-json

JSON: Significa JavaScript Object Notation, un formato de intercambio de datos.

term-metadata

Metadata / Metadatos: información sobre la información. Por ejemplo: el contenido de un archivo de sonido es la grabación, pero la duración de la grabación es una propiedad del archivo que puede describirse como metadatos.

term-feed

Public (web) feed / Fuente público (web): un servicio de suministro de datos en línea que brinda información actualizada de forma regular a sus usuarios o al público en general. Se puede configurar mediante suscripción al feed de un sitio web / medio o puede estar disponible públicamente para todas las personas.

term-registrar

Registrar / Registrador: una empresa que proporciona servicios de registro de dominio.

term-registrant

Registrant / Registrante: una persona que registra un dominio.

term-robottxt

Robots.txt: un archivo en un sitio web que instruye a los programas automatizados (bots / robots / crawlers) sobre cómo comportarse con los datos en el sitio web.

term-root

Root Directory / Directorio raíz: la carpeta o directorio de nivel superior, que puede contener o no otros subdirectorios.

term-script

Script: Una lista de comandos ejecutados por un programa para automatizar procesos, por ejemplo, visitar una URL cada dos segundos y guardar los datos que se devuelven.

term-server

Server / Servidor: una computadora que permanece encendida y conectada a Internet para proporcionar algún servicio, como alojar una página web o enviar y recibir correo electrónico, a otras computadoras.

term-serverconfig

Server configuration / Configuración del servidor: una combinación de ajustes que determinan el comportamiento del servidor.

term-sitemap

Sitemap protocol / Protocolo de mapa del sitio: un conjunto de pautas que permite a los administradores del sitio informar a los motores de búsqueda sobre las páginas de su sitio que están disponibles para el rastreo.

term-subdomain

Subdomain / Subdominio: un identificador adicional, generalmente agregado antes de un nombre de dominio, que representa una subcategoría de contenido (por ejemplo, google.com es un nombre de dominio, mientras que translate.google.com es un subdominio).

term-sourcecode

Source code / Código fuente: el código subyacente, escrito por programadoras y programadores informáticos, que permite crear software o sitios web. El código fuente de una herramienta o sitio web dado, revelará cómo funciona y si puede ser inseguro o malicioso.

term-targetad

Targeted advertising / Publicidad dirigida: una forma de publicidad que tiene como objetivo llegar sólo a ciertos grupos o individuos seleccionados con características particulares o de áreas geográficas específicas. Por ejemplo, colocar anuncios de venta de bicicletas en cuentas de Facebook de jóvenes en Amsterdam.

term-sd

Subdirectory / Subdirectorio: un directorio dentro de un directorio.

term-tor

Tor Browser / Navegador Tor: un navegador que mantiene la privacidad de tus actividades en línea. Oculta tu identidad y protege tu tráfico web de muchas formas de vigilancia de Internet. También se puede usar para evitar los filtros de Internet.

term-tracker

Web tracker / Rastreador web: herramienta o software utilizado por los sitios web para rastrear a sus visitantes y cómo interactúan con el sitio.

term-url

Universal Resource Locator (URL)/ Localizador de recursos uniforme (URL): una dirección web utilizada para recuperar una página o datos en una red o internet.

term-vpn

Virtual Private Network (VPN) / Red privada virtual (VPN): software que crea un «túnel» encriptado desde tu dispositivo a un servidor ejecutado por tu proveedor de servicios VPN. Los sitios web y otros servicios en línea recibirán solicitudes, y devolverán resultados, de la dirección IP de ese servidor en lugar de tu dirección IP real.

term-vps

Virtual private server (VPS) / Servidor privado virtual (VPS): una máquina virtual, alquilada como servicio, por una empresa de alojamiento de Internet.

term-webdomain

Web domain / Dominio web: un nombre comúnmente utilizado para acceder a un sitio web que se traduce en una dirección IP.

term-webinterf

Web interface / Interfaz web: una interfaz gráfica de usuario en forma de página web a la que se accede a través del navegador de Internet.

term-weblog

Website log / Registro del sitio web: un archivo que registra cada vista de un sitio web y de los documentos, imágenes y otros objetos digitales en el sitio web.

term-webpage

Webpage / Página web: documento accesible a través de Internet, que se muestra en un navegador web.

term-webserver

Web server (Servidor web): también conocido como servidor de Internet, es un sistema que aloja sitios web y entrega su contenido y servicios a las personas usuarias finales a través de Internet; Incluye el hardware (máquinas del servidor físico que almacenan la información) y el software que facilita el acceso de estas personas al contenido.

term-website

Website (Sitio web): un conjunto de páginas o datos disponibles de forma remota, generalmente para personas con acceso a Internet o a la red.