
Como ya se explicó en "Herramientas de búsqueda en la web", para acceder a páginas a través de un buscador, se requiere de una previa idexación de los contenidos de las páginas, la cual es realizada por un spider que brinca de enlace a enlace entre páginas, adjuntando la información indexable, pero ¿qué pasa si una página no se encuentra vinculada a otra o si existe una barrera para hacerlo?
Se estima que aproximadamente 15% del contenido de la web es visible para el público, es decir, indexable por buscadores y el resto (85%) permanecen ocultas -aunque hay valoraciones menos optimistas-. Denominando a dicho mundo como web profunda o deep web.
¿Cómo es posible que la web profunda sea tan grande? no es complicado si consideramos cuantos contenidos genera cada usuario y no es un contenido accesible para todo el público. Desde redes sociales, almacenamiento masivo en la nube, editores documentales online, etc, que protegen los contenidos de los usuarios hasta el momento en que este se anime a compartir aquel producto con el mundo, incluyendo además todos los contenidos resguardados tras una autorización.
Existen básicamente 4 tipos de web profunda
Web opaca o the opaque Web
Cuando el contenido debiera ser indexable pero no ha sido incluido por la magnitud del contenido, la frecuencia de indexación, la caída de la dirección o el límite de resultados visibles para el usuario.
Por ejemplo cuando suba esta publicación se encontrará en la deep web por algún tiempo pues no aparecerá en ningún buscador hasta pasado un tiempo.
Web privada o the private Web
Excluidas por deseo del productor del contenido, ya sea mediante una contraseña, adjuntación de la web de un archivo “robots.txt” o un campo “noindex” para evitar que el buscador pueda indexar la parte correspondiente al cuerpo de la página.

La Web propietaria o the proprietary Web
Incluye páginas que requieren registro para el acceso al contenido de forma gratuita o de paga.
Por ejemplo algunas publicaciones en Elsevier, una revista digital científica que solo te muestra el abstract y para acceder al contenido completo requieres pagar o(╥﹏╥)o -no le deseo eso ni a mi peor enemigo-.
La Web realmente invisible o the truly invisible Web
Son páginas con formatos no indexables o páginas generadas dinamicamente, es decir, que se generan a partir de datos que introduce el usuario.
¿Que tiene que ver la deep web disponible vía Tor con todo esto?
Debemos saber dos cosas.

2.- Todos debemos saber de la facilidad con que se localiza a los usuarios a través de su ip (aquí).
Ambas son cosas diferentes.
Tor ofrece una alternativa para que el usuario no sea rastreado (arreglando el punto 2), más no ofrece una plataforma que oculte sus contenidos.
Una parte de la deep web, se ha ocultado tras el dominio onion, al cual solo se puede acceder con el Tor Browser Bundle, que protege a los usuarios de ser rastreados, más no oculta sus contenidos.
En el mundo onion también existen buscadores, pero si estás en la red onion no quieres ser rastreado ni que tus sitios webs sean cerrados, así que muchas web cambian de sitio constantemente, o sus direcciones no están vinculadas a ningún lado o los sitios son cerrados por los gobiernos, convirtiéndose así en web opacas aun dentro de la llamada deep web -que irónico- y también hay un montón de sitios solo para sus agremiados creando una web propietaria.
1 comentarios:
Muy buen post, Mariana!
Saludos, Marisa
Publicar un comentario