Internet profunda: una guía para principiantes de la web que no ves

Internet profunda: una guía para principiantes de la web que no ves

Internet profunda¿Qué es eso de la Internet profunda o Internet invisible? ¿se trata de una especie de triangulo de las bermudas donde solo pueden entrar y salir unos pocos elegidos o es una especie de mito como el de la Atlantida?

La verdad es mucho más sencilla y simple. La Internet profunda es aquella que simplemente no esta indexada por los motores de búsqueda o directorios. Es decir son páginas o mejor dicho repositorios de información, generalmente bases de datos dinámicas, cuyo contenido no puede ser revisado por los buscadores y por lo tanto incluido en sus resultados de búsqueda.

Al contrario que otras páginas web, estas bases de datos no son accesibles porque necesitan un usuario o contraseña para acceder a ellas o bien son páginas dinámicas, es decir solo sirven información y resultados cuando se rellenan una serie de variables y en ese momento se crea la tabla de datos y no antes.

Por lo tanto no son accesibles a un buscador corriente.

Para simplificarlo quédate con esta idea:

la Internet profunda es la que esta compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.

De hecho es más que probable que ya la estés usando o la hayas usado sin darte cuenta.

¿Cual es el tamaño de la Internet profunda?

Nadie sabe cual es el tamaño exacto de la Internet profunda o web invisible. Según un artículo de wikipedia sobre Deep Web:

En el año 2000 se estimaba3 que el tamaño del Internet invisible era de 7.500 Terabytes de datos en unos 550.000 millones de documentos.4 Para comparar se estima que en aquella época la Internet superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente el Internet Profundo debe tener unos 91.000 TeraBytes.5

A decir verdad el tamaño poco importa. La idea principal es tener claro que aproximadamente el 95% de toda la información que existe en Internet esta sin indexar por ningún buscador.

¡Vaya eso deja un gran espacio de información por ahí fuera del que nos podemos aprovechar! ¿no crees?

La pregunta es ¿como? Bueno ahí es donde entran los sistemas de inteligencia competitiva especializados en cosechar este tipo de información en la Internet profunda pero esto ya es otra historia.

¿Por qué es importante la Internet profunda?

Bueno si lo piensas, la idea de aferrarnos solo a las búsquedas de Google es muy atractiva. Que digo ¡es más que atractiva!

Seria perfecto poder preguntarle cualquier cosa a Google y que este me escupiera los resultados que necesito.

Sin embargo, si consideramos que Google y los demás buscadores se rigen por algoritmos y estos no pueden ser perfectos, además del hecho de que existen bases de datos y páginas dinámicas, pues nos encontramos con la limitación de que una sola herramienta no puede indexar toda la información. Simplemente es imposible.

Así pues, podemos estar seguros de que existe mucha más información de la que eramos conscientes al principio.

De esta forma para localizar determinada información de calidad necesitamos adentrarnos en la web invisible y sacarle partido.

La buena noticia de todo esto es que no todo el mundo accede a la Internet invible y si sabemos como, podemos aprovecharnos al obtener mejores datos e informaciones que nuestros competidores. Así de simple.

¿Por dónde emprezar…? Algunos recursos de la Internet profunda

Afortunadamente para todos, hay otras personas que se han hecho las misma pregunta que nosotros y nos han dejado una serie de entradas para la web profunda que podemos aprovechar:

Recursos científicos de la Internet profunda o Internet invisible

  • La web del conocimiento: es una de las mayores bases de datos de citas del mundo con mas de 54 millones de registros
  • Elseiver: es un repositorio con mas de 2000 revistas de medicina y salud
  • Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
  • Pubmed: es el motor de búsqueda de medline. Contiene mas de 22 millones de documentos de investigación en biomedicina
  • Ingenta: contiene revistas de mas de 12.000 publicaciones
  • Us PTO: es un buscador de patentes y marcas de Estados Unidos de America
  • Espacenet: es un buscador de patentes de los paises Europeos
  • Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de paises de Latinoamerica, España y Portugal

Recursos estadísticos de la Internet profunda o Internet invisible

  • Eurostat: fuente estadistica de todos los países europeos
  • Usa.gov: fuente estadística de EEUU

Recursos sobre datos financieros de la Internet profunda o Internet invisible

Recursos de comercio internacional de la Internet profunda o Internet invisible

  • Comtrade: base de datos de la ONU sobre datos de import-export y códigos HS
  • Cameradata: base de datos española sobre los daos de importación y exportación
  • Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
  • Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.

Recursos sobre legislación de la Internet profunda o Internet invisible

  • Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
  • FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.

Como ves muchos de estos recursos son sobradamente conocidos y no están escondidos en ninguna parte.

Lo que ocurre es que contenido no esta recogido por los buscadores.

Por supuesto estos son solo unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda que tardan en llegar al dominio público.

Otros recursos de la web invisible

Aquí deberíamos hablar de varias herramientas como:

  • Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con mas de 70.000 bases de datos y recursos
  • Infomine: un recurso de la universidad de california que cuenta con mas de 100.000 enlaces a otras bases de datos
  • Scirus: es un metabuscador científico especializado en institutos y universidades de investigación

Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

Aunque también, como hemos visto, podemos encontrar recursos valiosos para la empresa. A parte de estos tres recursos puedes echar un vistazo a esta breve recopilación de Ernesto Marrero de puertas de entrada a la Internet profunda.

También te recomiendo que utilices OJOSE para lanzar una búsqueda simultanea en varios de estos servicios. Es muy práctico.

Como aprovechar la Internet profunda

Lo cierto es que eso no es fácil y depende de encontrar los recursos validos para ti o tu negocio.

esquema Internet profundaLo que si puedo asegurar es que cuando identifiques estos es muy importante tener en cuenta la frecuencia de uso que hacemos de estos pozos de información.

Si por ejemplo, hemos dado con uno de ellos y lo usamos recurrentemente con las mismas búsquedas o muy parecidas lo mejor es contar con un sistema que recupere de forma automática esta información en base a repetir estas búsquedas de forma automática.

Esto es lo que hacen los sistemas de inteligencia competitiva. Actúan como un buscador especifico de uno o varios de estos directorios de la Internet profunda cosechando la información que se le ha indicado. Seria como programar un buscador que durante 24 horas repite las miles de búsquedas que se le han indicado.

Quieres saber más sobre la Internet profunda

Ciertamente esto no es todo acerca de a la web o Internet profunda. Hay muchísimo mas. Los enlaces que he presentado en este articulo apenas son la punta del iceberg de la web invisible.

Si quieres continuar comprendiendo mejor como funciona te dejo un enlace a este libro blanco sobre la web profunda. Esta algo desactualizado pero te servirá para comprender mejor esta parte de la web.

Además hay que mencionar que la web actual tiene varios niveles y que incluso parte de esta web profunda o Internet profunda no es accesible con navegadores convencionales. Ahí tenemos que utilizar  TOR pero eso lo dejamos para otra ocasión.

¿Que te a parecido esta entrada? ¿Conoces algún recurso de la web profunda que quieras compartir?

Mi selección de artículos para ti

¿TE HA GUSTADO ESTE ARTÍCULO?

Si te ha gustado lo que he escrito no te pierdas mi Newsletter. DATE DE ALTA AQUÍ

Además recibirás mi curso gratuito: Mejora y sistematiza tus búsquedas de información en 5 días.

¡Nada de Spam lo prometo!

Comentarios

  1. dice

    Ooups salió antes deque terminara. Te daba las gracias, Ramón, por tus siempre valiosísimas aportaciones. Desconocía que la Deep Web fuera el iceberg y lo que nosotros utilizamos, solo una fotografía de un dibujo a mano alzada de su punta.
    Un abrazo

    • dice

      Gracias Juan,

      Me alegro de haber descubierto la Deep Web o Internet profunda para ti. Lo cierto es que pocas personas son conscientes de que exista y generalmente nos limitamos al mundo de los motores de búsqueda, que ojo no esta mal, pero gracias a la deep web podemos ir un poco más allá de la búsqueda convencional de información.

      Un saludo
      Ramón

  2. Francisco Graña dice

    Hola Ramón

    Considero muy bueno el artículo, conocía desde hace tiempo sobre el tema y he utilizado los diferentes recursos en mis búsquedas con excelentes resultados, aunque siempre se aprende algo nuevo y he encontrado sitios interesantes.

    Te completo algo sobre ScienceDirect que te falto

    ScienceDirect: es una de las principales bases de datos que ofrecen artículos a texto completo de más de 2.500 revistas científicas y más de 11.000 libros.

    Y te añado una base que a mi juicio es muy importante para los ingenieros Ei Compendex®

    Ei Compendex®: es una de las bases de datos de literatura de ingeniería más completas disponibles para los ingenieros. Con 11.3 millones de registros en 190 disciplinas de ingeniería, Compendex ofrece la información precisa y exhaustiva que los investigadores necesitan.

  3. Vladimir Cardona dice

    Excelente artículo! todo el contenido de este sitio me parece demasiado interesante y de mucha actualidad!

  4. Lu dice

    ¿Como puedo moverme de forma segura dentro de la Deep Web? ¿El simple hecho de bajarme un libro o una película puede hacer peligrar mis datos? Me gustaría meter la cabeza un poco en el ”mundillo” pero a la vez me produce cierto respeto. Un saludo y gracias de antemano.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *