El caso de la Internet profunda vs la búsqueda de Google

Siendo parte de la industria dedicada al tratamiento y análisis de la Internet profunda, me encuentro respondiendo en multitud de ocasiones ante clientes y amigos a esta cuestión:

Contenidos

- - 0.0.0.1 ¿Para qué buscar más información si ya tengo Google?

1 La Internet Profunda VS la búsqueda de Google
2 Ventajas de utilizar recopiladores de información de la web profunda
- 2.1 ¿Cuales son las ventajas de utilizar los recopiladores de información en la Internet profunda?
3 ¿Quien debería definir su propio set de datos y que valor aporta?

¿Para qué buscar más información si ya tengo Google?

La búsqueda de información en Internet forma parte de nuestra vida diaria. Y Google se ha convertido en sinónimo de búsqueda para millones de personas.

Sin embargo trabajar la Internet profunda o utilizar Google en su lugar son dos cosas bien diferentes.

En esta entrada trataré de responder a alguna de las siguientes preguntas que nos hacen nuestros clientes cuando vamos a visitarles:

Por qué la búsqueda de información en Google es diferente a la recolección de información en la Internet profunda
Qué ventajas tiene para mi utilizar recopiladores de información en la web profunda
Quién debería definir su propio set de datos

La Internet Profunda VS la búsqueda de Google

Los motores de búsqueda indexan y clasifican millones de páginas web día a día permitiendo a sus usuarios hacer búsquedas sobre estas páginas indexadas por ellos.

Google es un motor de búsqueda, probablemente el mejor hasta la fecha, pero como el resto de motores de búsqueda no encuentra y almacena todo el contenido de cada página web.

Los buscadores simplemente crean un enlace entre los usuarios y las webs donde se encuentran almacenados los contenidos.

Y además, existen páginas que no dan acceso a estos contenidos o simplemente no permiten ser indexadas por los buscadores.

Esta es una diferencia crucial para entender que no todos los contenidos de la web están indexados por los motores de búsqueda y que existe una parte de la web que no esta «censada» y que denominamos la Internet profunda.

Recolección vs búsqueda de información

Para salvar esta zona oscura, la Internet profunda, y a diferencia de los motores de búsqueda, existen técnicas avanzadas como:

el web scraping: una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web para recuperar la información y contenidos no indexados por los buscadores de forma automatizada.

El proceso de recolección implica extraer todos los contenidos de estas páginas y prepararlos para algún tipo de análisis dependiendo de las necesidades del usuario final.

Por ejemplo, nuestro servicio web extrae todos los contenidos cada vez que accede a una página web, almacenándolo en un repositorio de información.

Adicionalmente el cliente pude parametrizar una búsqueda sobre estos contenidos para extraer lo que busca.

Sitios especificos vs Toda la web: El Funcionamiento de la recolección de información en la Internet profunda

Probablemente te preguntes como es posible que si Google no puede acceder a los contenidos de una web otro sistema pueda hacerlo.

La calve esta en que las aplicaciones de web scraping en vez de buscar por toda la web, se centran directamente en recuperar la información de un solo sitio web cada vez y están preparadas para acceder a estos sitios cumpliendo los requisitos (claves, usuarios, formularios) de acceso de forma automatizada.

El cliente final por tanto puede indicar que páginas web o recursos quiere explorar para recuperar la información que busca indicando las palabras claves y los parámetros de su interés.

Por otra parte si un cliente no sabe exactamente por qué páginas o bases de datos empezar es necesario identificar primero las fuentes de información de la Internet profunda que pueden resultar de interés.

Este es un problema muy común, que resolvemos para multitud de nuestros clientes y que no presenta mayores incidencias.

Resolviendo problemas concretos o siendo todo para todo el mundo

Las empresas y determinadas organizaciones tienen preguntas que no pueden obtener respuestas bajo los parámetros de un buscador o motor de búsqueda. Preguntas complejas tales como:

¿Que investigadores están siendo citados en patentes de producción de grafeno?
¿Cuantas personas han conseguido una subvención para la investigación de los efectos del ibuprofeno en el hígado?
¿Que empresas han obtenido adjudicaciones de obra civil en Almería?
¿Que nueva información se ha publicado hoy en la web de mis competidores?
¿Que cambios de precio ha habido en los supermercados online de Madrid en las conservas vegetales?
¿Cuales son las últimas investigaciones publicadas sobre el cáncer de útero y que dicen los especialistas sobre estos?
¿Ha habido algún cambio legal en los planes de cobertura de los seguros que afecten a las empresas farmacéuticas?

Si ponemos estas preguntas en Google, apenas obtendremos nada en claro. Sin embargo la tecnología y equipo adecuados pueden ayudar a responder estas preguntas mediante la recopilación de los datos de la Internet profunda, conectando los resultados y distribuyendolos al usuario final.

Ventajas de utilizar recopiladores de información de la web profunda

Se estima que la internet profunda es entre unas 400 y 550 veces más grande que la Internet de superficie indexada por los buscadores. Y esto son datos de un estudio del año 2001 sobre la Internet profunda.

Si la web superficial ya es gigante…pues imagina los contendidos que se encuentran almacenados en esta Internet profunda.

Para acceder y localizar información y datos, lo mejor es utilizar los recopiladores que automaticen el proceso o parte de este proceso.

¿Cuales son las ventajas de utilizar los recopiladores de información en la Internet profunda?

Al margen de la evidente ventaja que proporciona poder tener una máquina trabajando para nosotros, los recopiladores de información nos permiten:

Crear nuestros propios Datasets de datos

Y esto es importante ¿por qué…? Un dataset de datos permite:

Realizar Datamining: es decir tratar y analizar la información recopilada estructurándola y dándole sentido
Redistribuir la información internamente en la organización para dar respuesta a las necesidades de información de cada departamento
Monitorización y vigilancia de parámetros de nuestro interés (competidores, clientes etc…)
Obtener más datos: un recopilador de la web profunda permite profundizar en los contenidos de la web profunda pero también en los contenidos de la web superficial
Recopilar contenidos y no solo links: el dataset es como tener una copia de seguridad de los contenidos que encontramos en las paginas webs de nuestro interés en vez de dar solo un enlace al usuario final
...E incluso explotarla comercialmente: los datos obtenidos se pueden comercializar a terceros a través de la venta de los mismos datos recuperados o bien con el desarrollo de aplicaciones

¿Quien debería definir su propio set de datos y que valor aporta?

Ahora ¿son los dataset necesarios para todo el mundo? La respuesta es que no.

Por eso, las personas que escuchan por primera vez esta terminología se pregunta si esto es para ellos o sus empresas.

Existen una serie de perfiles profesionales dentro de las empresas que por sus características, si necesitan construir estos dataset a partir de la Internet profunda.

Estos perfiles en empresas son:

Investigadores de ramas científicas: estos investigadores necesitan estar al día de los avances más importantes en sus respectivos campos sin tener que leer cada artículo de sus revistas y publicaciones electrónicas favoritas.
Analistas de datos: estos analistas están especializados en interpretar la información derivada de los datos. Recuperar los datos desestructurados de forma automática es vital para su productividad.
Directores de Innovación: cuya labor es conocer las novedades de una industria en todas sus facetas para incorporarlas al conocimiento interno de la organización no pueden ir detrás de la información sino que necesitan que esta les llegue a ellos.
Técnicos de comercio exterior: parte de su trabajo es evitar que las mercancías se queden paradas en la aduana cumpliendo con los requisitos legales para cada país. Requisitos que cambian a menudo y constantemente sin que puedan ser conscientes de todo.
Técnicos de calidad: necesitan estar al día de todas la normativas que afectan a la calidad de procesos productivos y productos.
Profesionales del marketing: que buscan hacer seguimiento de las menciones de una marca en el mundo a menudo se enfrentan a miles de falsos positivos por no emplear o seleccionar fuentes especificas locales como periódicos o blogs o monitorizar cuentas de twitter geolocalizas en una región determinada
Abogados: que se enfrentan diariamente a una maraña de nueva legislación y deben buscar entre esta para rescatar lo que necesitan.
Industria del entretenimiento: productoras musicales, editoriales y productoras audiovisuales para ver quien hace un uso ilícito de sus productos.
Inversores o gestores de inversiones: estos conocen ciertas fuentes de información especialmente relevantes para monitorizar y seguir a compañías especificas. Pueden tomar ventaja definiendo dataset creados a partir de notas de prensa, sitios gubernamentales como SEC, FDA, Espacent, noticias etc…

Generalmente Google y herramientas similares son muy útiles para determinados proyectos y tareas.

Sin embargo pensar que la búsqueda en Internet se resume en el uso de estas, es un error fatal. Sobre todo cuando tenemos que responder a preguntas mucho más complejas que:

¿Cuáles son las farmacias de guardia en Madrid?

En estos casos utilizar herramientas para construir nuestro propio set de datos a partir de la Internet profunda, puede ser mucho más que una ayuda.