Cómo obtener datos en la Internet profunda: una breve guía

¿Estas buscando datos relacionados con algún tema especifico?¿ no sabes por donde empezar a buscar o ni siquiera si estos datos existen en Internet? ¿Alguna vez te has preguntado donde podrías encontrar los datos que necesitas? Tu respuesta a estas preguntas esta probablemente en extraer los datos en la Internet profunda.

Esta respuesta probablemente no te solucione nada porque lo que necesitas es saber por donde empezar.

Por eso, en esta entrada te mostraré como encontrar los datos que necesitas echando mano de la Internet profunda o Deep Web.

Contenidos

1 La Internet profunda como fuente datos
2 Consiguiendo los datos en la Internet profunda: Data Scraping
3 Relación de recursos para obtener datos en la Internet profunda
4 Conclusiones sobre la extracción de datos en la Internet profunda

La Internet profunda como fuente datos

Se estima que la Internet profunda es entre 400 y 500 veces más grande que la web convencional, aquella indexada por los buscadores.

Esto convierte a la Internet profunda en una autentica mina de datos por explotar.

El problema esta en que para obtener los datos en la Internet profunda debemos:

Identificar Yacimientos de datos útiles para nuestra organización
Emplear las herramientas necesarias para minar los datos
Procesar los datos e información extraídos de las fuentes de información de la web profunda

Exactamente igual hacen en la industria minera para extraer el mineral valioso de un yacimiento. Primero localizan una veta, después aplican las herramientas de extracción y tercero se procesa el mineral, separando los desechos de lo útil.

Y esto como comprenderás no es fácil.

Consiguiendo los datos en la Internet profunda: Data Scraping

Si eres lo suficiente afortunado de tener claro cuales son tus fuentes de información para extraer los datos en la Internet profunda entonces es probable que te enfrentes al problema de conseguir extraer los datos sin recurrir al tedioso corta-pega.

Entre otras cosas, esta técnica manual puede ser útil de forma puntual, pero si necesitas extraer los datos de una forma recurrente y tienes 50 fuentes que revisar todos los días, lo cual es más que probable e incluso me este quedando corto, es posible que nunca acabes el proceso.

Además, estaríamos perdiendo un tiempo valioso para identificar nuevas fuentes de información en la web profunda y aumentar la capacidad de analizar los datos en la Internet profunda.

Para eso podemos echar mano de técnicas de data scraping como:

Screen scraping: es una técnica de programación que consiste en extraer de una pagina web, usando ingeniería inversa y alguna herramienta, los datos que nos interesan.
Web scraping: sirve para extraer datos e información concretos de una pagina web, generalmente bases de datos dinámicas no indexadas por buscadores, mediante programas de software que simulan la navegación humana.
Report mining: es el proceso de extraer datos útiles de informes desestructurados como por ejemplo un PDF para pasarlos a un archivo CSV y poder analizarlos. Mientras que las dos técnicas anteriores implican trabajar con datos dinámicos el report mining supone extraer datos de formatos de lectura humana como textos, HTML y PDF

Lo cierto es que estas técnicas pueden aplicarse sin tener conocimientos previos de programación gracias a aplicaciones o herramientas como: Mozenda, Screen-scrapers, ScraperWiki, Firebug o Ruby

La ventaja de estas técnicas de scraping es que son casi aplicables a cualquier tipo de web incluidas las páginas web de la Internet superficial.

Sin embargo si se va a hacer uso intensivo de estas técnicas para obtener los datos en la Internet profunda, lo mejor es contar con especialistas, lo que te permitirá ahorrarte: tiempo, dinero y algún disgusto.

Y es que existen algunas limitaciones reales a estas técnicas tales como:

Páginas con un código HTML mal formateado
Las páginas web cerradas que requieren una autentificación por usuario y contraseña o un código Captcha
Sistemas de protección contra accesos masivos etc…

Esto complica la aplicación las técnicas de scraping para la extracción de datos en la Internet profunda que pueden requerir de elementos de programación más avanzados.

Relación de recursos para obtener datos en la Internet profunda

Si no tienes claro de donde obtener los datos en la Internet profunda que pueden ser de utilidad para ti, no te quedara más remedio que localizar las fuentes de tu interés.

En este caso te recomiendo dar los siguientes pasos:

Paso # -1: Hojea los dataset de páginas web y servicios de la web profunda:

En los últimos años gracias a la corriente del open data (datos abiertos) multitud de organismos e instituciones se han volcado en la publicación y creación de sitios, portales y Hubs de datos. Este es un buen lugar para empezar a buscar lo que necesitas:

Datacatalog: es un indice global de todos los sitios gubernamentales de open data que existen actualmente el mundo
Datahub: un recurso de la Open Knowledge Fundation donde se agregan dataset listos para ser utilizados incluso por software
Trading economics, World Bank y Naciones unidas: contienen datos de indicadores económicos de alta calidad y de años atrás.
Infochips y Datamarket: tiendas de datos para el uso y análisis de los mismos.

Paso # -2: Emplea y pregunta en los foros:

Para el caso que nos ocupa de los datos en la Internet profunda lo mejor es emplear directamente estos dos recursos:

Quora: este enlace va directo a la pregunta dónde encontrar grandes dataset abiertos al público. Donde encontrarás cientos sino miles de fuentes donde encontrar datos
Get the data: un foro especializado en datos abiertos donde podrás preguntar (en ingles) donde encontrar los datos que buscas
Reddit datasets: es una de las subcarpetas de reddit donde puedes encontrar fuentes de datos.

Paso # -3: Recursos de la Open Knowledge Fundation:

OKF es una organización internacional dedicada a difundir el conocimiento que dispone de varias iniciativas donde los datos juegan un papel principal:

Paso # -4: Utiliza un buscador de datos estadísticos:

Localizar datos en la Internet profunda se ha simplificado en parte gracias a ZANRAN.

Zanran: un buscador de datos estadísticos de la web profunda

Conclusiones sobre la extracción de datos en la Internet profunda

Como hemos dicho anteriormente en esta entrada la extracción de datos en la Internet profunda es similar a la actividad minera.

Identificar los yacimiento de datos o fuentes de información de donde extraer datos
Emplear las herramientas necesarias para extraer los datos: Data Scraping
Limpiar, procesar y preparar los datos para el análisis.

El tercer paso apenas lo hemos tratado pero viene implícito en el objetivo del Data Scraping que no es otro que recuperar los datos en un formato que pueda ser leído por una máquina, para después permitirnos hacer el análisis.

Un ejemplo sería recuperar los datos de un archivo PDF para pasarlos a un CSV que puede ser analizado por un Excel.

De esta forma conseguimos apalancar nuestros esfuerzos en la web profunda. ¡Si te ha gustado este artículo por favor comparte!