Siempre he sostenido que los datos están por todas partes desde la llegada de Internet. Son tantos y tan abundantes que para hacer Big Data Análisis no es necesario crear un «Data Set» de datos propios en la empresa.
Se pueden utilizar fuentes de datos gratuitas.
La ventaja claro esta es que al utilizar fuentes de datos gratuitas o Data Sets gratuitos no tendremos que invertir de inicio en crear uno.
Aunque esto es desde luego totalmente recomendable, si queremos de verdad sacar provecho del Big Data, no tendremos más remedio que a medio plazo crear nuestro propio repositorio de datos recolectando datos para nuestra empresa.
Datos que procederán de fuentes de datos gratuitas y de pago pero que al final deberán consolidarse en un Data Set propio donde realizar los análisis.
Pero eso es un asunto diferente del que no nos ocupa hoy y que deberás tratar mañana. Ahora vemos una relación de fuentes de datos gratuitas que puedes aprovechar para empezar a realizar tus pruebas y tests con el Big Data.
Contenidos
- 1 Fuentes de datos gratuitas para empezar a practicar con el Big Data
- 1.1 1.- Portal de datos abiertos de la Unión Europea
- 1.2 2.- Portal de datos abiertos del Gobierno de USA
- 1.3 3.- Fuentes de datos gratuitas de Amazon
- 1.4 4.- Facebook Graph API
- 1.5 5.- Compilación de datos de Gapmainder
- 1.6 6.- El buscador de data sets de datos numéricos Quandl
- 1.7 7.- DBpedia o los datos extraidos de la Wikipedia
- 2 Un consejo: Miles de fuentes de datos gratuitas te esperan ahí fuera así que… ¡Explora!
Fuentes de datos gratuitas para empezar a practicar con el Big Data
Las siguientes fuentes de datos son totalmente gratuitas y nos servirán para dar los primeros pasos dentro del Big Data.
Así que aquí tienes hasta 7 recursos de donde podrás extraer datos gratis para tus análisis y pruebas:
1.- Portal de datos abiertos de la Unión Europea
Este portal agrupa todas la fuentes de datos gratuitas disponibles por parte de las instituciones de la Unión Europea. Aglutina cerca de 8116 datasets diferentes.
Puedes acceder a ellos a través de este enlace: Portal de datos abiertos de UE
2.- Portal de datos abiertos del Gobierno de USA
En este portal encontraras todos los datos generados o recopilados por las Instituciones de USA. Al igual que en los datos del portal de la Unión Europea son fuentes de datos gratuitas y libres para su explotación. Además ofrecen ejemplos de aplicaciones desarrolladas con el uso de estos datos.
Puedes acceder a estos datos a través de este enlace: Portal de datos abiertos de USA
3.- Fuentes de datos gratuitas de Amazon
Así es a través de Amazon Web Services podemos acceder a varios data sets para su uso gratuito. Eso a cambio del alojamiento gratuito de estos data sets de datos los usuarios si están obligados a pagar por el uso realizado de la capacidad de computación y calculo usada. Algunos de los data sets alojados por Amazon son tan importantes como el 1000 Genome Project.
Puedes acceder a estos data sets aquí: Data sets públicos de Amazon
4.- Facebook Graph API
A pesar de que muchas de las informaciones del perfil de usuario de Facebook son privadas, un montón de ellas no los son. Facebook permite el acceso a una gran cantidad de información sobre lo que comparten sus usuarios en la red social a través de de la API de Facebook Graph y que puede ser utilizada para analizar el compartimiento de sus usuarios.
Puedes acceder a estos datos aquí: Facebook Graph Api
5.- Compilación de datos de Gapmainder
Gapmainder ofrece una recopilación de un montón de fuentes de datos gratuitas de todo el mundo. Lo bueno de este servicio es que puedes echar mano de las visualizaciones que ya han elaborado de cada uno de los Data Sets que ponen a disposición del público.
Puedes acceder a los datos de Gapmainder aquí: indicadores de Gapmainder
6.- El buscador de data sets de datos numéricos Quandl
Quandl es un buscador de datos abiertos numéricos. La mayor parte de las fuentes de datos gratuitas que ofrece son datos financieros, económicos y sociales. Digamos que si estas interesado en la «inflación en china» lo único que tienes que hacer es poner estas palabras claves en el buscador y esperar a que te disponga los resultados
Lo bueno de esta herramienta es que te permite acceder y descargar los datos en diferentes formatos de una forma muy sencilla y simple. Aquí tienes una explicación de como hacerlo.
Para acceder a Quandl solo tienes que pulsar aquí: Acceso a Quandl
7.- DBpedia o los datos extraidos de la Wikipedia
Wikipedia esta formado por millones de datos, estructurados y desestructurados sobre cualquier tema del que se tenga constancia en el mundo. DBPedia es el proyecto que busca catalogar y crear un fuente pública de datos para que cualquier persona que quiera pueda analizar los datos volcados en la wikipedia.
Para acceder a DBPedia puedes hacerlo desde aquí: Acceso DBPedia
Un consejo: Miles de fuentes de datos gratuitas te esperan ahí fuera así que… ¡Explora!
Al margen de estas fuentes de datos gratuitas que te acabo de presentar, y solo si no estas satisfecho con estos Data Sets, lo cuál es más que probable, puedes echar un vistazo a esta página de Quora. En ella encontrarás listados creados por parte de sus usuarios con cientos de Data Sets de los que extraer aun más datos con los que hacer pruebas y análisis.
Como he dicho antes, los datos, desde la llegada de Internet están por todas partes. Lo difícil es hacer algo útil con ellos.
Así que no te queda más remedio que explorar, buscar, encontrar y crear tus propios repositorios de datos para extraer de ellos el verdadero valor que esta en los datos.