Saltar al contenido
Papeles de Inteligencia Competitiva

Caja de herramientas del científico de datos: una propuesta del BBVA Innovation Center

caja-de-herramientas-del-científico-de-datosMuchos nos escribís preguntado cuáles son las mejores herramientas del científico de datos o las más adecuadas para la profesión.

Lo cierto es que yo no lo sé.

No soy cientifico de datos y estoy algo mayor para empezar una nueva profesión.  Así que no he probado las herramientas del cientifico de datos como para dar una opinión seria al respecto.

Aun así, en la entrada de hoy me voy a mojar y partiendo de este informe del BBVA innovation center voy a presentarte algunas herramientas usadas para la ciencia de datos.

Curso de experto en Big Data

La caja de herramientas del científico de datos

Lo cierto es que el Big Data y la ciencia de datos son áreas nuevas que están en constante evolución y por lo tanto no existen soluciones únicas o consolidadas.

Muchos de los científicos de datos y profesionales que se acercan a esta disciplina del Big Data están en un constante proceso de aprendizaje de prueba y error usando distintas aplicaciones y conocimientos dispersos para ir construyendo una disciplina más estructurada que sea capaz de extraer el valor de los datos de una forma segura.

mapa soluciones big data

Te recomiendo encarecidamente que pulses en la imagen de arriba y vistes la Web The Big Data Landscape

Ahí podrás ver un mapa actualizado de todas las herramientas relacionadas con el Big Data y la ciencia de datos

Sin embargo a mi me gusta más esta clasificación de herramientas del científico de datos aportada por el informe del BBVA Innovation Center que reduce el tipo de herramientas a tres áreas según que necesitemos hacer en cada caso:

  • Herramientas para la gestión de datos
  • Herramientas para el análisis de los datos
  • Herramientas para la visualización de datos

Las herramientas del primer bloque sirven para capturar, preparar y almacenar los datos para su posterior análisis. Las del segundo grupo sirven para aplicar los análisis estadísticos necesarios para extraer la información de los datos. Y las herramientas del cientifico de datos del tercer grupo sirve para reflejar los resultados de los análisis de forma que puedan entenderse.

Curso de experto en Big Data

Siendo esta parte la mas importante de cara a la toma de decisiones y el producto final que un científico de datos debe aportar con su trabajo a la dirección de una organización.

1.-# Herramientas del científico de datos para la gestión de datos

Para llevara cabo la gestión de los datos el informe del BBVA nos presentan hasta tres alternativas o escenarios y diferentes herramientas como:

  1. Toad y Tora para extraer los datos almacenados en las bases de datos mediante comandos de lenguaje SQL
  2. la captura en lote de los datos con una herramienta que permita el ciclo ETL completo (extracción, transformación y carga) como RapidMiner, Knime y Pentaho.
  3. o un tercer escenario para el tratamiento de los datos en tiempo real en los que seria necesario el uso de XML y, jasonlite para R, o xml y jason para módulos de Python

Una gran parte del trabajo de un científico de datos es realizar la captura, limpieza y almacenamiento de las informaciones en un formato adecuado para su tratamiento y posterior análisis.

Que es el siguiente paso y dónde habrá que echar mano de herramientas de análisis.

2.-# Herramientas del científico de datos para el análisis de datos

Para el análisis de los datos se suele utilizar aplicaciones de «machine lerning» basadas en dos lenguajes de programación:

  • R: entre los paquetes de R más utilizados están xgboost para gradient boosting, ramdonForest para ensamblado de árboles de regresión, cluster para clustering etc…
  • Phyton: para este lenguaje destaca la suite sckit-lern que cubre casi todas las tecnicas estadísticas pero no cubre la parte de redes neuronales

En cuanto a los entornos distribuidos relacionado con la gestion de grandes volúmenes de datos en empresas hay que mencionar a Hadoop y las nuevas tendencias hacia Spark que permite una velocidad 100 veces mayor en el procesamiento de la información y ejecución de algoritmos.

3.-# Herramientas del científico de datos para la visualización

Las herramientas para la visualización que nos presentan en el informe del BBVA Innovation Centre son para:

Además en el informe nos proponen otras 5 cinco herramientas de visulización de datos que explican más a fondo.

  1. Google fusion tablets
  2. Carto DB
  3. Tableu public
  4. iCharts
  5. Smart Data Report

La visualización de los datos es parte esencial de cualquier proyecto de Big Data. Sin esta es imposible interpretar los datos y comunicarlos de forma eficiente a la dirección para que los datos participen del proceso de toma de decisiones.

Formación extra y tutoriales recomendados

Para terminar este breve artículo te recomiendo que si estas interesado en esto de las herramientas de los científicos de datos y el Big Data o macrodatos no te pierdas estas entradas:

La caja de herramientas del científico de datos no dejará de evolucionar en los próximos años pero aquí estaré para contártelo.

Curso de experto en Big Data

Si te ha gustado lo que has leído por favor compártelo en las redes sociales