Muchos nos escribís preguntado cuáles son las mejores herramientas del científico de datos o las más adecuadas para la profesión.
Lo cierto es que yo no lo sé.
No soy cientifico de datos y estoy algo mayor para empezar una nueva profesión. Así que no he probado las herramientas del cientifico de datos como para dar una opinión seria al respecto.
Aun así, en la entrada de hoy me voy a mojar y partiendo de este informe del BBVA innovation center voy a presentarte algunas herramientas usadas para la ciencia de datos.
Contenidos
La caja de herramientas del científico de datos
Lo cierto es que el Big Data y la ciencia de datos son áreas nuevas que están en constante evolución y por lo tanto no existen soluciones únicas o consolidadas.
Muchos de los científicos de datos y profesionales que se acercan a esta disciplina del Big Data están en un constante proceso de aprendizaje de prueba y error usando distintas aplicaciones y conocimientos dispersos para ir construyendo una disciplina más estructurada que sea capaz de extraer el valor de los datos de una forma segura.
Te recomiendo encarecidamente que pulses en la imagen de arriba y vistes la Web The Big Data Landscape
Ahí podrás ver un mapa actualizado de todas las herramientas relacionadas con el Big Data y la ciencia de datos
Sin embargo a mi me gusta más esta clasificación de herramientas del científico de datos aportada por el informe del BBVA Innovation Center que reduce el tipo de herramientas a tres áreas según que necesitemos hacer en cada caso:
- Herramientas para la gestión de datos
- Herramientas para el análisis de los datos
- Herramientas para la visualización de datos
Las herramientas del primer bloque sirven para capturar, preparar y almacenar los datos para su posterior análisis. Las del segundo grupo sirven para aplicar los análisis estadísticos necesarios para extraer la información de los datos. Y las herramientas del cientifico de datos del tercer grupo sirve para reflejar los resultados de los análisis de forma que puedan entenderse.
Siendo esta parte la mas importante de cara a la toma de decisiones y el producto final que un científico de datos debe aportar con su trabajo a la dirección de una organización.
1.-# Herramientas del científico de datos para la gestión de datos
Para llevara cabo la gestión de los datos el informe del BBVA nos presentan hasta tres alternativas o escenarios y diferentes herramientas como:
- Toad y Tora para extraer los datos almacenados en las bases de datos mediante comandos de lenguaje SQL
- la captura en lote de los datos con una herramienta que permita el ciclo ETL completo (extracción, transformación y carga) como RapidMiner, Knime y Pentaho.
- o un tercer escenario para el tratamiento de los datos en tiempo real en los que seria necesario el uso de XML y, jasonlite para R, o xml y jason para módulos de Python
Una gran parte del trabajo de un científico de datos es realizar la captura, limpieza y almacenamiento de las informaciones en un formato adecuado para su tratamiento y posterior análisis.
Que es el siguiente paso y dónde habrá que echar mano de herramientas de análisis.
2.-# Herramientas del científico de datos para el análisis de datos
Para el análisis de los datos se suele utilizar aplicaciones de «machine lerning» basadas en dos lenguajes de programación:
- R: entre los paquetes de R más utilizados están xgboost para gradient boosting, ramdonForest para ensamblado de árboles de regresión, cluster para clustering etc…
- Phyton: para este lenguaje destaca la suite sckit-lern que cubre casi todas las tecnicas estadísticas pero no cubre la parte de redes neuronales
En cuanto a los entornos distribuidos relacionado con la gestion de grandes volúmenes de datos en empresas hay que mencionar a Hadoop y las nuevas tendencias hacia Spark que permite una velocidad 100 veces mayor en el procesamiento de la información y ejecución de algoritmos.
3.-# Herramientas del científico de datos para la visualización
Las herramientas para la visualización que nos presentan en el informe del BBVA Innovation Centre son para:
- R: lattice y ggplot2
- Phyton: Matplotlib y para entornos web D3.js
- entornos integrados: tableu
Además en el informe nos proponen otras 5 cinco herramientas de visulización de datos que explican más a fondo.
- Google fusion tablets
- Carto DB
- Tableu public
- iCharts
- Smart Data Report
La visualización de los datos es parte esencial de cualquier proyecto de Big Data. Sin esta es imposible interpretar los datos y comunicarlos de forma eficiente a la dirección para que los datos participen del proceso de toma de decisiones.
Formación extra y tutoriales recomendados
Para terminar este breve artículo te recomiendo que si estas interesado en esto de las herramientas de los científicos de datos y el Big Data o macrodatos no te pierdas estas entradas:
- 7 cursos de formación en Big Data gratuitos
- 7 maneras de obtener datos que desconocías
- Qué es el Big Data
La caja de herramientas del científico de datos no dejará de evolucionar en los próximos años pero aquí estaré para contártelo.
Si te ha gustado lo que has leído por favor compártelo en las redes sociales