Analizo y extraigo datos desde repositorios como Data Warehouse o Data Lake. Consumo datos estructurados y no estructurados On-Premise en flujos de datos ETL para modelamiento y estandarización en procesos de producción, análisis y/o desarrollo, usando librerías de Machine Learning como Pandas, NumPy, Matplotlib, Sckit-Learn y Deep Learning como Keras y Tensorflow, para crear analíticas, estimaciones, balances exploratorios, predicciones y visualizaciones en cuadernos Jupyter o Databricks. Administro cuentas con PowerShell o Bash. Además, desarrollo flujos de datos en cluster, exploro con Spark-shell, dataframes, dataflow y schemas; uso los RDD con Apache Spark (PySpark)/Python o Scala en tiempo real o por lotes. Dispuesto a reubicarme. Para visualización utilizo PowerBI.
Hola, trabajo desde hace muchos años con datos. Mi objetivo es aportar resultados en el menor tiempo posible, poseo conocimientos y habilidades informáticas, pero si no lo se, te aseguro que lo voy averiguar. Mi metodología es simple, pero muy sólida partiendo desde como trabajar hojas de cálculo con MS Excel, usando análisis funcional para crear tablas y gráficos dinámicos, hasta obtener datos complejos. Cada proceso y skillset son únicos, específicos y van a depender de cada responsable. Trabajo desde hace años con herramientas informáticas dedicadas, como: hojas de cálculo, Queries de bases de datos con SQL, configuro y trabajo con lenguajes de alto rendimiento como Python, Scala o R y sus herramientas colaborativas. Y adicional a todo esto, si te inclinas más con visualizaciones mi herramienta es PowerBI donde trabajo con dashboards para mostrar gráficos y tendencias.
Facilito el procesamiento y la gestión de las bases de datos relacionales al permitir realizar consultas complejas que extraigan, filtren y agreguen información de forma eficiente. Opero con la normalización, la eliminación de valores atípicos y con la transformación de variables, beneficiando las estructuras que ofrecen los repositorios. Además, a través de herramientas diseñadas, realizo la conexión directa e indirecta a las BBDD, permitiendo pipelines o canalizaciones de datos automatizados que optimizan el flujo de trabajo entre los procesos ETL y su posterior entrenamiento. Utilizo sqlite3 para bases ligeras y MySQL para bases robustas.
Elaboro modelos de Machine Learning basados en el entrenamiento, evaluando y validando los resultados, lo que me permite almacenarlos en conjuntos de entrenamiento, validación y prueba, facilitando la comprensión, comparación de resultados y la realización de experimentos reproducibles, con la verificación de ser necesaria su gestión, implemento técnicas de validación cruzada, que puedan asegurar la generación del modelo con la cautela de no llegar al sobreajuste u overfitting. Para modelos complejos como mencioné anteriormente tales como datos no legibles o no estructurados me apoyo con el etiquetado para poder almacenarlos eficientemente.
Utlizo como herramienta el procesamiento de lenguaje natural o NPL para elaborar prototipos que puedan ser sacados a producción. Para las tareas de preparación de datos me apoyo con las librerías Pandas y NumPy y para el pre-procesamiento dependerá de lo que se necesite analizar ya sea procesadores de textos o imágenes. Los frameworks que utilizo son Tensorflow y su API Keras. Para garantizar patrones realizo la validación cruzada, división en datos de prueba y entrenamiento, monitorizando, a través de curvas ROC, errores cuadráticos o matrices de confusión y precisión, según la necesidad.
Ya sea que los datos provengan de repositorios centralizados o externos este tipo de datos los trabajo con RDD, a través de la distribución computacional, ya que me permiten trabajar de manera rápida y eficiente al poder escalar los repositorios en sus diferentes etapas para grandes capacidades de almacenamiento. Particularmente me baso en cuadernos Jupyter y los principales Kernels para ciencia y procesamiento de datos. Estos sistemas los trabajo con Spark para Scala o PySpark para Python, dejando los datos listos para trabajar con Apache Hadoop y su posterior conexión vía HDFS.
La gestión cloud lo aporto de conocimientos directos con arquitectura Azure, lo que me permite gestionar suscripciones, controles de acceso, gobernanza y conectividad con máquinas virtuales, monitorizando tráfico, redes y almacenes. Mis conocimientos con Azure son fundamentales para soportar arquitecturas e infraestructuras en almacenes, al estar cubierta por las bases esenciales de un Arquitecto de Bases de Datos. La modularidad de las bases de datos con Azure poseen un gap de los módulos AZ-900, AZ-104, AZ-303 y AZ-304 bajo conocimientos sólidos, prácticos y con licencia para ser desplegado en desarrollo.
La creación de visualizaciones y análisis las realizo a través de expresiones de los dataflow y los soporto con herramientas de inteligencia de negocios. Participo en análisis complejos con DAX y sus funciones categóricas para medidas y columnas. El flujo de datos de esta herramienta gráfica, con el almacén lo gestiono con DirectQuery a través de conexión de importaciones robustas por lotes. La creación de estas conexiones con la arquitectura de Business Intelligence y PowerBI me van a permitir crear las dependencias para el tipo de análisis, su sincronización y orquestación desde las fuentes.
*Requerido.
**Asegúrese de ingresar información válida. No será compartida.
+34 641 314 232
C/ Alta de Mar
Almuñecar, 18690
reduardoj@gmail.com
reduardoj@hotmail.com