Arquitectura e ingeniería de datos
Autor/a : Walter E. Calcagno Lucares
Esta obra proporciona una introducción accesible y completa a los conceptos clave, las técnicas y las mejores prácticas en el campo de la arquitectura y la ingeniería de datos, sin la necesidad de conocimientos previos en programación o estadísticas.
Índice
Introducción y cómo usar este libro Introducción Cómo usar este libro Por qué decidí escribir este libro Convenios utilizados en el libro Ejemplos y recursos del libro 1. ¿Qué es la ciencia de datos? Definición de ciencia de datos ¿Cómo se llega a esto? Pasar de los datos a la verdad Pirámide de la sabiduría Proceso de obtención de sabiduría La importancia de los patrones en la toma de decisiones basada en datos La transformación digital Propósito de la transformación digital Elementos de la transformación digital Desafíos y estrategias de implementación Futuro de la transformación digital 2. Roles en la ciencia de datos Roles en la ciencia de datos Roles y profesionales en la ciencia de datos Roles en gobierno de datos Roles en ejecución y seguimiento de proyectos Roles en desarrollo de software 3. Preguntas de negocios Los tomadores de decisiones Automatizar la decisión Cómo decidir correctamente La pirámide organizacional Las preguntas generales de negocios Recapitulando sobre preguntas generales de negocios Los análisis derivados de cada pregunta general La inteligencia de negocios La analítica avanzada Resumen 4. El análisis descriptivo de datos Una breve historia del análisis descriptivo de los datos ¿Cómo realizar, entonces, un análisis descriptivo? Análisis exploratorio de datos Medidas de tendencia central Medidas de dispersión Diagrama de caja y bigotes o box-plot Análisis de inteligencia de tiempo Medidas de acumulación 5. Análisis diagnóstico Análisis diagnóstico Elementos de causa y efecto Diagrama de Ishikawa Diagramas de flujos Análisis de correlaciones Ejemplos de análisis de correlación usando Excel, Power BI y Python Análisis de probabilidad condicional Conceptos básicos de probabilidad Probabilidad condicional Teorema de Bayes Introducción a la teoría de juegos Equilibrio de Nash Resumen 6. El análisis predictivo El análisis predictivo Fundamentos de aprendizaje automático e inteligencia artificial Un poco de historia Conceptos generales en IA Modelos de regresión lineal y análisis en series de tiempo Modelos de regresión lineal Análisis de series de tiempo Principios de arquitectura para el aprendizaje automático e inteligencia artificial Ciclo de desarrollo y consumo Automatización y orquestación Integración continua y MLOps Resumen 7. Análisis prescriptivo El análisis prescriptivo El caso Mercado Libre Modelos basados en optimización o ajuste matemático Programación lineal Programación no lineal Modelos de simulación Simulación estocástica Simulación determinística Simulación de Montecarlo Modelos de recomendaciones Filtrado basado en contenido Filtrado basado en el usuario Filtrado híbrido Resumen 8. ¿Qué son los datos? Los datos La paradoja del dato Dando valor al dato Física y electrónica de datos Clasificación primaria de los datos Generación y captura de datos Los metadatos Los macrodatos Una breve historia Arquitecturas de macrodatos Resumen 9. Tipos de datos Clasificación implícita Datos numéricos Datos categóricos Clasificación de tipo informática Según su forma de almacenamiento físico Datos almacenados en filas Datos columnares Según su encriptación y compresión 10. Modelado dimensional de datos Las bases de datos Motores SQL Motores NoSQL ¿Cuál usar: SQL o NoSQL? Plantillas de cálculo Vistas y procedimientos almacenados Vistas Consultas anidadas y CTE (Common Table Expressions) Procedimientos almacenados o funciones Modelos estrella y copos de nieve Tablas de hechos y granularidad Tablas de dimensiones y multidimensionalidad Modelos estrella Modelos copo de nieve Modelos constelación Resumen 11. Diseñando arquitecturas de datos La misión de la arquitectura de datos Definición y capas de arquitectura Principales desafíos de la arquitectura de datos Enfoque individual o de silos Escalabilidad en los datos Definición de escalabilidad Enfoque de integración continua Integración continua (CI/CD) Las operaciones de datos o DataOps Las operaciones de machine learning o MLOps Resumen 12. Diseños principales de arquitecturas de datos Evolución de los sistemas de almacenamiento analítico Los primeros pasos (1887-1990) La revolución analítica de los 90 UCAD, unidad centralizada para análisis de datos La primera división La segunda división, autoservicio y UCAD El paradigma Data Mesh Los productos analíticos 'Domain Driven Design' Productos analíticos orientados al dominio Dilema 'on-premise' versus nube Estrategias de arquitecturas en la nube Caminos para la adopción de nube Resumen 13. Capas de arquitectura Las siete capas de arquitectura Capa de origen e ingesta de datos Capa de procesamiento y almacenamiento de datos Capa de servicios Capa de consumo Gobierno de datos Seguridad de datos Monitoreo y análisis Diseños de arquitectura Alto nivel Diseños de detalles Resumen 14. Ingeniería de datos Ingeniería de datos Las tres primeras capas Herramientas de extracción Organizando nuestro 'data lake' o 'lakehouse' Azure Data Factory Ejemplo de extracción y carga Resumen 15. Iteraciones y transformaciones 'Pipelines', iteraciones y parámetros Elementos clave de ADF Control de flujo Iteraciones Parámetros Ejemplo de ADF con parámetros e iteradores Transformar datos Data Flow de ADF Power Query Resumen 16. Ingeniería de datos con Microsoft Fabric Qué es Microsoft Fabric Primeros pasos en Fabric Capa de orígenes e ingesta Fabric Data Factory Synapse Stream Analytics Capa de almacenamiento o One Lake Capa de servicios Spark Capa de consumo Resumen 17. Fundamentos de Azure Microsoft Azure Distribución y nomenclatura global de Azure Administración de los servicios de Azure Servicios en la nube Infraestructura como servicio (IaaS) Plataforma como servicio (PaaS) Software como servicio (SaaS) Modelo de responsabilidad compartida Principales productos de IaaS en Azure Principales productos de PaaS en Azure Seguridad y gobierno en Azure Control de costes y gastos en Azure La gran 'pipeline' Microsoft Cost Management Resumen Índice alfabético