- ¿Qué es Big Data?
- ¿Y Thick Data? ¿Cuál es el matiz para diferenciar ambos términos?
- El gran auge del big data
- La importancia de almacenar y extraer información
- ¿Cuál es el papel de las fuentes de datos?
- Soluciones novedosas gracias a la selección de datos
- Naturaleza de las fuentes de datos Big Data
- Introducción a la minería de datos y el aprendizaje automático
- Proceso KDD
- Modelos y Técnicas de Data Mining
- Áreas de aplicación
- Minería de Textos y Web Mining
- Data mining y marketing
- ¿Qué es Hadoop? Relación con Big Data
- Instalación y configuración de infraestructura y ecosistema Hadoop
- Sistema de archivos HDFS
- MapReduce con Hadoop
- Apache Hive
- Apache Hue
- Apache Spark
- Introducción a Apache Spark: arquitectura y componentes
- RDDs (Resilient Distributed Datasets): API básico, operaciones y persistencia
- Transformaciones y acciones en RDDs
- Programación funcional en Spark: Scala y Python
- Entornos de desarrollo para Spark: Spark Standalone, YARN, Kubernetes
- DataFrames y Datasets: API estructurada para datos
- Lectura y escritura de DataFrames desde diferentes fuentes
- Transformaciones en DataFrames: filtros, joins, agregaciones, etc
- Funciones SQL en Spark: Spark SQL
- Optimización de queries en Spark
- Introducción al streaming de datos: conceptos clave
- Spark Streaming: API DStream y receptores
- Micro-batches y ventanas en streaming
- Integración de Spark Streaming con Kafka
- Aplicaciones de streaming: análisis de tweets, detección de fraudes, etc
- Introducción al Machine Learning: tipos de aprendizaje
- MLlib: biblioteca de Machine Learning en Spark
- Regresión lineal y logística con Spark
- Clasificación de texto con Spark
- Clustering con Spark: K-Means, K-NN
- Algoritmos avanzados: Random Forest, Gradient Boosting
- Introducción a GraphX: API para grafos en Spark
- Representación de grafos en GraphX
- Algoritmos básicos de grafos: PageRank, Shortest Path
- Análisis de comunidades en grafos
- Aplicaciones de GraphX: recomendación de productos, análisis de redes sociales
- Introducción a la computación en la nube: AWS, Azure, GCP
- Servicios de Big Data en la nube: EMR, Dataproc, BigQuery
- Implementación de Spark en la nube
- Seguridad y escalabilidad en la nube