1. ¿Qué es Big Data?
  2. ¿Y Thick Data? ¿Cuál es el matiz para diferenciar ambos términos?
  3. El gran auge del big data
  4. La importancia de almacenar y extraer información
  5. ¿Cuál es el papel de las fuentes de datos?
  6. Soluciones novedosas gracias a la selección de datos
  7. Naturaleza de las fuentes de datos Big Data

  1. Introducción a la minería de datos y el aprendizaje automático
  2. Proceso KDD
  3. Modelos y Técnicas de Data Mining
  4. Áreas de aplicación
  5. Minería de Textos y Web Mining
  6. Data mining y marketing

  1. ¿Qué es Hadoop? Relación con Big Data
  2. Instalación y configuración de infraestructura y ecosistema Hadoop
  3. Sistema de archivos HDFS
  4. MapReduce con Hadoop
  5. Apache Hive
  6. Apache Hue
  7. Apache Spark

  1. Introducción a Apache Spark: arquitectura y componentes
  2. RDDs (Resilient Distributed Datasets): API básico, operaciones y persistencia
  3. Transformaciones y acciones en RDDs
  4. Programación funcional en Spark: Scala y Python
  5. Entornos de desarrollo para Spark: Spark Standalone, YARN, Kubernetes

  1. DataFrames y Datasets: API estructurada para datos
  2. Lectura y escritura de DataFrames desde diferentes fuentes
  3. Transformaciones en DataFrames: filtros, joins, agregaciones, etc
  4. Funciones SQL en Spark: Spark SQL
  5. Optimización de queries en Spark

  1. Introducción al streaming de datos: conceptos clave
  2. Spark Streaming: API DStream y receptores
  3. Micro-batches y ventanas en streaming
  4. Integración de Spark Streaming con Kafka
  5. Aplicaciones de streaming: análisis de tweets, detección de fraudes, etc

  1. Introducción al Machine Learning: tipos de aprendizaje
  2. MLlib: biblioteca de Machine Learning en Spark
  3. Regresión lineal y logística con Spark
  4. Clasificación de texto con Spark
  5. Clustering con Spark: K-Means, K-NN
  6. Algoritmos avanzados: Random Forest, Gradient Boosting

  1. Introducción a GraphX: API para grafos en Spark
  2. Representación de grafos en GraphX
  3. Algoritmos básicos de grafos: PageRank, Shortest Path
  4. Análisis de comunidades en grafos
  5. Aplicaciones de GraphX: recomendación de productos, análisis de redes sociales

  1. Introducción a la computación en la nube: AWS, Azure, GCP
  2. Servicios de Big Data en la nube: EMR, Dataproc, BigQuery
  3. Implementación de Spark en la nube
  4. Seguridad y escalabilidad en la nube