diff --git a/IA/1.jpg b/IA/1.jpg new file mode 100644 index 0000000..22f07f5 Binary files /dev/null and b/IA/1.jpg differ diff --git a/IA/4.md b/IA/4.md new file mode 100644 index 0000000..a6ac2e9 --- /dev/null +++ b/IA/4.md @@ -0,0 +1,57 @@ +--- +title: "Clase 4 IA - BigData" +--- + +# Tipos de datos +- Datos Estructurados: + A menudo numeroso etquetas almacenadas en un marco estrucuturados de columnas y filas. + +- Datos Semiestructurados: + Organizados libremente en categorias utiilizando etiquetas meta. + +- Datos No Estructurados: + Infomracion co muicho texto que no esta organizada en u marco o modelo claramente definido. + +# ETL vs ELT +## ETL +- Extract: + Se obtienen los datos desde diversas fuentes (api, db). + +- Transform: + Los dats extraidos son procesados y transformados fuera del sistema destino. Se limpian, formatean y estrcturan de acuerdo a las reglas de negocio. + +- Load: + Los datos transformados se cargan en un almacen. + +![Imagen de referencia](./1.jpg) + +## ELT + +- Extract: + Los datos son extraidos de las fuentes, igual que en ETL + +- Load: + Los datos sin transformar se cargan directamente en el sistema destino. + > Es un concepto alimentado por la nube + +- Transform: + La transformacion ocurre dentro delo sistema de destino, aprovechando su capacidad de procesamiento. + +## Categorias +### Bronce +Tener los datos en bruto, por ejemplo, cuando hacemos web-scraping. a veces es json, csv. masomenos estructurados. + +### Plata +es el procesamiento de los datos de tipo bronce. simplemnte una pequeña modificacion de los datos que los deje listos para hacer una transformacion mas completa. + +### Oro +Es el dato más refinado. Esto es luego de hacer agregaciones (porque necesitan mucho computo). Este es el nivel desde donde deberia consumir el sistema + +Herramientas que se usan: +> Azure, Apache spark. + +# Webscrapping +Es un procedo mediante el cual extraemos datos de la web de forma medianamente automatizada. + +# Nota +escribir la direfencia entre **Data Factory** contra **Data Bricks**. diff --git a/IA/4.pdf b/IA/4.pdf new file mode 100644 index 0000000..e01678c Binary files /dev/null and b/IA/4.pdf differ