Files
2025-2/IA/4.md
fede aa166f51a7 anotada clase 4 de ia
faltarian las primeras clases que no pude anotar que me habia dado noni
2025-09-06 09:54:50 -03:00

58 lines
1.7 KiB
Markdown

---
title: "Clase 4 IA - BigData"
---
# Tipos de datos
- Datos Estructurados:
A menudo numeroso etquetas almacenadas en un marco estrucuturados de columnas y filas.
- Datos Semiestructurados:
Organizados libremente en categorias utiilizando etiquetas meta.
- Datos No Estructurados:
Infomracion co muicho texto que no esta organizada en u marco o modelo claramente definido.
# ETL vs ELT
## ETL
- Extract:
Se obtienen los datos desde diversas fuentes (api, db).
- Transform:
Los dats extraidos son procesados y transformados fuera del sistema destino. Se limpian, formatean y estrcturan de acuerdo a las reglas de negocio.
- Load:
Los datos transformados se cargan en un almacen.
![Imagen de referencia](./1.jpg)
## ELT
- Extract:
Los datos son extraidos de las fuentes, igual que en ETL
- Load:
Los datos sin transformar se cargan directamente en el sistema destino.
> Es un concepto alimentado por la nube
- Transform:
La transformacion ocurre dentro delo sistema de destino, aprovechando su capacidad de procesamiento.
## Categorias
### Bronce
Tener los datos en bruto, por ejemplo, cuando hacemos web-scraping. a veces es json, csv. masomenos estructurados.
### Plata
es el procesamiento de los datos de tipo bronce. simplemnte una pequeña modificacion de los datos que los deje listos para hacer una transformacion mas completa.
### Oro
Es el dato más refinado. Esto es luego de hacer agregaciones (porque necesitan mucho computo). Este es el nivel desde donde deberia consumir el sistema
Herramientas que se usan:
> Azure, Apache spark.
# Webscrapping
Es un procedo mediante el cual extraemos datos de la web de forma medianamente automatizada.
# Nota
escribir la direfencia entre **Data Factory** contra **Data Bricks**.