anotada clase 4 de ia

faltarian las primeras clases que no pude anotar que me habia dado noni
This commit is contained in:
2025-09-06 09:54:50 -03:00
parent 89dc8de18f
commit aa166f51a7
3 changed files with 57 additions and 0 deletions

BIN
IA/1.jpg Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 39 KiB

57
IA/4.md Normal file
View File

@@ -0,0 +1,57 @@
---
title: "Clase 4 IA - BigData"
---
# Tipos de datos
- Datos Estructurados:
A menudo numeroso etquetas almacenadas en un marco estrucuturados de columnas y filas.
- Datos Semiestructurados:
Organizados libremente en categorias utiilizando etiquetas meta.
- Datos No Estructurados:
Infomracion co muicho texto que no esta organizada en u marco o modelo claramente definido.
# ETL vs ELT
## ETL
- Extract:
Se obtienen los datos desde diversas fuentes (api, db).
- Transform:
Los dats extraidos son procesados y transformados fuera del sistema destino. Se limpian, formatean y estrcturan de acuerdo a las reglas de negocio.
- Load:
Los datos transformados se cargan en un almacen.
![Imagen de referencia](./1.jpg)
## ELT
- Extract:
Los datos son extraidos de las fuentes, igual que en ETL
- Load:
Los datos sin transformar se cargan directamente en el sistema destino.
> Es un concepto alimentado por la nube
- Transform:
La transformacion ocurre dentro delo sistema de destino, aprovechando su capacidad de procesamiento.
## Categorias
### Bronce
Tener los datos en bruto, por ejemplo, cuando hacemos web-scraping. a veces es json, csv. masomenos estructurados.
### Plata
es el procesamiento de los datos de tipo bronce. simplemnte una pequeña modificacion de los datos que los deje listos para hacer una transformacion mas completa.
### Oro
Es el dato más refinado. Esto es luego de hacer agregaciones (porque necesitan mucho computo). Este es el nivel desde donde deberia consumir el sistema
Herramientas que se usan:
> Azure, Apache spark.
# Webscrapping
Es un procedo mediante el cual extraemos datos de la web de forma medianamente automatizada.
# Nota
escribir la direfencia entre **Data Factory** contra **Data Bricks**.

BIN
IA/4.pdf Normal file

Binary file not shown.