58 lines
1.7 KiB
Markdown
58 lines
1.7 KiB
Markdown
---
|
|
title: "Clase 4 IA - BigData"
|
|
---
|
|
|
|
# Tipos de datos
|
|
- Datos Estructurados:
|
|
A menudo numeroso etquetas almacenadas en un marco estrucuturados de columnas y filas.
|
|
|
|
- Datos Semiestructurados:
|
|
Organizados libremente en categorias utiilizando etiquetas meta.
|
|
|
|
- Datos No Estructurados:
|
|
Infomracion co muicho texto que no esta organizada en u marco o modelo claramente definido.
|
|
|
|
# ETL vs ELT
|
|
## ETL
|
|
- Extract:
|
|
Se obtienen los datos desde diversas fuentes (api, db).
|
|
|
|
- Transform:
|
|
Los dats extraidos son procesados y transformados fuera del sistema destino. Se limpian, formatean y estrcturan de acuerdo a las reglas de negocio.
|
|
|
|
- Load:
|
|
Los datos transformados se cargan en un almacen.
|
|
|
|

|
|
|
|
## ELT
|
|
|
|
- Extract:
|
|
Los datos son extraidos de las fuentes, igual que en ETL
|
|
|
|
- Load:
|
|
Los datos sin transformar se cargan directamente en el sistema destino.
|
|
> Es un concepto alimentado por la nube
|
|
|
|
- Transform:
|
|
La transformacion ocurre dentro delo sistema de destino, aprovechando su capacidad de procesamiento.
|
|
|
|
## Categorias
|
|
### Bronce
|
|
Tener los datos en bruto, por ejemplo, cuando hacemos web-scraping. a veces es json, csv. masomenos estructurados.
|
|
|
|
### Plata
|
|
es el procesamiento de los datos de tipo bronce. simplemnte una pequeña modificacion de los datos que los deje listos para hacer una transformacion mas completa.
|
|
|
|
### Oro
|
|
Es el dato más refinado. Esto es luego de hacer agregaciones (porque necesitan mucho computo). Este es el nivel desde donde deberia consumir el sistema
|
|
|
|
Herramientas que se usan:
|
|
> Azure, Apache spark.
|
|
|
|
# Webscrapping
|
|
Es un procedo mediante el cual extraemos datos de la web de forma medianamente automatizada.
|
|
|
|
# Nota
|
|
escribir la direfencia entre **Data Factory** contra **Data Bricks**.
|