anotada clase 4 de ia
faltarian las primeras clases que no pude anotar que me habia dado noni
This commit is contained in:
57
IA/4.md
Normal file
57
IA/4.md
Normal file
@@ -0,0 +1,57 @@
|
||||
---
|
||||
title: "Clase 4 IA - BigData"
|
||||
---
|
||||
|
||||
# Tipos de datos
|
||||
- Datos Estructurados:
|
||||
A menudo numeroso etquetas almacenadas en un marco estrucuturados de columnas y filas.
|
||||
|
||||
- Datos Semiestructurados:
|
||||
Organizados libremente en categorias utiilizando etiquetas meta.
|
||||
|
||||
- Datos No Estructurados:
|
||||
Infomracion co muicho texto que no esta organizada en u marco o modelo claramente definido.
|
||||
|
||||
# ETL vs ELT
|
||||
## ETL
|
||||
- Extract:
|
||||
Se obtienen los datos desde diversas fuentes (api, db).
|
||||
|
||||
- Transform:
|
||||
Los dats extraidos son procesados y transformados fuera del sistema destino. Se limpian, formatean y estrcturan de acuerdo a las reglas de negocio.
|
||||
|
||||
- Load:
|
||||
Los datos transformados se cargan en un almacen.
|
||||
|
||||

|
||||
|
||||
## ELT
|
||||
|
||||
- Extract:
|
||||
Los datos son extraidos de las fuentes, igual que en ETL
|
||||
|
||||
- Load:
|
||||
Los datos sin transformar se cargan directamente en el sistema destino.
|
||||
> Es un concepto alimentado por la nube
|
||||
|
||||
- Transform:
|
||||
La transformacion ocurre dentro delo sistema de destino, aprovechando su capacidad de procesamiento.
|
||||
|
||||
## Categorias
|
||||
### Bronce
|
||||
Tener los datos en bruto, por ejemplo, cuando hacemos web-scraping. a veces es json, csv. masomenos estructurados.
|
||||
|
||||
### Plata
|
||||
es el procesamiento de los datos de tipo bronce. simplemnte una pequeña modificacion de los datos que los deje listos para hacer una transformacion mas completa.
|
||||
|
||||
### Oro
|
||||
Es el dato más refinado. Esto es luego de hacer agregaciones (porque necesitan mucho computo). Este es el nivel desde donde deberia consumir el sistema
|
||||
|
||||
Herramientas que se usan:
|
||||
> Azure, Apache spark.
|
||||
|
||||
# Webscrapping
|
||||
Es un procedo mediante el cual extraemos datos de la web de forma medianamente automatizada.
|
||||
|
||||
# Nota
|
||||
escribir la direfencia entre **Data Factory** contra **Data Bricks**.
|
||||
Reference in New Issue
Block a user