Unitat 5. Avaluació de dades
5.1. Dades versus informació
Les dades són elements en brut: xifres, paraules, valors, etc. En canvi, la informació és el resultat d’analitzar i interpretar aquestes dades, donant-los context i significat.
5.1.1. Diferències clau entre dades i informació
- Processament: Les dades són matèria primera; la informació és el producte final.
- Utilitat: Les dades soles poden tenir poca utilitat sense anàlisi; la informació és rellevant per a la presa de decisions.
- Context: La informació necessita un marc (temporal, geogràfic, etc.) per ser realment comprensible.
5.2. Cicle de vida de les dades
- Recollida: Dades procedents de sensors, formularis, bases de dades externes, etc.
- Emmagatzematge: En bases de dades, entorns al núvol o sistemes híbrids.
- Processament: Neteja de dades, transformació i fusió de diverses fonts.
- Anàlisi i explotació: Generació de models, informes i indicadors.
- Arxiu o destrucció: Quan les dades deixen de ser útils o compleixen la seva vida útil segons les polítiques internes o la legislació vigent.
5.2.1. Gestió del cicle de vida de les dades
Cal implementar bones pràctiques de governança (controls d’accés, qualitat de dades, compliment normatiu). També és crucial planificar la retenció i la destrucció de dades, evitant riscos de seguretat o costos innecessaris.
5.3. Big data. Anàlisi de les dades
El big data fa referència a conjunts de dades tan grans i heterogenis que requerixen tecnologies i eines especialitzades per ser gestionats i analitzats.
5.3.1. Característiques del big data
Sovint s’expressen amb “V”:
- Volum (quantitat massiva).
- Velocitat (gran rapidesa en la generació de dades).
- Varietat (formats diferents).
- Veracitat (qualitat i fiabilitat).
- Valor (utilitat de la informació extreta).
5.3.2. Relació entre big data, anàlisi de dades, machine/deep learning i intel·ligència artificial
- Les tècniques de machine learning aprofiten grans conjunts de dades per aprendre i fer prediccions.
- El deep learning requereix volums de dades encara més grans per entrenar xarxes neuronals profundes.
- La IA en general s’alimenta de big data per identificar patrons, optimitzar processos i resoldre problemes complexos.
5.3.3. Tipus d’anàlisi de dades
- Descriptiva: Explica què ha passat o està passant (estadístiques bàsiques, KPIs).
- Predictiva: Endevina tendències o comportaments futurs, tot modelant dades històriques.
- Prescriptiva: Recomana accions òptimes basades en els resultats predictius (optimització de rutes, preus dinàmics, etc.).
5.4. Emmagatzematge de dades al núvol
Les plataformes de cloud computing ofereixen recursos escalables i segurs per guardar dades, amb models de pagament per ús.
5.4.1. Importància del cloud computing
Permet a les empreses créixer o reduir serveis en funció de la demanda, sense haver d’invertir en infraestructures físiques. A més, la centralització dels recursos pot redundar en una millora de la seguretat i de la productivitat.
5.5. Etapes de l’enginyeria de dades
- Recollida i ingestió: Connectar i integrar diferents fonts (APIs, bases de dades…).
- Transformació: Neteges, normalitzacions i canvis de format (ETL —Extract, Transform, Load—).
- Emmagatzematge: Seleccionar el tipus de base de dades o data lake adequat.
- Modelatge: Definir esquemes i estructures que facilitin l’anàlisi.
- Distribució i consum: Oferir dades o analítiques a usuaris, aplicacions i sistemes.
5.5.1. Escenaris en els quals es pot utilitzar la mineria de dades
- Sector financer: Detecció de frau, anàlisi de riscos.
- Màrqueting: Segmentació de clients, campanyes dirigides.
- Sanitat: Estudis poblacionals, personalització de tractaments.
- Logística: Predicció de demandes, optimització de rutes.
5.6. Aplicació a les empreses de la ciència de dades
La ciència de dades és la disciplina que fusiona estadística, programació i coneixement de negoci per extreure valor a partir de la informació. S’ha convertit en un actiu estratègic per a empreses de tots els sectors.
5.6.1. Obtenció d’informació sobre els clients
Mitjançant l’anàlisi de dades es pot conèixer millor les necessitats i preferències dels clients, millorar la fidelització i identificar noves oportunitats de venda.
5.7. Eines per analitzar les dades
- Business Intelligence (BI): Microsoft Power BI, Tableau, Qlik.
- Eines estadístiques i de programació: R, Python (Pandas, NumPy, Matplotlib).
- Sistemes distribuïts: Hadoop, Spark, per al processament de grans volums.
- Bases de dades: Relacionals (MySQL, PostgreSQL) o no relacionals (MongoDB, Cassandra).
Conclusió
Les Unitats 3, 4 i 5 mostren la importància de: 1. El núvol (Unitat 3): Com a infraestructura flexible i escalable per al treball i l’emmagatzematge de dades. 2. La intel·ligència artificial (Unitat 4): Impulsada per les dades i l’evolució tecnològica, amb gran impacte en la indústria. 3. L’avaluació de dades (Unitat 5): Fonamental per transformar la informació en coneixement i prendre decisions estratègiques.
La transformació digital dels sectors productius passa, en gran mesura, per un ús intel·ligent del núvol, la IA i l’anàlisi de dades, sempre tenint en compte la ciberseguretat, la privacitat i la sostenibilitat.