Skip to content

Unitat 5. Avaluació de dades

5.1. Dades versus informació

Les dades són elements en brut: xifres, paraules, valors, etc. En canvi, la informació és el resultat d’analitzar i interpretar aquestes dades, donant-los context i significat.

5.1.1. Diferències clau entre dades i informació

  • Processament: Les dades són matèria primera; la informació és el producte final.
  • Utilitat: Les dades soles poden tenir poca utilitat sense anàlisi; la informació és rellevant per a la presa de decisions.
  • Context: La informació necessita un marc (temporal, geogràfic, etc.) per ser realment comprensible.

5.2. Cicle de vida de les dades

  1. Recollida: Dades procedents de sensors, formularis, bases de dades externes, etc.
  2. Emmagatzematge: En bases de dades, entorns al núvol o sistemes híbrids.
  3. Processament: Neteja de dades, transformació i fusió de diverses fonts.
  4. Anàlisi i explotació: Generació de models, informes i indicadors.
  5. Arxiu o destrucció: Quan les dades deixen de ser útils o compleixen la seva vida útil segons les polítiques internes o la legislació vigent.

5.2.1. Gestió del cicle de vida de les dades

Cal implementar bones pràctiques de governança (controls d’accés, qualitat de dades, compliment normatiu). També és crucial planificar la retenció i la destrucció de dades, evitant riscos de seguretat o costos innecessaris.


5.3. Big data. Anàlisi de les dades

El big data fa referència a conjunts de dades tan grans i heterogenis que requerixen tecnologies i eines especialitzades per ser gestionats i analitzats.

5.3.1. Característiques del big data

Sovint s’expressen amb “V”: - Volum (quantitat massiva).
- Velocitat (gran rapidesa en la generació de dades).
- Varietat (formats diferents).
- Veracitat (qualitat i fiabilitat).
- Valor (utilitat de la informació extreta).

5.3.2. Relació entre big data, anàlisi de dades, machine/deep learning i intel·ligència artificial

  • Les tècniques de machine learning aprofiten grans conjunts de dades per aprendre i fer prediccions.
  • El deep learning requereix volums de dades encara més grans per entrenar xarxes neuronals profundes.
  • La IA en general s’alimenta de big data per identificar patrons, optimitzar processos i resoldre problemes complexos.

5.3.3. Tipus d’anàlisi de dades

  • Descriptiva: Explica què ha passat o està passant (estadístiques bàsiques, KPIs).
  • Predictiva: Endevina tendències o comportaments futurs, tot modelant dades històriques.
  • Prescriptiva: Recomana accions òptimes basades en els resultats predictius (optimització de rutes, preus dinàmics, etc.).

5.4. Emmagatzematge de dades al núvol

Les plataformes de cloud computing ofereixen recursos escalables i segurs per guardar dades, amb models de pagament per ús.

5.4.1. Importància del cloud computing

Permet a les empreses créixer o reduir serveis en funció de la demanda, sense haver d’invertir en infraestructures físiques. A més, la centralització dels recursos pot redundar en una millora de la seguretat i de la productivitat.


5.5. Etapes de l’enginyeria de dades

  1. Recollida i ingestió: Connectar i integrar diferents fonts (APIs, bases de dades…).
  2. Transformació: Neteges, normalitzacions i canvis de format (ETL —Extract, Transform, Load—).
  3. Emmagatzematge: Seleccionar el tipus de base de dades o data lake adequat.
  4. Modelatge: Definir esquemes i estructures que facilitin l’anàlisi.
  5. Distribució i consum: Oferir dades o analítiques a usuaris, aplicacions i sistemes.

5.5.1. Escenaris en els quals es pot utilitzar la mineria de dades

  • Sector financer: Detecció de frau, anàlisi de riscos.
  • Màrqueting: Segmentació de clients, campanyes dirigides.
  • Sanitat: Estudis poblacionals, personalització de tractaments.
  • Logística: Predicció de demandes, optimització de rutes.

5.6. Aplicació a les empreses de la ciència de dades

La ciència de dades és la disciplina que fusiona estadística, programació i coneixement de negoci per extreure valor a partir de la informació. S’ha convertit en un actiu estratègic per a empreses de tots els sectors.

5.6.1. Obtenció d’informació sobre els clients

Mitjançant l’anàlisi de dades es pot conèixer millor les necessitats i preferències dels clients, millorar la fidelització i identificar noves oportunitats de venda.


5.7. Eines per analitzar les dades

  • Business Intelligence (BI): Microsoft Power BI, Tableau, Qlik.
  • Eines estadístiques i de programació: R, Python (Pandas, NumPy, Matplotlib).
  • Sistemes distribuïts: Hadoop, Spark, per al processament de grans volums.
  • Bases de dades: Relacionals (MySQL, PostgreSQL) o no relacionals (MongoDB, Cassandra).

Conclusió

Les Unitats 3, 4 i 5 mostren la importància de: 1. El núvol (Unitat 3): Com a infraestructura flexible i escalable per al treball i l’emmagatzematge de dades. 2. La intel·ligència artificial (Unitat 4): Impulsada per les dades i l’evolució tecnològica, amb gran impacte en la indústria. 3. L’avaluació de dades (Unitat 5): Fonamental per transformar la informació en coneixement i prendre decisions estratègiques.

La transformació digital dels sectors productius passa, en gran mesura, per un ús intel·ligent del núvol, la IA i l’anàlisi de dades, sempre tenint en compte la ciberseguretat, la privacitat i la sostenibilitat.