AI, ML, Deep Learnig differenze e gerarchia

// obiettivi di apprendimento

✓Spiegare la gerarchia AI ⊃ ML ⊃ DL e perché ogni livello è un sottoinsieme del precedente

✓Classificare il Machine Learning in supervised, unsupervised e reinforcement learning con esempi concreti

✓Descrivere il Deep Learning e spiegare perché le reti neurali “profonde” superano il ML classico su dati non strutturati

✓Applicare un decision tree per scegliere l’approccio giusto (ML classico vs DL) dato un problema reale

🎬

Video

Lezione completa su YouTube

Guarda →

📄

Cheatsheet

cheatsheet-ai-ml-dl-tassonomia.md

GitHub →

⚗️

Lab

ex-ai-l1-m1-ai-use-cases.md

GitHub →

🔗

Risorse

Documentazione e corsi

Vedi →

La gerarchia AI ⊃ ML ⊃ DL

I termini “AI”, “Machine Learning” e “Deep Learning” vengono usati spesso come sinonimi, ma hanno significati precisi e una relazione gerarchica ben definita: ogni livello è un sottoinsieme specializzato del precedente.

INTELLIGENZA ARTIFICIALE

Qualsiasi tecnica che permette a una macchina di simulare intelligenza

MACHINE LEARNING

Algoritmi che apprendono dai dati senza essere esplicitamente programmati

DEEP LEARNING

Reti neurali con molti strati — imparano rappresentazioni gerarchiche

AI include anche:

Sistemi esperti, logica fuzzy, algoritmi evolutivi, pianificazione automatica

ML classico include:

Decision tree, SVM, Random Forest, K-means, regressione lineare/logistica

DL include:

CNN, RNN, LSTM, Transformer, GAN, Diffusion Models, LLM

Machine Learning — i tre paradigmi di apprendimento

Il Machine Learning si divide in tre paradigmi fondamentali in base alla natura dei dati di addestramento e alla presenza o meno di feedback.

① Supervised Learning — apprendimento supervisionato

// idea fondamentale

Il modello viene addestrato su un dataset di coppie (input → output corretto). Come uno studente che impara guardando esempi già risolti con le correzioni. L’obiettivo: imparare una funzione che mappa nuovi input verso l’output corretto.

CLASSIFICAZIONE

Output = categoria discreta
Esempi: email spam/non-spam, immagine gatto/cane, diagnosi positivo/negativo

REGRESSIONE

Output = valore continuo
Esempi: prezzo di una casa, temperatura domani, valore azione tra 30 giorni

Algoritmi classici: Regressione lineare/logistica, Decision Tree, Random Forest, SVM, Gradient Boosting (XGBoost, LightGBM), K-Nearest Neighbors

② Unsupervised Learning — apprendimento non supervisionato

// idea fondamentale

Il modello riceve solo input, senza etichette. Deve trovare struttura, pattern e raggruppamenti nascosti autonomamente. Come esplorare una città nuova senza mappa: ci si fa un’idea della struttura da soli.

CLUSTERING

Raggruppa dati simili. Es: segmentazione clienti, topic modeling, anomaly detection

DIMENSIONALITY RED.

Comprime i dati mantenendo l’informazione. Es: PCA, t-SNE, visualizzazione dati ad alta dimensione

GENERAZIONE

Impara la distribuzione dei dati per generarne di nuovi. Es: GAN, Variational Autoencoder

Algoritmi classici: K-Means, DBSCAN, Hierarchical Clustering, PCA, Autoencoder, IsolationForest

③ Reinforcement Learning — apprendimento per rinforzo

// idea fondamentale

Un agente interagisce con un ambiente, compie azioni e riceve ricompense o penalità. Impara a massimizzare la ricompensa cumulativa nel tempo — come addestrare un cane con i premi. Non c’è dataset: il modello genera i propri dati esplorando l’ambiente.

AGENTE

compie azione

→

AMBIENTE

nuovo stato + reward

→

AGENTE

aggiorna policy

Esempi celebri: AlphaGo/AlphaZero (Go, scacchi), OpenAI Five (Dota 2), ChatGPT (RLHF — Reinforcement Learning from Human Feedback), robot che imparano a camminare, guida autonoma

Paradigma	Dati di input	Feedback	Problema tipico	Algoritmo esempio
Supervised	Input + etichetta corretta	Errore rispetto all’etichetta	Classificazione, regressione	Random Forest, XGBoost, SVM
Unsupervised	Solo input, nessuna etichetta	Nessuno (o intrinseco)	Clustering, compressione, generazione	K-Means, PCA, Autoencoder
Reinforcement	Stato dell’ambiente	Reward/penalità dall’ambiente	Controllo, giochi, robotica	Q-Learning, PPO, AlphaZero

Deep Learning — dentro la scatola nera

Il Deep Learning è un sottoinsieme del ML che usa reti neurali artificiali con molti strati nascosti. La parola “profondo” (deep) si riferisce proprio alla profondità della rete — il numero di strati di trasformazione applicati ai dati in sequenza.

// una rete neurale — schematizzata

INPUT

pixel / testo
/ sensori

HIDDEN 1

feature base

HIDDEN 2

feature complesse

OUTPUT

classe / valore
/ prossimo token

Ogni nodo (neurone artificiale) riceve input, li moltiplica per pesi w, somma un bias b e passa il risultato attraverso una funzione di attivazione non lineare. L’addestramento — tramite backpropagation e gradient descent — aggiusta iterativamente tutti i pesi per minimizzare l’errore.

Perché “deep” cambia tutto

In un ML classico, l’ingegnere deve estrarre manualmente le feature rilevanti dai dati grezzi (feature engineering). Con il deep learning, questa operazione avviene automaticamente nei layer nascosti: ogni strato impara una rappresentazione progressivamente più astratta.

// esempio — riconoscimento facciale

Layer 1

Impara bordi e gradienti di colore (pixel grezzi)

Layer 2

Impara angoli, curve, texture

Layer 3

Impara occhi, naso, bocca

Layer finale

Riconosce l’identità della persona

Architetture di Deep Learning — panoramica

Architettura	Sigla	Specializzata per	Esempio applicazione
Convolutional Neural Network	`CNN`	Dati spaziali — immagini, video	Face ID, diagnosi radiologica, autonomous driving
Recurrent Neural Network	`RNN/LSTM`	Sequenze temporali — testo, audio, serie storiche	Traduzione automatica (pre-Transformer), predizione serie storiche
Transformer	`Attention`	Sequenze con relazioni a lunga distanza	GPT-4, BERT, DALL-E, Gemini, Whisper (audio)
Generative Adversarial Network	`GAN`	Generazione di dati sintetici realistici	Deepfake, generazione immagini (StyleGAN)
Diffusion Model	`DM`	Generazione immagini ad alta qualità	Stable Diffusion, DALL-E 3, Midjourney

ML classico vs Deep Learning — quando usare cosa

Non esiste una risposta universale: la scelta dipende dal tipo di dato, dalla quantità di esempi disponibili, dalla necessità di spiegabilità e dalle risorse computazionali.

Criterio	ML Classico	Deep Learning
Tipo di dato	Tabellare strutturato (CSV, database)	Non strutturato: immagini, testo, audio, video
Dimensione dataset	Funziona bene anche con pochi 1.000 esempi	Richiede generalmente 100.000+ esempi
Risorse computazionali	CPU standard, pochi minuti di training	GPU/TPU, ore/giorni di training
Spiegabilità	Alta — Decision Tree è interpretabile	Bassa — “scatola nera” (XAI in sviluppo)
Feature engineering	Necessario — l’esperto crea le feature	Automatico — la rete impara le feature
Prestazioni su dati non strutturati	Mediocri senza molta pre-elaborazione	State-of-the-art in quasi tutti i task
Regolamentazione/Compliance	Più adatto (GDPR, settore finanziario)	Problematico senza XAI

// decision tree — quale approccio scegliere?

❓ I dati sono immagini, testo o audio?

↳ Sì → Deep Learning (CNN per immagini / Transformer per testo-audio)

↳ No, sono dati tabellari strutturati →

❓ Hai meno di ~10.000 campioni etichettati?

↳ Sì → ML classico (XGBoost, Random Forest, Logistic Regression)

↳ No, ho dati abbondanti →

❓ Il risultato deve essere spiegabile (es. credito, medicina)?

↳ Sì → ML classico interpretabile (Decision Tree, Logistic Regression)

↳ No → XGBoost o Deep Learning tabellare (TabNet, MLP)

// regola pratica di Andrej Karpathy

L’ex direttore AI di Tesla e OpenAI ha detto: “Non addestrare reti neurali se puoi farlo senza.” Prima di saltare al deep learning, prova sempre con modelli più semplici: sono più veloci da addestrare, più facili da debuggare e spesso performano meglio su dataset piccoli. Il deep learning si guadagna il suo posto solo quando i dati e il problema lo giustificano.

Applicazioni reali — dove vive ognuno

ML CLASSICO in produzione

Scoring credito bancario — XGBoost su dati finanziari strutturati (trasparenza richiesta da GDPR)
Manutenzione predittiva — Random Forest su sensori IoT industriali per predire guasti
Rilevamento frodi — Isolation Forest su transazioni in tempo reale (bassa latenza, pochi dati etichettati)
Raccomandazione prodotti — Collaborative Filtering su dati di acquisto (Amazon, Spotify)

DEEP LEARNING in produzione

GPT-4 / ChatGPT — Transformer LLM da ~1,8T parametri per generazione testo universale
Face ID di Apple — CNN per riconoscimento facciale 3D con 1:1.000.000 di falsi positivi
AlphaFold 2 — Transformer che predice la struttura 3D delle proteine dalla sequenza aminoacidica
Tesla Autopilot — CNN multi-camera per percezione 360° e guida autonoma in tempo reale

📌 Riepilogo — Punti chiave

La gerarchia è AI ⊃ ML ⊃ DL: l’AI è il campo più ampio, il ML un approccio specifico basato sui dati, il DL una famiglia di algoritmi ML basati su reti neurali profonde
Il ML si divide in tre paradigmi: supervised (dati etichettati), unsupervised (struttura nascosta), reinforcement (agente-ambiente-reward)
Il Deep Learning eccelle su dati non strutturati perché impara feature gerarchiche automaticamente attraverso i layer nascosti, eliminando il feature engineering manuale
Per dati tabellari strutturati con pochi esempi, il ML classico (XGBoost, Random Forest) spesso batte il deep learning — è più veloce, spiegabile e richiede meno risorse
L’architettura Transformer (2017) è alla base di GPT, BERT, Stable Diffusion — è la rivoluzione che ha reso possibile la Generative AI moderna

// link utili

🗺️

Scikit-learn — Choosing the right estimator

scikit-learn.org · Mappa interattiva per scegliere l’algoritmo ML giusto in base al problema

↗ 🧪

TensorFlow Playground

playground.tensorflow.org · Visualizza e sperimenta reti neurali in tempo reale nel browser — no codice

↗ 📄

Attention Is All You Need — Vaswani et al. (2017)

arxiv.org · Il paper originale che introduce l’architettura Transformer — la base di GPT e tutta la GenAI

↗