Applicazioni reali AI - profgiagnotti.it

// obiettivi di apprendimento

✓Descrivere le cinque macro-aree applicative dell’AI — Computer Vision, NLP, Reinforcement Learning, Robotica e Generative AI — con esempi di prodotti reali per ognuna

✓Collegare ogni applicazione al paradigma di ML sottostante (supervised, unsupervised o RL) e al tipo di dato utilizzato (immagini, testo, segnali, ecc.)

✓Spiegare come funzionano a grandi linee i modelli generativi (GAN, diffusion model, LLM) e citare i prodotti più noti che li utilizzano

✓Riconoscere limiti etici e pratici delle applicazioni AI reali: bias, consumo energetico, interpretabilità e sicurezza

🎬

Video

Tour visivo delle 5 grandi aree applicative dell’AI con demo live

Guarda →

📄

Slides

Mappa applicazioni AI, tabella dominio→dato→modello→prodotto

Scarica →

⚗️

Lab

Esercitazione: classifica 10 prodotti AI reali per dominio, dato e paradigma

GitHub →

🔗

Risorse

Papers fondativi, demo Hugging Face e AI Now Institute

Vedi →

Panoramica: dall’algoritmo al prodotto reale

Finora abbiamo parlato di AI in modo astratto — paradigmi, architetture, gerarchia. In questa lezione facciamo il salto opposto: partiamo dai prodotti che usi ogni giorno e risaliamo al tipo di AI che li alimenta. L’obiettivo non è memorizzare nomi, ma capire che l’AI non è una tecnologia monolitica: è un insieme di tecniche specializzate, ognuna ottimizzata per un tipo di dato e di problema.

👁️

COMPUTER
VISION

💬

NATURAL
LANGUAGE

🎮

REINFORCE-
MENT RL

🤖

ROBOTICA
& AUTO

✨

GENERATIVE
AI

—

① Computer Vision — insegnare alle macchine a vedere

La Computer Vision (CV) è il campo dell’AI che permette ai computer di interpretare e analizzare immagini e video. Il dato di input è una matrice di pixel: un’immagine a colori 224×224 è una tensore 224×224×3 (canali RGB). Le reti neurali convoluzionali (CNN) sono l’architettura dominante: rilevano automaticamente bordi, texture, forme e oggetti in modo gerarchico.

Task principali

IMAGE CLASSIFICATION

Assegna un’etichetta all’intera immagine. Input: immagine. Output: classe (es. “gatto”). Benchmark storico: ImageNet con 1.000 categorie. Modelli noti: ResNet, EfficientNet, ViT.

OBJECT DETECTION

Localizza e classifica più oggetti nell’immagine con bounding box. Algoritmi: YOLO (You Only Look Once), Faster R-CNN, SSD. Usato in auto a guida autonoma, sorveglianza, droni.

SEMANTIC SEGMENTATION

Assegna una classe a ogni singolo pixel. Permette di distinguere “asfalto”, “pedone”, “cielo” pixel per pixel. Usato in diagnostica medica (segmentazione tumore) e guida autonoma.

FACE RECOGNITION

Identifica o verifica persone dal volto. Tecnica: embedding facciale in spazio vettoriale, poi confronto di distanza. Usato in sblocco smartphone, controllo accessi, app foto.

// prodotti reali che usi già

Google Foto raggruppa automaticamente le immagini per volto e oggetto. Tesla Autopilot usa CV per rilevare veicoli, pedoni e segnali stradali in tempo reale. Instagram applica filtri AR rilevando il viso con CV. Radiologia AI (Google DeepMind, Philips) detecta anomalie in RX e TAC con accuratezza paragonabile ai medici specialisti.

—

② Natural Language Processing — insegnare alle macchine a leggere

Il Natural Language Processing (NLP) è il campo che permette alle macchine di comprendere, generare e tradurre il linguaggio umano. Il testo è una sequenza discreta di token (parole o sotto-parole): a differenza delle immagini, non ha struttura spaziale fissa. La svolta moderna è arrivata con l’architettura Transformer (Vaswani et al., 2017, Google), che ha reso possibile modelli come BERT, GPT e T5.

Task principali NLP

Task	Descrizione	Esempio prodotto	Tipo ML
Sentiment Analysis	Classifica l’emozione di un testo (positivo/negativo/neutro)	Recensioni Amazon, Twitter brand monitoring	Supervised
Machine Translation	Traduce da una lingua a un’altra	DeepL, Google Translate	Supervised (seq2seq)
Named Entity Recognition	Identifica nomi propri, luoghi, organizzazioni nel testo	Motori di ricerca, sistemi HR	Supervised
Question Answering	Risponde a domande estratte da un documento	Alexa, Siri, Google Search	Supervised (fine-tuning)
Text Summarization	Genera un riassunto automatico di un documento	Notion AI, Microsoft Copilot	Supervised / generativo
Text Generation	Genera testo coerente dato un prompt	ChatGPT, Claude, Gemini	Self-supervised (LLM)

// come funziona un Transformer (in 30 secondi)

Il testo viene spezzato in token (es. “intelligenza” → [“intel”, “##ligenza”]). Ogni token è trasformato in un vettore numerico (embedding). Il meccanismo di self-attention calcola quanto ogni token è “rilevante” per tutti gli altri: permette al modello di capire che in “la banca del fiume” la parola “banca” riguarda la riva, non il denaro. Gli strati Transformer impilati costruiscono una comprensione sempre più profonda del contesto. Il pre-training su miliardi di testi (Wikipedia, libri, web) fornisce conoscenza generica; il fine-tuning su task specifici la specializza.

—

③ Reinforcement Learning — insegnare alle macchine a decidere

Nel Reinforcement Learning (RL) non ci sono dataset etichettati: l’agente impara interagendo con un ambiente, ricevendo reward positivi per le azioni corrette e penalità per quelle sbagliate. È il paradigma più vicino al modo in cui un bambino impara a camminare o un giocatore di scacchi impara le strategie.

Case study storici

♟️

ALPHAGO / ALPHAZERO — DEEPMIND (2016–2017)

AlphaGo ha battuto il campione mondiale Lee Sedol nel gioco del Go, considerate impossibile per l’AI per l’enormità dello spazio di ricerca (più posizioni possibili degli atomi nell’universo). AlphaZero, la versione successiva, ha imparato scacchi, shogi e Go da zero in meno di 24 ore usando solo RL puro, senza conoscenza umana precodificata.

🕹️

ATARI DQN — DEEPMIND (2013)

Deep Q-Network ha imparato a giocare 49 giochi Atari direttamente dai pixel dello schermo, senza conoscere le regole, raggiungendo performance sopra umane in molti titoli. Input: frame video. Output: tasto da premere. Reward: punteggio del gioco.

🌡️

GOOGLE DATACENTER COOLING — DEEPMIND (2018)

RL applicato al controllo del raffreddamento dei data center Google: riduzione del 40% del consumo energetico rispetto ai sistemi automatici precedenti. Il reward è definito come il minimo consumo mantenendo le temperature entro soglia di sicurezza.

—

④ Robotica e veicoli autonomi

La robotica moderna combina più sottocampi AI: CV per percepire l’ambiente, RL per pianificare le azioni, e sistemi di controllo per eseguirle. Il problema fondamentale è il sim-to-real gap: un robot addestrato in simulazione deve funzionare nel mondo fisico caotico e imprevedibile.

BRACCI ROBOTICI

OpenAI Dactyl ha addestrato una mano robotica a risolvere il cubo di Rubik usando RL su simulazione, poi trasferito sul hardware reale. Amazon Robotics usa CV + RL per movimentare pacchi nei magazzini.

GUIDA AUTONOMA

Tesla FSD, Waymo e Cruise usano CV (camere, LiDAR, radar) + fusione sensoriale + predizione traiettoria per guidare. La pipeline: percezione → predizione degli altri agenti → pianificazione → controllo.

DRONI AUTONOMI

Amazon Prime Air usa CV per evitare ostacoli e identificare zone di atterraggio sicure. I droni militari come Kargu-2 combinano riconoscimento target e navigazione autonoma — scenario che apre urgenti questioni etiche.

// limite critico: safety

Un sistema AI in un robot fisico può causare danni reali. Il problema della specification gaming (il modello ottimizza la reward senza capire l’intenzione) è particolarmente pericoloso: un robot addestrato a non ferirsi potrebbe semplicemente evitare di muoversi. La verifica formale della sicurezza dei sistemi AI fisici è un campo di ricerca attivo e urgente.

—

⑤ Generative AI — macchine che creano

La Generative AI è l’area che più ha catturato l’attenzione pubblica negli ultimi anni. Invece di classificare o predire, questi modelli generano nuovi contenuti: immagini, testo, audio, video, codice. Esistono tre architetture principali che è utile conoscere.

GAN — Generative Adversarial Networks (Goodfellow, 2014)

🎨

GENERATORE

rumore → immagine falsa

immagine generata

→

🔍

DISCRIMINATORE

vera o falsa?

feedback errore

←

🖼️

DATASET REALE

immagini vere

Il generatore impara a ingannare il discriminatore. Il discriminatore impara a smascherare il generatore. Il gioco competitivo porta entrambi a migliorare.

Le GAN hanno prodotto risultati spettacolari nel photo-realistic image synthesis. Il sito thispersondoesnotexist.com genera volti umani realistici che non appartengono a nessuno, usando StyleGAN di NVIDIA.

Diffusion Models (2020–2022)

I diffusion model hanno superato le GAN nella qualità delle immagini generate. Il processo di training ha due fasi: il forward process aggiunge progressivamente rumore gaussiano a un’immagine reale fino a renderla puro rumore; il reverse process addestra una rete a derumorare passo-passo, imparando a ricostruire l’immagine originale. Durante l’inferenza, si parte da rumore casuale e si applica il reverse process guidato da un prompt testuale.

// prodotti basati su diffusion models

DALL-E 3 (OpenAI), Stable Diffusion (Stability AI, open source), Midjourney e Adobe Firefly. Tutti generano immagini a partire da descrizioni testuali. Adobe ha addestrato Firefly esclusivamente su immagini con licenza per evitare problemi di copyright — un tema sempre più critico nel settore.

Large Language Models (LLM)

Un LLM è un Transformer addestrato su enormi corpus testuali con l’obiettivo di predire il prossimo token: dato “il gatto è sul” il modello deve prevedere “mat”. Questo compito apparentemente banale, ripetuto miliardi di volte su miliardi di testi, porta il modello ad acquisire una rappresentazione implicita della grammatica, dei fatti del mondo, del ragionamento e persino della programmazione.

Modello	Azienda	Anno	Parametri	Note
GPT-4	OpenAI	2023	~1.8T (stimati)	Multimodale (testo + immagini), usato in ChatGPT
Gemini Ultra	Google DeepMind	2024	N/D	Integrato in Google Search, Workspace, Android
Claude 3	Anthropic	2024	N/D	Focus su safety e Constitutional AI
LLaMA 3	Meta	2024	8B / 70B / 405B	Open source, eseguibile in locale
Mistral 7B	Mistral AI	2023	7B	Efficiente, open source, ottimo per hardware consumer

—

Tabella riassuntiva: dominio → dato → modello → prodotto

Dominio	Tipo di dato	Paradigma ML	Architettura tipica	Esempio prodotto
Computer Vision	Immagini, video	Supervised	CNN, ViT	Google Foto, Tesla FSD, RX AI
NLP — Comprensione	Testo	Supervised (fine-tuning)	Transformer (BERT)	Google Search, Alexa, Grammarly
NLP — Generazione	Testo	Self-supervised	Transformer decoder (GPT)	ChatGPT, Claude, Copilot
Traduzione	Testo parallelo	Supervised (seq2seq)	Encoder-Decoder Transformer	DeepL, Google Translate
Giochi e controllo	Stato ambiente	Reinforcement Learning	DQN, PPO, AlphaZero	AlphaGo, AI datacenter cooling
Guida autonoma	Camere, LiDAR, radar	Supervised + RL	CNN + fusione sensoriale	Tesla Autopilot, Waymo
Generazione immagini	Immagini + testo	Self-supervised / generativo	GAN, Diffusion Model	DALL-E, Midjourney, Firefly
Speech Recognition	Audio (segnale)	Supervised	Transformer (Whisper)	Siri, Google Assistant, Whisper
Recommendation	Interazioni utente	Supervised + Unsupervised	Collaborative filtering, DNN	Netflix, Spotify, TikTok

—

Limiti reali: quello che l’AI non sa fare (ancora)

// non esagerare con le aspettative

BIAS NEI DATI

Un modello addestrato su dati storici impara i bias storici. Il sistema COMPAS per la valutazione del rischio di recidiva mostrava bias razziali sistematici. I dataset di CV con poca diversità etnica danno face recognition meno accurato per certi gruppi.

MANCANZA DI CAUSALITÀ

I modelli ML trovano correlazioni, non cause. Un modello che predice l’influenza dal numero di vendite di paracetamolo non ha capito nulla — ha solo trovato una correlazione. Questo è pericoloso in medicina, finanza e politica pubblica.

CONSUMO ENERGETICO

Il training di GPT-3 ha consumato circa 1.287 MWh di energia, equivalente all’impronta di carbonio di 5 auto per tutta la loro vita. I LLM moderni costano centinaia di milioni di dollari in compute. La sostenibilità dell’AI è un tema aperto.

ALLUCINAZIONI LLM

I Large Language Model generano testo plausibile ma non necessariamente vero. “Allucinano” riferimenti bibliografici inesistenti, date errate, fatti inventati. Non hanno un meccanismo interno di verifica della verità — producono la sequenza di token statisticamente più probabile.

📌 Riepilogo — Punti chiave

Computer Vision usa CNN per classificare immagini, rilevare oggetti e segmentare scene — dalle foto Instagram ai sistemi di guida autonoma.
NLP si basa sull’architettura Transformer (2017): i LLM come GPT e BERT nascono da pre-training su miliardi di testi seguito da fine-tuning per task specifici.
Reinforcement Learning impara per interazione con l’ambiente tramite reward: ha battuto i campioni mondiali di Go e ottimizza datacenters Google con -40% di energia.
Generative AI comprende GAN (gioco generatore vs discriminatore), Diffusion Models (derumorare passo-passo) e LLM (predizione del prossimo token).
Ogni area ha limiti reali: bias nei dati, assenza di causalità, consumo energetico e allucinazioni nei LLM — conoscerli è parte essenziale della formazione.
La prossima lezione introduce gli strumenti pratici: Python, Jupyter, le librerie e i dataset con cui inizierai a sperimentare concretamente.

// link utili

🤗

Hugging Face Spaces

huggingface.co · Demo interattive di centinaia di modelli AI: CV, NLP, generazione immagini

↗ 📰

MIT Technology Review — AI

technologyreview.com · Giornalismo tecnico di qualità su applicazioni e limiti AI

↗ ⚖️

AI Now Institute

ainowinstitute.org · Ricerca su bias, accountability e impatti sociali dell’AI

↗