Panoramica: dall’algoritmo al prodotto reale
Finora abbiamo parlato di AI in modo astratto — paradigmi, architetture, gerarchia. In questa lezione facciamo il salto opposto: partiamo dai prodotti che usi ogni giorno e risaliamo al tipo di AI che li alimenta. L’obiettivo non è memorizzare nomi, ma capire che l’AI non è una tecnologia monolitica: è un insieme di tecniche specializzate, ognuna ottimizzata per un tipo di dato e di problema.
VISION
LANGUAGE
MENT RL
& AUTO
AI
① Computer Vision — insegnare alle macchine a vedere
La Computer Vision (CV) è il campo dell’AI che permette ai computer di interpretare e analizzare immagini e video. Il dato di input è una matrice di pixel: un’immagine a colori 224×224 è una tensore 224×224×3 (canali RGB). Le reti neurali convoluzionali (CNN) sono l’architettura dominante: rilevano automaticamente bordi, texture, forme e oggetti in modo gerarchico.
Task principali
Assegna un’etichetta all’intera immagine. Input: immagine. Output: classe (es. “gatto”). Benchmark storico: ImageNet con 1.000 categorie. Modelli noti: ResNet, EfficientNet, ViT.
Localizza e classifica più oggetti nell’immagine con bounding box. Algoritmi: YOLO (You Only Look Once), Faster R-CNN, SSD. Usato in auto a guida autonoma, sorveglianza, droni.
Assegna una classe a ogni singolo pixel. Permette di distinguere “asfalto”, “pedone”, “cielo” pixel per pixel. Usato in diagnostica medica (segmentazione tumore) e guida autonoma.
Identifica o verifica persone dal volto. Tecnica: embedding facciale in spazio vettoriale, poi confronto di distanza. Usato in sblocco smartphone, controllo accessi, app foto.
Google Foto raggruppa automaticamente le immagini per volto e oggetto. Tesla Autopilot usa CV per rilevare veicoli, pedoni e segnali stradali in tempo reale. Instagram applica filtri AR rilevando il viso con CV. Radiologia AI (Google DeepMind, Philips) detecta anomalie in RX e TAC con accuratezza paragonabile ai medici specialisti.
② Natural Language Processing — insegnare alle macchine a leggere
Il Natural Language Processing (NLP) è il campo che permette alle macchine di comprendere, generare e tradurre il linguaggio umano. Il testo è una sequenza discreta di token (parole o sotto-parole): a differenza delle immagini, non ha struttura spaziale fissa. La svolta moderna è arrivata con l’architettura Transformer (Vaswani et al., 2017, Google), che ha reso possibile modelli come BERT, GPT e T5.
Task principali NLP
| Task | Descrizione | Esempio prodotto | Tipo ML |
|---|---|---|---|
| Sentiment Analysis | Classifica l’emozione di un testo (positivo/negativo/neutro) | Recensioni Amazon, Twitter brand monitoring | Supervised |
| Machine Translation | Traduce da una lingua a un’altra | DeepL, Google Translate | Supervised (seq2seq) |
| Named Entity Recognition | Identifica nomi propri, luoghi, organizzazioni nel testo | Motori di ricerca, sistemi HR | Supervised |
| Question Answering | Risponde a domande estratte da un documento | Alexa, Siri, Google Search | Supervised (fine-tuning) |
| Text Summarization | Genera un riassunto automatico di un documento | Notion AI, Microsoft Copilot | Supervised / generativo |
| Text Generation | Genera testo coerente dato un prompt | ChatGPT, Claude, Gemini | Self-supervised (LLM) |
Il testo viene spezzato in token (es. “intelligenza” → [“intel”, “##ligenza”]). Ogni token è trasformato in un vettore numerico (embedding). Il meccanismo di self-attention calcola quanto ogni token è “rilevante” per tutti gli altri: permette al modello di capire che in “la banca del fiume” la parola “banca” riguarda la riva, non il denaro. Gli strati Transformer impilati costruiscono una comprensione sempre più profonda del contesto. Il pre-training su miliardi di testi (Wikipedia, libri, web) fornisce conoscenza generica; il fine-tuning su task specifici la specializza.
③ Reinforcement Learning — insegnare alle macchine a decidere
Nel Reinforcement Learning (RL) non ci sono dataset etichettati: l’agente impara interagendo con un ambiente, ricevendo reward positivi per le azioni corrette e penalità per quelle sbagliate. È il paradigma più vicino al modo in cui un bambino impara a camminare o un giocatore di scacchi impara le strategie.
Case study storici
AlphaGo ha battuto il campione mondiale Lee Sedol nel gioco del Go, considerate impossibile per l’AI per l’enormità dello spazio di ricerca (più posizioni possibili degli atomi nell’universo). AlphaZero, la versione successiva, ha imparato scacchi, shogi e Go da zero in meno di 24 ore usando solo RL puro, senza conoscenza umana precodificata.
Deep Q-Network ha imparato a giocare 49 giochi Atari direttamente dai pixel dello schermo, senza conoscere le regole, raggiungendo performance sopra umane in molti titoli. Input: frame video. Output: tasto da premere. Reward: punteggio del gioco.
RL applicato al controllo del raffreddamento dei data center Google: riduzione del 40% del consumo energetico rispetto ai sistemi automatici precedenti. Il reward è definito come il minimo consumo mantenendo le temperature entro soglia di sicurezza.
④ Robotica e veicoli autonomi
La robotica moderna combina più sottocampi AI: CV per percepire l’ambiente, RL per pianificare le azioni, e sistemi di controllo per eseguirle. Il problema fondamentale è il sim-to-real gap: un robot addestrato in simulazione deve funzionare nel mondo fisico caotico e imprevedibile.
OpenAI Dactyl ha addestrato una mano robotica a risolvere il cubo di Rubik usando RL su simulazione, poi trasferito sul hardware reale. Amazon Robotics usa CV + RL per movimentare pacchi nei magazzini.
Tesla FSD, Waymo e Cruise usano CV (camere, LiDAR, radar) + fusione sensoriale + predizione traiettoria per guidare. La pipeline: percezione → predizione degli altri agenti → pianificazione → controllo.
Amazon Prime Air usa CV per evitare ostacoli e identificare zone di atterraggio sicure. I droni militari come Kargu-2 combinano riconoscimento target e navigazione autonoma — scenario che apre urgenti questioni etiche.
Un sistema AI in un robot fisico può causare danni reali. Il problema della specification gaming (il modello ottimizza la reward senza capire l’intenzione) è particolarmente pericoloso: un robot addestrato a non ferirsi potrebbe semplicemente evitare di muoversi. La verifica formale della sicurezza dei sistemi AI fisici è un campo di ricerca attivo e urgente.
⑤ Generative AI — macchine che creano
La Generative AI è l’area che più ha catturato l’attenzione pubblica negli ultimi anni. Invece di classificare o predire, questi modelli generano nuovi contenuti: immagini, testo, audio, video, codice. Esistono tre architetture principali che è utile conoscere.
GAN — Generative Adversarial Networks (Goodfellow, 2014)
Le GAN hanno prodotto risultati spettacolari nel photo-realistic image synthesis. Il sito thispersondoesnotexist.com genera volti umani realistici che non appartengono a nessuno, usando StyleGAN di NVIDIA.
Diffusion Models (2020–2022)
I diffusion model hanno superato le GAN nella qualità delle immagini generate. Il processo di training ha due fasi: il forward process aggiunge progressivamente rumore gaussiano a un’immagine reale fino a renderla puro rumore; il reverse process addestra una rete a derumorare passo-passo, imparando a ricostruire l’immagine originale. Durante l’inferenza, si parte da rumore casuale e si applica il reverse process guidato da un prompt testuale.
DALL-E 3 (OpenAI), Stable Diffusion (Stability AI, open source), Midjourney e Adobe Firefly. Tutti generano immagini a partire da descrizioni testuali. Adobe ha addestrato Firefly esclusivamente su immagini con licenza per evitare problemi di copyright — un tema sempre più critico nel settore.
Large Language Models (LLM)
Un LLM è un Transformer addestrato su enormi corpus testuali con l’obiettivo di predire il prossimo token: dato “il gatto è sul” il modello deve prevedere “mat”. Questo compito apparentemente banale, ripetuto miliardi di volte su miliardi di testi, porta il modello ad acquisire una rappresentazione implicita della grammatica, dei fatti del mondo, del ragionamento e persino della programmazione.
| Modello | Azienda | Anno | Parametri | Note |
|---|---|---|---|---|
| GPT-4 | OpenAI | 2023 | ~1.8T (stimati) | Multimodale (testo + immagini), usato in ChatGPT |
| Gemini Ultra | Google DeepMind | 2024 | N/D | Integrato in Google Search, Workspace, Android |
| Claude 3 | Anthropic | 2024 | N/D | Focus su safety e Constitutional AI |
| LLaMA 3 | Meta | 2024 | 8B / 70B / 405B | Open source, eseguibile in locale |
| Mistral 7B | Mistral AI | 2023 | 7B | Efficiente, open source, ottimo per hardware consumer |
Tabella riassuntiva: dominio → dato → modello → prodotto
| Dominio | Tipo di dato | Paradigma ML | Architettura tipica | Esempio prodotto |
|---|---|---|---|---|
| Computer Vision | Immagini, video | Supervised | CNN, ViT | Google Foto, Tesla FSD, RX AI |
| NLP — Comprensione | Testo | Supervised (fine-tuning) | Transformer (BERT) | Google Search, Alexa, Grammarly |
| NLP — Generazione | Testo | Self-supervised | Transformer decoder (GPT) | ChatGPT, Claude, Copilot |
| Traduzione | Testo parallelo | Supervised (seq2seq) | Encoder-Decoder Transformer | DeepL, Google Translate |
| Giochi e controllo | Stato ambiente | Reinforcement Learning | DQN, PPO, AlphaZero | AlphaGo, AI datacenter cooling |
| Guida autonoma | Camere, LiDAR, radar | Supervised + RL | CNN + fusione sensoriale | Tesla Autopilot, Waymo |
| Generazione immagini | Immagini + testo | Self-supervised / generativo | GAN, Diffusion Model | DALL-E, Midjourney, Firefly |
| Speech Recognition | Audio (segnale) | Supervised | Transformer (Whisper) | Siri, Google Assistant, Whisper |
| Recommendation | Interazioni utente | Supervised + Unsupervised | Collaborative filtering, DNN | Netflix, Spotify, TikTok |
Limiti reali: quello che l’AI non sa fare (ancora)
Un modello addestrato su dati storici impara i bias storici. Il sistema COMPAS per la valutazione del rischio di recidiva mostrava bias razziali sistematici. I dataset di CV con poca diversità etnica danno face recognition meno accurato per certi gruppi.
I modelli ML trovano correlazioni, non cause. Un modello che predice l’influenza dal numero di vendite di paracetamolo non ha capito nulla — ha solo trovato una correlazione. Questo è pericoloso in medicina, finanza e politica pubblica.
Il training di GPT-3 ha consumato circa 1.287 MWh di energia, equivalente all’impronta di carbonio di 5 auto per tutta la loro vita. I LLM moderni costano centinaia di milioni di dollari in compute. La sostenibilità dell’AI è un tema aperto.
I Large Language Model generano testo plausibile ma non necessariamente vero. “Allucinano” riferimenti bibliografici inesistenti, date errate, fatti inventati. Non hanno un meccanismo interno di verifica della verità — producono la sequenza di token statisticamente più probabile.
- Computer Vision usa CNN per classificare immagini, rilevare oggetti e segmentare scene — dalle foto Instagram ai sistemi di guida autonoma.
- NLP si basa sull’architettura Transformer (2017): i LLM come GPT e BERT nascono da pre-training su miliardi di testi seguito da fine-tuning per task specifici.
- Reinforcement Learning impara per interazione con l’ambiente tramite reward: ha battuto i campioni mondiali di Go e ottimizza datacenters Google con -40% di energia.
- Generative AI comprende GAN (gioco generatore vs discriminatore), Diffusion Models (derumorare passo-passo) e LLM (predizione del prossimo token).
- Ogni area ha limiti reali: bias nei dati, assenza di causalità, consumo energetico e allucinazioni nei LLM — conoscerli è parte essenziale della formazione.
- La prossima lezione introduce gli strumenti pratici: Python, Jupyter, le librerie e i dataset con cui inizierai a sperimentare concretamente.