Anthropic ha recentemente reso pubblica una ricerca approfondita sull’espressione dei valori morali del suo assistente virtuale, Claude. La startup, fondata da ex membri di OpenAI, ha esaminato oltre 700mila conversazioni anonime con gli utenti per comprendere meglio il comportamento dell’intelligenza artificiale.
Lo studio ha rivelato che Claude si attiene in gran parte al principio aziendale di essere “utile, onesto, innocuo”, sebbene siano emersi alcuni casi limite che mettono in luce vulnerabilità nei sistemi di sicurezza. Questi risultati sono significativi, poiché indicano che, nonostante gli sforzi per garantire la sicurezza dell’IA, ci sono situazioni in cui il sistema può deviare dalle aspettative.
Per analizzare il comportamento di Claude nel contesto reale, i ricercatori hanno sviluppato una tassonomia morale basata su 308mila conversazioni. I valori morali sono stati suddivisi in cinque categorie: Pratici, Epistemici, Sociali, Protettivi e Personali, per un totale di 3307 distinzioni che spaziano da virtù quotidiane, come la professionalità, a concetti etici più complessi. Questa classificazione ha permesso di ottenere una visione dettagliata di come Claude gestisce i valori morali nelle interazioni con gli utenti.
Al termine dell’analisi, è emerso che Claude sembra seguire un codice morale, adattando i suoi valori al contesto della conversazione. Ad esempio, nel fornire consigli relazionali, l’assistente dimostra un forte rispetto reciproco, mentre nelle analisi di eventi storici si impegna a fornire informazioni accurate. In circa il 28% delle conversazioni, Claude è riuscita a rafforzare i valori espressi dagli utenti; nel 6,6% dei casi ha riformulato tali valori, mentre nel 3% li ha contestati apertamente. Questo suggerisce la presenza di valori interni immutabili, come l’onestà intellettuale e la prevenzione di danni.
I casi in cui Claude ha manifestato valori come la “dominanza” o ha partecipato a conversazioni amorali sono stati rari. Nella maggior parte di queste situazioni, si è trattato di tentativi di eludere le protezioni implementate. Tuttavia, lo studio dimostra che è possibile monitorare e misurare l’allineamento morale dei modelli di intelligenza artificiale anche dopo il loro lancio.
Recentemente, Anthropic ha presentato il suo nuovo modello di intelligenza artificiale, Claude 3.7 Sonnet, segnando un ulteriore passo avanti nello sviluppo di assistenti virtuali sempre più sofisticati.