Qualsiasi demo di intelligenza artificiale per studi professionali, fiscali, legali, medici o tecnici, mostra gli stessi esempi. Un documento complesso che il sistema riassume in trenta secondi. Una bozza di risposta a un cliente generata con tono professionale. Una ricerca di normativa che torna con le citazioni giuste. Tutto funziona, tutto brilla, il presentatore sorride, il titolare dello studio annuisce.
Poi la demo finisce, lo strumento entra in produzione, passano tre mesi, e la realtà dello studio è più complicata. Alcune cose funzionano davvero bene. Altre funzionano male in modo silenzioso, accorto, difficile da individuare finché qualcuno non paga il prezzo. Altre ancora cambiano il modo in cui i collaboratori lavorano in un modo che nessuno aveva previsto.
Questo articolo è dedicato a quello che nelle demo non si dice.
Il problema delle allucinazioni su normativa e giurisprudenza
Uno dei campi in cui l'AI è stata presentata come una svolta per gli studi professionali è la ricerca di norme, sentenze, circolari, casi analoghi. In teoria, un sistema AI può consultare grandi basi documentali e restituire in pochi secondi ciò che a un collaboratore richiederebbe ore. In pratica, questa promessa ha un lato oscuro documentato che chi gestisce uno studio dovrebbe conoscere.
I modelli linguistici producono testi. Non consultano necessariamente fonti. Alcuni sistemi integrano motori di ricerca dedicati che garantiscono che le citazioni provengano da database reali. Altri no. E anche quelli che integrano motori dedicati, talvolta, producono risultati in cui una citazione è deformata: il numero della sentenza è vicino ma non esatto, la data è sbagliata di un anno, il dispositivo della sentenza è parzialmente riscritto con parole diverse. Queste deformazioni, chiamate allucinazioni, sono il rischio più serio in studi professionali dove l'accuratezza delle citazioni è questione di responsabilità.
Il problema non è che l'AI produca sempre allucinazioni. Ne produce una percentuale bassa, forse il 5-10% a seconda dello strumento e del contesto. Il problema è che le allucinazioni sono plausibili. Chi non le verifica non le vede. Un collaboratore che riceve una bozza di risposta al cliente con tre citazioni di sentenze, di cui una deformata, non se ne accorge a meno che non si prenda la briga di verificarle una per una. E se si prende la briga, ha perso il tempo che lo strumento avrebbe dovuto risparmiargli.
La soluzione operativa non è abbandonare lo strumento; è ridisegnare il flusso di lavoro in modo che la verifica delle fonti sia parte integrante dell'uso, non un'opzione. Molte aziende che hanno adottato l'AI in studi legali o fiscali sono passate dopo alcuni incidenti a un protocollo rigoroso: l'AI produce bozze, il professionista verifica ogni citazione prima di inviare qualsiasi cosa al cliente. Questo protocollo riduce il risparmio di tempo promesso dalle demo ma lo rende sostenibile.
Questo è forse il rischio meno discusso e più insidioso. Un modello linguistico, quando risponde a una richiesta professionale complessa, produce un output che tipicamente sta attorno al 70-85% di completezza. Il senior esperto, leggendo l'output, riconosce il 15-30% mancante quasi istantaneamente. Sa che in una certa risposta al cliente mancherebbe un riferimento a una circolare recente, sa che una bozza di parere legale ha ignorato un aspetto giurisprudenziale meno noto, sa che un riassunto clinico ha sottovalutato un segnale nell'anamnesi.
Il junior, al secondo o terzo anno di pratica, non riconosce il 15-30% mancante. Per lui, l'output del 70% sembra completo, o quasi. La struttura è giusta, il tono è professionale, i temi sembrano toccati. Questo è il problema più serio dell'introduzione dell'AI negli studi: non tanto gli errori dello strumento, ma l'incapacità del junior di valutare cosa manca.
In uno studio dove i senior hanno poco tempo e delegano sempre più ai junior la prima bozza, l'AI rischia di diventare un amplificatore di mediocrità. Il junior produce output del 70% più velocemente. Il senior, rincorso dal volume, rivede meno. Il cliente riceve output mediamente inferiori a quelli che avrebbe ricevuto prima. Lo studio non se ne accorge subito, perché i clienti che ricevono output del 70% non se ne accorgono subito. Se ne accorgono mesi o anni dopo, quando emerge un problema.
La strada per uscire da questa trappola passa dalla formazione dei junior, non dalla tecnologia. Un junior che ha passato due anni a scrivere pareri, risposte, documenti clinici senza aiuto di AI, ha costruito il gusto necessario per riconoscere cosa manca. Può poi usare l'AI come strumento di accelerazione, non come sostituto. Un junior che ha iniziato direttamente con l'AI non ha mai costruito quel gusto, e difficilmente lo costruirà dopo.
Questo implica una scelta organizzativa controintuitiva. Per i junior, l'AI andrebbe introdotta il più tardi possibile, non il più presto. Per i senior, il più presto possibile. Chi inverte questa logica, e fa lavorare i junior con l'AI mentre i senior continuano con i metodi tradizionali, sta lavorando contro la propria qualità di prestazione.
Il problema della dipendenza dal prompt
Un terzo aspetto poco discusso riguarda la qualità degli output, che dipende in modo enorme dalla qualità della richiesta iniziale, cioè il prompt. Un prompt scritto da qualcuno che sa formulare richieste complesse produce output eccellenti. Un prompt scritto da qualcuno che chiede "scrivimi una risposta al cliente Rossi" produce output generici.
Negli studi professionali, la qualità del prompt è una competenza nuova che molti sottovalutano. Non si impara guardando un video di venti minuti. Si sviluppa con l'uso quotidiano, riflettendo su cosa ha funzionato e cosa no, accumulando un repertorio di modi di chiedere che producono risultati affidabili.
Questa competenza è distribuita in modo disuguale all'interno dello studio. Tipicamente uno o due collaboratori ci arrivano naturalmente e producono output molto buoni. Gli altri usano lo strumento in modo meccanico e producono output medi. La variabilità interna cresce, non diminuisce.
In assenza di un lavoro di strutturazione sul prompt (promemoria standardizzati, modelli di richiesta riutilizzabili, esempi di buone pratiche), lo strumento amplifica le differenze di competenza invece di appianarle. Chi è già bravo diventa più efficace; chi è meno bravo ottiene risultati peggiori di quelli che avrebbe ottenuto con i metodi tradizionali.
Un'AI generalista (ChatGPT, Claude, Gemini) conosce molto di tutto e poco di specifico. Per uno studio professionale, questo significa che lo strumento è bravo a risposte generiche su grandi temi ("cosa dice la normativa italiana sui patti parasociali?") ma meno affidabile su specifiche tecniche ("come si applica la riforma fiscale 2024 nel caso di una SAS con socio accomandatario cittadino svizzero con residenza fiscale in Italia?").
La risposta dell'AI su casi specifici tende a essere ragionevolmente strutturata ma a mancare dei dettagli che un professionista esperto del settore terrebbe presente. Il senior che usa l'AI su casi del proprio ambito sa riconoscere questi limiti e completarli. Il junior, di nuovo, no.
Il rimedio qui passa per strumenti AI specializzati, addestrati su corpora specifici del settore, o per uno strato di contesto che porti al modello generalista le informazioni specifiche dello studio. Entrambe le strade esistono; entrambe richiedono investimento. Nessuna è "aprire ChatGPT e iniziare".
Le scelte che uno studio serio fa
Uno studio che prende l'AI sul serio fa alcune scelte che non sono nelle demo.
Non introduce l'AI come scorciatoia universale. La introduce per compiti specifici dove il rapporto rischio-beneficio è favorevole. Un elenco tipico include: sintesi di documenti lunghi per uso interno, smistamento iniziale di comunicazioni, bozze di documenti standard, supporto alla ricerca con verifica obbligatoria.
Introduce protocolli di verifica. Nessun output AI esce dallo studio senza passare dalle mani di un professionista qualificato che verifica sostanza e forma. Questo protocollo va formalizzato, non lasciato implicito.
Struttura il contesto aziendale. Costruisce un corpus di conoscenza dello studio che l'AI possa consultare: stile di scrittura, esempi di output precedenti, procedure interne, categorie cliente. Senza questo corpus, ogni output è generico. Con questo corpus, gli output iniziano ad assomigliare davvero a come lo studio lavora.
Forma i junior senza AI. I primi anni di pratica servono a costruire il gusto. L'AI entra quando il gusto è consolidato, non prima.
Misura. Raccoglie dati su cosa l'AI ha prodotto, cosa è stato corretto, cosa ha generato problemi. Questo dato serve per calibrare nel tempo.
La scelta dello studio che legge questo
Se siete titolari di uno studio professionale e state valutando l'introduzione dell'AI, o l'avete già fatta e non siete sicuri di come stia andando, la scelta davanti a voi non è "AI sì o AI no". È "con quali protocolli, su quali task, con quale infrastruttura di contesto, con quale piano di formazione".
Rispondere a queste domande richiede una mappa del vostro studio oggi: dove il tempo si consuma, chi fa cosa, quali sono le competenze distribuite, quali sono i rischi reputazionali che non potete permettervi. Da questa mappa si deriva un piano sensato, che non replica le demo ma che tiene conto della vostra realtà specifica.
Nella nostra esperienza, questa mappa emerge bene in una conversazione di quarantacinque minuti con chi conosce sia il lavoro di studio sia i limiti reali degli strumenti AI. L'output è un documento che descrive la situazione, le opportunità, i rischi. È utile anche se poi decidete di rimandare ogni decisione.