Intervista al responsabile dello sviluppo di Alexa in Germania Come Alexa impara dagli errori: intervista a Philipp Berger

Come funziona il riconoscimento vocale con Alexa? Come si verificano i malintesi e come impara Alexa? Molti utenti si pongono queste e altre domande. In un’intervista con Philipp Berger, Country Manager Alexa per la Germania e l’Austria, abbiamo scoperto come si verificano i malintesi con Alexa e come questa impara a gestirli meglio.

Alexa impara automaticamente per ridurre sempre di più le incomprensioni

Alexa impara automaticamente per ridurre sempre di più i malintesi ( Anna Quelhas / Adobe Stock )

Il responsabile dello sviluppo di Alexa Philipp Berger in un’intervista a home&smart

L’intervista tra Philipp Berger, Country Manager Alexa Germania/Austria e il nostro Amministratore Delegato David Wulf ha riguardato le incomprensioni dell’assistente vocale e il suo comportamento di apprendimento:

DW: Salve signor Berger, in quali situazioni usa Alexa privatamente a casa?

PB: Naturalmente, provo molte delle nuove funzioni di Alexa a casa, poiché sono responsabile dell’ulteriore sviluppo di Alexa e dei dispositivi Echo qui in Germania. Nella mia vita privata, si tratta principalmente di controllare la musica, dato che tutta la mia casa è dotata di altoparlanti Echo.

Naturalmente, controllo anche vari dispositivi come le luci e la TV. Alexa si occupa anche di compiti più complicati. Utilizzo una routine per controllare l’irrigazione del nostro giardino. La soluzione di controllo suggerita dal mio giardiniere era molto più complicata che lasciare che Alexa si occupasse di questo compito.

DW: A volte Alexa sembra non ascoltare correttamente o reagisce in modo errato. Quali sono le cause di queste incomprensioni?

PB: Il riconoscimento vocale è un argomento molto complesso perché richiede molte conoscenze contestuali. Qual è l’argomento della conversazione? Chi sono gli interlocutori? Quali informazioni sono già state comunicate in conversazioni precedenti e quindi si presuppone che siano conoscenze di base?

Noi umani lo facciamo in modo molto intuitivo, ma un’intelligenza artificiale come Alexa deve prima acquisire questa conoscenza e poi usarla correttamente. Abbiamo già fatto molti progressi in questo campo e lavoriamo sempre per migliorare l’esperienza dell’utente con Alexa. Tuttavia, può naturalmente accadere che Alexa capisca qualcosa di diverso da quello che l’utente intendeva.

Philipp Berger è il responsabile del reparto di sviluppo tedesco di Alexa.

Philipp Berger è responsabile del dipartimento di sviluppo tedesco di Alexa (Amazon)

DW: In che misura la pronuncia di un comando vocale gioca un ruolo importante?

PB: I comandi vocali simili dal punto di vista acustico rappresentano una sfida importante per noi. Ad esempio, se un utente chiede il meteo di Schweinfurt, a volte il suono è molto simile a quello di Steinfurt. Questo può facilmente generare confusione. Alexa deve anche capire gli accenti, i dialetti e il linguaggio colloquiale, che spesso sono molto diversi all’interno di una stessa lingua.

DW: Qual è stato l’equivoco più curioso nell’utilizzo di Alexa?

PB: Ricordo che i miei figli hanno chiesto ad Alexa di suonare una canzone. A volte nemmeno io capisco che canzone vogliono, ma Alexa suona la canzone giusta. A volte succede il contrario: io capisco quale canzone vogliono i miei figli, ma Alexa ne suona una diversa. Questo mi ricorda sempre che anche noi esseri umani a volte ci capiamo male.

DW: Quanto spesso si verificano questi malintesi con Alexa in Germania e quali sono i più comuni?

PB: Non abbiamo una cifra esatta per i malintesi, perché sarebbe difficile da determinare. Dopo tutto, Alexa non sempre si rende conto che si tratta di un malinteso specifico. Ci sono modi per determinare la probabilità di un malinteso. Ad esempio, se l’utente interrompe rapidamente Alexa dopo un comando vocale e lo ripete. Tuttavia, possiamo dirlo solo con un certo grado di probabilità.

Personalmente, sospetto che la maggior parte dei malintesi si verifichi nell’ambito del controllo della musica. Esistono milioni di canzoni diverse in versioni diverse. Queste vengono pronunciate da persone con accenti diversi.

DW: Quali sono le sfide nella vita quotidiana che impediscono ad Alexa di riconoscere in modo affidabile la parola di attivazione?

PB: Alexa deve ovviamente essere svegliata solo quando l’utente pronuncia la parola di attivazione. La parola di attivazione viene identificata solo localmente sul dispositivo Echo, dove si presta attenzione al modello fonetico della parola di attivazione. Solo quando la parola di attivazione viene riconosciuta, viene inviata al cloud e lì verificata nuovamente. Questo deve avvenire in modo incredibilmente rapido, perché in caso di attivazione, Alexa deve attuare direttamente il comando vocale successivo.

Sui dispositivi Echo locali è disponibile una potenza di calcolo completamente diversa da quella del cloud. Tuttavia, i nuovi processori e algoritmi ci permettono di effettuare analisi locali sempre più affidabili.

Se Alexa viene attivata troppo spesso in modo indesiderato, consiglio di cambiare la parola di attivazione in Computer, Echo o Ziggy.

DW: Perché a volte Alexa non riconosce correttamente i nostri comandi?

PB: Una volta attivata Alexa, il passo successivo è capire l’intenzione dell’utente. Quando qualcuno dice «Alexa, Ghostbusters», Alexa deve decidere se l’utente vuole ascoltare la colonna sonora, se vuole informazioni su Ghostbusters o se vuole qualcosa di completamente diverso ma dal suono simile. A questo scopo utilizziamo molte informazioni contestuali. Ad esempio, se viene richiesto un dispositivo Echo con schermo, l’utente potrebbe voler guardare il film.

DW: A volte Alexa dice anche direttamente che ha problemi di comprensione. Come lo decide?

PB: In questo caso, Alexa ha ipotizzato ciò che l’utente voleva effettivamente ottenere con la sua richiesta. Per farlo, utilizziamo informazioni contestuali, come il luogo di residenza dell’utente o l’ultima musica che ha ascoltato. Se non è possibile formulare un’ipotesi significativa, Alexa comunica di non aver capito l’utente. In alternativa, chiede maggiore chiarezza o un feedback per sapere se ha capito correttamente l’utente.

DW: Come utente, posso verificare se Alexa mi ha capito?

PB: Sì, è possibile farlo nell’app Alexa. Abbiamo sviluppato questa opzione per una maggiore trasparenza e per proteggere la privacy. Gli utenti possono vedere in modo trasparente quali dati sono stati inviati ad Alexa. È persino possibile riascoltare ciò che si è detto ad Alexa. A volte non mi rendo nemmeno conto di quanto siano fuorvianti le mie stesse richieste. In questo modo è possibile spiegare i malintesi.

È anche possibile dire ad Alexa se ha capito bene o male. Alexa utilizza queste informazioni per imparare e migliorare continuamente.

DW: Come fa Alexa a imparare da queste incomprensioni?

PB: Più gli utenti comunicano con Alexa, più Alexa li capisce. Questo perché Alexa utilizza questi dati per addestrare il suo modello linguistico. Teniamo conto del feedback diretto degli utenti e utilizziamo anche frammenti di dati anonimizzati che vengono analizzati da specialisti. Questo ci permette di utilizzare gli esseri umani per verificare se Alexa ha compreso ed eseguito correttamente un comando. In fondo, proprio come noi umani, l’intelligenza artificiale impara solo attraverso il feedback. Tuttavia, i nostri clienti hanno anche la possibilità di opporsi alla valutazione dei loro comandi vocali nelle impostazioni di protezione dei dati.

DW: Cosa sta facendo Amazon per migliorare la comunicazione tra gli esseri umani e Alexa?

PB: Attualmente stiamo lavorando su tutta una serie di argomenti per migliorare gli algoritmi alla base del modello vocale di Alexa. Si tratta di riconoscimento vocale automatico e comprensione del linguaggio naturale. Vogliamo anche che Alexa suggerisca più routine e timer proattivi, perché ci rendiamo conto che gli utenti li usano per risolvere molte attività quotidiane.

Un’altra priorità è la capacità di autoapprendimento di Alexa, che riceve dagli utenti attraverso un feedback implicito. Se un utente corregge più volte la sua risposta al comando vocale «Alexa, Ghostbusters», Alexa dovrebbe adattare più rapidamente la sua risposta futura.

DW: Cosa possono fare gli utenti di Alexa per evitare problemi di comunicazione?

PB: Più a lungo si usa Alexa, meglio si adatta alle abitudini dell’utente. Con il tempo, i nostri sistemi si adattano e imparano. Consigliamo inoltre agli utenti di Alexa di impostare un ID vocale. Questo permette ad Alexa di distinguere tra i diversi utenti e di utilizzare informazioni contestuali come le preferenze musicali e la cronologia dei brani di Amazon Music o i contatti frequenti per interpretare meglio i comandi vocali per il controllo della musica e le telefonate.

I link contrassegnati con * sono i cosiddetti link di affiliazione. Se viene effettuato un acquisto tramite tale link, riceveremo una commissione. Non ci sono costi aggiuntivi per l’utente.

Data dell'ultimo aggiornamento: 11-27-2023