Gli specialisti di Google sono riusciti a creare un unico database che combina diverse migliaia di versioni del parlato sintetizzato, portando così al giorno in cui il parlato dal vivo e quello artificiale saranno indistinguibili l’uno dall’altro.
La sintesi vocale viene utilizzata per trasformare il testo digitato in un segnale vocale. Non è necessario pronunciare l’intera frase, basta indicarla e il sistema troverà da solo la sua continuazione.
Qual è lo scopo di questo archivio dati? L’obiettivo del progetto di Google è quello di impedire ai criminali informatici di svolgere il loro lavoro. Se una registrazione sintetizzata di alta qualità cade nelle loro mani, qualsiasi voce può essere utilizzata per i loro scopi. Gli esperti hanno pubblicato un database che comprende diverse migliaia di brani letti da 68 diversi toni di voce. Attualmente i dati sono accessibili solo ai partecipanti al concorso Automatic Speaker Verification, specializzato in sistemi di sintesi vocale.
A onor del vero, va notato che Google non è un pioniere in questo settore. Un paio di anni fa, Lyrebird ha creato uno strumento dotato di intelligenza artificiale, in grado di riprodurre qualsiasi voce. Al dispositivo sono bastati pochi minuti di registrazione per ricreare un frammento audio. Un sistema di intelligenza artificiale studia la firma vocale di ogni persona e, sulla base di queste informazioni, la riproduce. La copia esatta è stata resa possibile dall’uso di reti neurali che operano secondo un copione identico ai processi di rete naturali del cervello umano. Il sistema non era privo di difetti. Così, ad esempio, il parlato ricevuto spesso non era sufficientemente intelligibile, a volte c’era una chiara interferenza, che indicava troppo chiaramente l’artificialità della voce.
Come verrà migliorata la sicurezza dell’infospazio con l’implementazione del database delle voci sintetizzate di Google?
Come verranno utilizzate le voci sintetizzate di Google per migliorare la sicurezza dell’infospazio?