Possiamo prendere in prestito una voce per farci leggere ogni cosa?

Da quando ho cominciato ad utilizzare le sintesi vocali, fine anni 80, ho sempre sognato di poter catturare la voce di qualcuno, magari prosodicamente ottima, ed utilizzarla per gestire il mio pc.

In stazione, in macchina, al telefono e al supermercato: le voci artificiali o sintetiche sono praticamente ovunque. Alcune sembrano così realistiche da spingere qualcuno a domandarsi se ci sia davvero una persona al microfono: e invece no.

Come funzionavano e come funzionano.

Non parliamo di semplici registrazioni, ma di potenti software che permettono di pronunciare qualsiasi frase si voglia, senza la necessità di avere una persona che fisicamente produca i suoni. Si digita la frase e le voci artificiali pronunciano i suoni corrispondenti.

Inizialmente la sintesi vocale prevedeva l’unione di un’infinità di piccoli pezzetti di voce registrati, chiamati tecnicamente difoni. Una volta uniti i pezzetti, si interveniva poi per sistemare elementi prosodici come l’intonazione della frase e la durata di alcuni suoni. Questo avveniva grossomodo tra gli anni Sessanta e Ottanta e il risultato era piuttosto innaturale”.

Successivamente dai difoni, cioè l’unione fra metà di un fonema e metà del fonema che lo segue, si è poi passati alle unità variabili. “Queste erano molto più numerose rispetto ai difoni. La sintesi veniva realizzata estraendo da un database le unità che potevano rendere al meglio la frase scritta. La voce ottenuta era molto più umanizzata per quanto riguarda il timbro, ma al contrario della prima, difficilmente modificabile”. Le unità potevano essere costituite da pezzi più piccoli di un fonema, ma anche da intere parole o frasi. Aumentavano così le possibilità combinatorie perché nel primo caso per il difono ma esisteva un solo esemplare, nel secondo molte alternative.

“Per capire il risultato di questo processo diffuso negli anni Novanta, basta pensare alla voce che potete ascoltare nelle stazioni”. La voce di Roberto in stazione e quella di Luca e altre sul treno.

Novità.

Nel nuovo millennio si è approdati a tecniche basate su modelli statistici. “Recentemente si è arrivati alla creazione di voci grazie alle reti neurali, sistemi di elaborazione che sia per il riconoscimento sia per la sintesi vocale hanno superato le precedenti tecnologie. In questo caso sono le Deep Neural Network che caratterizzano le unità di suono e scelgono quelle più adatte”.

In alcune sintesi più recenti si parte addirittura direttamente dall’onda sonora. “Si dà in pasto a una grossa rete neurale una frase e la rete ne estrae tutti i parametri di interesse per poi generare la frase in uscita. Con la tecnologia più recente è possibile addirittura cambiare il timbro della voce con un processo che tecnicamente si chiama voice morphing. Alcuni algoritmi sono in grado di trasformare una voce neutra in quella desiderata, cioè quella di un’altra persona, registrando solo una cinquantina di frasi”. È quello che ognuno può provare anche di persona sul sito della start up

Mivoq:

ci si registra, si leggono alcune frasi e si ottiene una voce digitale personalizzata in grado di dire qualsiasi cosa si desideri. Non è una startup, ma una multinazionale, Nuance, società statunitense che della sintesi vocale ha fatto il suo core business. Nella sede torinese lavorano ingegneri, informatici e linguisti, che sotto la guida di Paolo Coppo, hanno creato oltre 120 voci in 56 lingue diverse per realtà di mezzo mondo. Le Loquendo e di italiane ne abbiamo un certo numero: Luca, Roberto, Marcello, Paola, Giulia ed altre ancora.

Il processo di formazione della sintesi.

Il processo di creazione, qui semplificato per ovvie ragioni, prevede innanzitutto la selezione di uno speaker. Questo deve avere caratteristiche precise: “sono più adatti coloro che hanno un certo controllo della voce come gli attori o i conduttori radiofonici” spiega Coppo. Individuata la voce naturale, ci si reca in uno studio di registrazione e inizia una fase impegnativa in termini sia di tempi sia economici. Le frasi da registrare variano, infatti, da circa 3mila, operazione che richiede una settimana, a 20mila.

L’enorme quantità di materiale audio viene quindi sottoposto grazie a degli algoritmi a una pulizia che elimina i rumori di sottofondo o altre eventuali imperfezioni della voce. Si aspira così a uno standard acustico che rimane alto per tutte le voci prodotte. Oltre a quello acustico c’è anche uno standard linguistico specifico. “Ad esempio, per il Vietnam sappiamo che dobbiamo fare riferimento all’accento della parte settentrionale del paese” specifica Coppo.

La registrazione pulita viene poi trascritta sia con l’alfabeto normale sia con un metodo che annota il suono dei fonemi corrispondenti. Devono essere annotati non solo i suoni, ma anche informazioni prosodiche: accenti, andamento della frase, durata particolare di alcuni suoni. Terminato questo processo, la rete neurale, che tra l’altro autoapprende diverse nozioni, è in grado di riprodurre con la voce registrata qualsiasi frase digitata nel software.

Il risultato?

E il risultato è sorprendente. Abbiamo provato a eseguire un test in cui occorreva individuare fra due registrazioni, quale fosse quella originale e quale quella sintetica. Beh, in tre tentativi su tre abbiamo sbagliato, scambiando quella artificiale per quella naturale.

Grazie a questa tecnologia è perfino possibile cambiare lo stile di una voce. Così, ad esempio, la voce del navigatore di un’automobile, solitamente accomodante e gentile, nel momento in cui nota che l’autista si sta addormentando può cambiare tono e intimargli di prendere il controllo del veicolo. O la voce che vi informa sul risultato della partita della vostra squadra del cuore può cambiare espressione e diventare triste nel caso in cui abbia perso, esultante in caso contrario.

Ma le applicazioni non finiscono qui: ci sono addirittura personaggi dello spettacolo che hanno chiesto di creare una versione digitale della propria voce da sfruttare per alcune iniziative di marketing. E anche alcuni politici hanno chiesto questo servizio, forse per rendere più onnipresente la loro attività. Ciò che profuma di fantascienza è la possibilità di ricreare la voce di qualcuno potenzialmente anche a sua insaputa. Cosa che di fatto è stata chiesta Nuance per raggiungere uno scopo nobile: la cattura di un noto delinquente.

Le possibilità che derivano dal voice morphing nel campo del doppiaggio diventano sorprendenti. Si possono modificare l’altezza, il timbro e la velocità

della voce registrata, creando così di fatto una voce nuova. Partendo da una voce qualsiasi, è possibile così creare quasi tutte le voci di un cartone animato, ad esempio, oppure di un film doppiato. “Ce lo stanno chiedendo paesi in cui attualmente vengono utilizzati i sottotitoli nel doppiaggio. E questo può essere un problema se si considera che magari parte della popolazione è analfabeta”. Grazie a questa tecnologia, infatti, una voce maschile può diventare femminile, una giovane diventare novantenne grazie soltanto a una settimana di click.

Annunci