Sintesi vocale
Da Wikipedia, l'enciclopedia libera.
La sintesi vocale, o speech synthesis, è la produzione artificiale della voce umana. Un sistema usato per questo proposito è detto sintetizzatore vocale, e può essere implementato in software o hardware. I sistemi di sintesi vocali sono spesso chiamati sistemi text-to-speech (TTS) (in italiano: da testo a voce), per la loro possibilità di convertire il testo in parole. Esistono sistemi che convertono simboli fonetici in parole.
[modifica] Come funziona questa tecnologia
Un sistema (o motore) text-to-speech è composto da due parti: una front-end e una back-end. La parte front-end prende il testo e lo converte in simboli fonetici. La parte back-end trasforma i simboli fonetici e li "legge", trasformandoli così in voce artificiale.
La parte front-end ha due grandi compiti: prima prende il testo così come è scritto e converte numeri e abbreviazioni in parole intere. Questo processo è spesso chiamato normalizzazione del testo. Poi trasforma ogni parola in simboli fonetici, e divide il testo in varie unità, come per quel che riguarda le frasi. Il processo di assegnazione della trascrizione fonetica alle parole è chiamato text-to-phoneme (TTP) (da testo a fonema). Dopo tutti questi processi si ottiene una rappresentazione linguistica in simboli, che verrà passata alla parte back-end.
La parte back-end, prende appunto questi simboli fonetici e li converte in suono. Funge in pratica da synthesizer.
[modifica] Storia
Molto prima che fosse inventata la moderna elaborazione elettronica dei segnali (l'informatica), dei ricercatori tentarono di costruire macchine per riprodurre la voce umana. Le prime apparecchiature furono costruite da Gerbert di Aurillac, Albertus Magnus e Roger Bacon, tra il X e il XIII secolo. Nel 1779, lo scienziato danese Christian Kratzenstein, che si trovava a lavorare presso l'Accademia russa delle scienze, costruì modelli dell'apparato vocale umano che potevano riprodurre i cinque suoni delle vocali (a, e, i, o, u). Questo fu seguito dalla Macchina acustica-meccanica vocale (Acoustic-Mechanical Speech Machine), realizzata da Wolfgang von Kempelen di Vienna, Austria, descritta nel 1791 in Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("meccanismo della voce umana con descrizione della sua macchina per parlare", J.B. Degen, Wien). Nel 1837 Charles Wheatstone ha prodotto una "macchina parlante" basata sul design di von Kempelen, e nel 1857 M. Faber costruì l'Eufonia. Il design di Wheatstone fu ripreso nel 1923 da Paget.
Negli anni '30, Bell Labs sviluppò il vocoder, un analizzatore e sintetizzatore elettronico della voce che si poteva comandare con una tastiera. Homer Dudley rifinisce questo apparecchio e crea il voder, che esibì nel 1939 al New York World's Fair.
I primi sintetizzatori vocali elettronici ricreavano una voce molto robotica, ed erano spesso incomprensibili. Però la qualità è costantemente aumentata, e la voce riprodotta dai moderni sistemi di sintesi vocale è a volte indistinguibile dalla vera voce umana.
Dopo il successo della sintesi vocale puramente elettronica, la ricerca è andata nella direzione dei sintetizzatori vocali meccanici per l'uso in robot umanoidi. Questo perché in un robot un sistema meccanico potrebbe essere in grado di riprodurre un suono più naturale di un piccolo altoparlante, il quale limita la qualità del suono creato dal sintetizzatore elettronico.
I primi sistemi di sintesi vocale basati sui computer furono creati nei tardi anni '50 e il primo sistema text-to-speech (da testo a voce) fu completato nel 1968.
Nel 1961 John Larry Kelly, Jr ha creato uno dei più famosi momenti della storia dei Bell Labs (Laboratori Bell), usando un computer IBM 704 per sintetizzare la voce. Il vocoder (sintetizzatore e registratore vocale) di Kelly riproduce la canzone Daisy Bell, con l'accompagnamento musicale di Max Mathews. Artur C. Clarke di 2001: Odissea nello spazio si trovò casualmente a visitare l'amico e collega John Pierce ai Bell Labs nel momento della dimostrazione della sintesi vocale, e rimase così impressionato che usò il vocoder in una scena del film 2001: Odissea nello spazio, dove il computer HAL 9000 canta la canzone prima citata.