Il riconoscimento vocale è il processo mediante il quale il linguaggio orale umano viene riconosciuto e successivamente elaborato attraverso un computer o più specificatamente attraverso un apposito sistema di riconoscimento vocale.
Sistemi di riconoscimento vocale vengono utilizzati per applicazioni vocali automatizzate nel contesto delle applicazioni telefoniche, ad esempio call center automatici, per sistemi di dettatura (in inglese dictation systems), che consentono di dettare discorsi al computer, oppure per sistemi di controllo del sistema di navigazione satellitare o del telefono in auto tramite comandi vocali.
I principali software di questo genere in commercio sono Dragon Naturally Speaking 9.0 della Nuance, Loquendo ASR di Telecom Italia e IBM Via Voice 10.0. Per un periodo si era affermato un terzo prodotto, Philips FreeSpeech, che dal 2000 non è più aggiornato. IBM nel 2004 ha ceduto codice e tecnologia all'avversario che è divenuto leader di settore. Via Voice è rimasto alla versione 10 Professional, non più aggiornato.
Questi programmi funzionano con algoritmi adattativi di tipo statistico inferenziale, che ricostruiscono il linguaggio in base alla frequenza delle associazioni fra parole. Possiedono anche un vocabolario fonetico con le pronuncie base di numerose parole nella lingua selezionata. L'altra grande famiglia di sistemi per l'analisi del linguaggio utilizza un vocabolario costruito dai programmatori e dall'utente, non dal software, ad esempio tramite l'ontologie. Il programma di riconoscimento vocale propriamente non deve "capire", ma trascrivere quanto detto. Tuttavia, il possesso di un vocabolario non solo di singole parole, ma di loro associazioni tipiche, inserito dall'uomo o ricostruito con mezzi statistici, è di notevole aiuto a migliorare la qualità del riconoscimento.
Nuance è proprietaria del marchio Dragon ed è distributore italiano anche di IBm via Voice. Negli anni ha specializzato i vocabolari inseriti nel prodotto, per settore merceologico.
I programmi permettono di dettare documenti in qualunque editor di testo come Notepad, Word, openOffice o la casella di testo della propria Web Mail. Permettono anche di costruire macro vocali che comandano la freccia del mouse per riavviare il computer, aprire e chiudere file e programmi, accedere ai menu o a un dato sito Internet.
L'istallazione richiede la lettura di un brano davanti al microfono, per abituare il programma a riconoscere la voce, che viene registrata e analizzata per costruire una libreria di file vocali. L'addestramento del programma rispetto alla voce del lettore riduce drasticamente gli errori legati al riconoscimento vocale.
In un secondo momento, il programma chiede un elenco di documenti Word o in altri formati scritti da chi parla, per memorizzare il suo lessico.
L'addestramento può proseguire quando il programma non riconosce la pronuncia di una parola, digitando il testo e registrando la pronuncia corrispondente in modo che il programma crei un file vocale (che abbina suono e scrittura della parola desiderata). Alla parola può essere abbinata, in alternativa, una sequenza di simboli dell'alfabeto fonetico.
Il W3C ha definito degli standard per le tecnologie vocali, che sono il VoiceXML (a dicembre 2007, alla versione 2.1) e il CCXML. Per la specifica di grammatiche vocali ha introdotto Speech Recognition Grammar Specification, per la sintesi vocale SSml 1.0 (Speech Synthesis Markup Language), per la pronuncia PLS 1.0 (Pronunciation Lexicon Specification), per l'interpretazione semantica dei risultati SISr 1.0 (Semantic Interpretation for Speech Recognition).
Il riconoscimento vocale, che comporta la traduzione del discorso umano immesso in immissione di raccolta dati e l'emissione di dati in emissione di discorso viene utilizzato anche nell'ottimizzazione dei processi legati alla supply chain. Una volta integrato con computer portatile e LAN wireless per applicazioni logistiche, il riconoscimento vocale aumenta drasticamente la produttività e la velocità di acquisizione dati per le soluzioni di manodopera mobile.
Molte applicazioni sono candidati ideali per le soluzioni di riconoscimento vocale: operazioni di magazzinaggio/distribuzione, gestione dell’inventario, controllo qualità, servizi sul campo, lettura luce, acqua, gas, settore sanitario, ecc.
Il riconoscimento vocale consente il multi-tasking che, a sua volta, comporta un aumento significativo della produttività di queste applicazioni rispetto alle soluzioni basate su carta o comunque che impegnano le mani. Con i sistemi scritti, o con quelli che impegnano le mani, gli utenti alternativamente ‘lavorano’ o ‘comunicano’. Questo processo ritarda il lavoro degli operatori e causa sprechi di tempo.
Le soluzioni vocali, invece, consentono di comunicare mentre si maneggiano i prodotti. Di conseguenza la stessa quantità di lavoro può essere ultimata in meno tempo.
Il riconoscimento vocale comporta miglioramenti significativi sia nella produttività che nell’accuratezza dei dati per operazioni quali il prelievo di prodotti nel magazzino (che rappresenta più del 40% dei costi di manodopera e più del 45% degli errori nelle operazioni del magazzino).
Nel 2003, quando il mercato di vendita al dettaglio, della logistica e della produzione industriale ha cominciato ad adottare sempre più il riconoscimento vocale, il gruppo Zetes Industries ha preso la decisione di accedere al mercato istituendo un team di esperti dedicato attivo a livello aziendale: 3i Voice. Questa squadra internazionale, che controlla costantemente lo sviluppo della tecnologia vocale, continua ad ottimizzare l'integrazione della “voce” nelle nostre soluzioni per rispondere nel modo più adeguato alle esigenze di mercato e a quelle aziendali.
Una tesi sul riconoscimento vocale