Riconoscimento vocale con Fon - Estrazione e corrispondenza di modelli di parole in tempo reale
Immagini
Fon è un software di analisi pluripremiato che è stato utilizzato da decine di migliaia di esperti linguistici in tutto il mondo per identificare modelli e relazioni tra le lingue. Fon offre agli utenti la possibilità di creare e memorizzare visualizzazioni personalizzate dello spettrogramma o di generare nuove visualizzazioni personalizzate basate su un gran numero di campi di input. Questi strumenti hanno rivoluzionato il modo in cui i ricercatori linguistici analizzano le lingue, consentendo loro di esaminare la relazione tra parole, suoni e significati. Questa capacità ha dato ai linguisti un accesso senza precedenti alla struttura delle lingue. Fon consente agli utenti di specificare il numero di punti temporali in cui una parola ricorre e crea automaticamente uno spettro con l'etichetta associata. Gli utenti possono anche selezionare il tipo di relazione a cui sono interessati (ad esempio, assoluta o relativa) e scorrere lo spettrogramma per determinare la distribuzione di probabilità della forma della parola, la sua posizione nel vocabolario e la forma della sua occorrenza nella frase.
Oltre a fornire visualizzazioni di alta qualità dei modelli vocali, Fon offre agli utenti una potente capacità di analisi del parlato. Gli strumenti di riconoscimento vocale come Fon forniscono un modo espressivo e preciso per identificare i modelli e le relazioni del parlato e costituiscono una solida piattaforma per la ricerca sul riconoscimento vocale. Con Fon sono stati sviluppati diversi modelli di riconoscimento vocale. Il progetto Fon ha visto una crescita enorme grazie all'impegno di migliaia di linguisti in tutto il mondo.
Fon è in grado di analizzare centinaia di miliardi di frasi al giorno. La tecnologia alla base di questa innovazione si basa sul metodo di estrazione e riconoscimento. Quando l'utente digita un testo nella casella di testo, il motore di riconoscimento vocale di Praat esegue una rapida scansione del testo e cerca le parole che sono grammaticalmente corrette, ma che sono scritte in modo errato o che sembrano scritte male. Le parole estratte vengono poi inserite in una rete neurale di riconoscimento vocale (RNN), che si riferisce a una coppia di reti neurali convoluzionali (CNN) pre-addestrate, per trovare somiglianze nella frase estratta e creare una forte associazione.