Reconocimiento de voz con Fon - Extracción y correspondencia de patrones de palabras en tiempo real
Fon es un galardonado software de análisis que ha sido utilizado por decenas de miles de expertos lingüísticos de todo el mundo para identificar patrones y relaciones entre las lenguas. Fon ofrece a los usuarios la posibilidad de crear y almacenar visualizaciones de espectrogramas personalizadas o generar nuevas visualizaciones personalizadas basadas en un gran número de campos de entrada. Estas herramientas han revolucionado la forma en que los investigadores lingüísticos analizan las lenguas al permitirles examinar la relación entre palabras, sonidos y significados. Esta capacidad ha dado a los lingüistas un acceso sin precedentes a la estructura de las lenguas. Fon permite a los usuarios especificar el número de puntos temporales en los que aparece una palabra, y crea automáticamente un espectro con la etiqueta asociada. Los usuarios también pueden seleccionar el tipo de relación que les interesa (por ejemplo, absoluta o relativa) y navegar por el espectrograma para determinar la distribución de probabilidad de la forma de la palabra, su ubicación en el vocabulario y su forma de aparición en la frase.
Además de proporcionar visualizaciones de alta calidad de los patrones del habla, Fon ofrece a los usuarios una potente capacidad de análisis del habla. Las herramientas de reconocimiento del habla como Fon ofrecen una forma expresiva y precisa de identificar patrones y relaciones del habla, y proporcionan una sólida plataforma para la investigación del reconocimiento del habla. Se han desarrollado varios modelos de reconocimiento del habla utilizando Fon. El proyecto Fon ha experimentado un enorme crecimiento gracias al esfuerzo de miles de lingüistas de todo el mundo.
Fon ofrece la capacidad de escanear cientos de miles de millones de frases al día. La tecnología que se encuentra detrás de este avance se basa en el método de extracción y reconocimiento. Cuando el usuario teclea un texto en el cuadro de texto, el motor de reconocimiento de voz de Praat escanea rápidamente el texto y busca las palabras que son gramaticalmente correctas, pero que están mal escritas o parecen mal redactadas. A continuación, las palabras extraídas se introducen en una red neuronal de reconocimiento del habla (RNN), que se refiere a un par de redes neuronales convolucionales (CNN) preentrenadas, para encontrar similitudes en la frase extraída y crear una fuerte asociación.