Mejora de la precisión de Google Cloud Speech API

Actualmente estoy grabando audio desde una página web en mi computadora Mac OS y ejecutándolo a través de la nube de voz api para producir una transcripción. Sin embargo, los resultados no son tan precisos y hay fragmentos de palabras faltantes en los resultados.

¿Hay algún paso que me ayude a obtener resultados más precisos?

Aquí están los pasos que estoy tomando para convertir audio a texto:

  1. Use Soundflower para canalizar la salida de audio de mi tarjeta de sonido al micrófono.
  2. Reproducir audio desde el sitio web
  3. Use el reproductor QuickTime para grabar audio que se guarda como un archivo .m4a.
  4. Use la herramienta de línea de comandos ffmpeg para convertir el archivo .m4a en un .flac, y también combine 2 canales de audio (estéreo) en 1 canal de audio (mono).
  5. Sube el archivo .flac a Google Cloud Storage. El archivo tiene una frecuencia de muestreo de 44100Hz y tiene 24 bits por muestra.
  6. Utilice la api longRunningRecognize a través de la biblioteca del cliente node.js, que apunta al archivo en el almacenamiento en la nube de Google.

Desde el lado de la API de voz a texto , sugeriría que verifique que está siguiendo las recomendaciones de Mejores prácticas , como evitar el ruido de fondo excesivo y varias personas que hablan al mismo tiempo, ya que estos aspectos pueden afectar el reconocimiento del servicio.

Creo que tienes una buena tasa de muestreo y codecs sueltos ; Sin embargo, tenga en cuenta que el preprocesamiento de audio puede afectar la calidad del audio. En estos casos, es preferible evitar volver a muestrear, sin embargo, puede probar utilizando diferentes formatos de audio para verificar cuáles obtienen los resultados más precisos.

Además, puede usar las propiedades de API de código de idioma y sugerencias de frase que se usan comúnmente para boost la precisión del reconocimiento.