Whisper V3, a pesar de haber pasado desapercibido, emerge como la herramienta más útil introducida por OpenAI.

cristobal

noviembre 28, 2023

Aprender más,Curiosidades,Internet,Tecnología

Durante el OpenAI DevDay, Sam Altman apenas dedicó tiempo a otro tema que no fuera GPT-4 Turbo y los GPTs. Sin embargo, existe una herramienta mucho más accesible y eficaz para aquellos que no están invirtiendo en inteligencia artificial o aún no se han acostumbrado a crear con prompts. Nos referimos a Whisper, que recientemente ha alcanzado su tercera generación. Se trata de un modelo de reconocimiento de voz que no solo comprende y traduce múltiples idiomas, sino que también puede transcribir conversaciones completas con una precisión asombrosa. A diferencia de ChatGPT o DALL·E, Whisper V3 es de código abierto. Su código ya está disponible en Github y puede ser utilizado de forma gratuita a través de plataformas como Hugging Face o Replicate. La utilización de Whisper es tan simple como cargar el archivo de audio y darle al botón de ejecutar. Whisper V3 logra incluso la precisión en la colocación de comas.

Cómo se ha hecho

Este modelo ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Comparado con su versión anterior, Whisper ahora presenta entre un 10 y un 20% menos de errores. En el caso del español, la tasa de errores es inferior al 5%, destacándose como uno de los idiomas que Whisper comprende mejor.

Aunque los resultados son prácticamente similares, Whisper V3 destaca al acertar incluso en las pausas de la conversación, colocando comas y puntos de manera más precisa. Whisper puede utilizarse directamente como traductor o para transcribir diferentes idiomas, identificando automáticamente los cambios en la conversación. OpenAI tiene como objetivo que otras empresas o desarrolladores utilicen este modelo de lenguaje en sus propios asistentes de voz.

Cuál es su tamaño

Como en generaciones anteriores, Whisper está disponible en varios tamaños para adaptarse a diversas aplicaciones. Desde una versión minúscula con menos de 1 GB de VRAM y entrenada con 39 millones de parámetros, hasta el modelo large, con 1.550 millones de parámetros y requisitos de aproximadamente 10 GB de VRAM. Este último modelo está disponible directamente a través de Hugging Face o Replicate.

Hasta ahora, la transcripción de audio a texto ha sido un desafío, con herramientas gratuitas que generaban muchos errores, como palabras mal ubicadas, cifras incorrectas o expresiones omitidas. Con Whisper V2, fue la primera vez que una herramienta gratuita convenció lo suficiente. Con Whisper V3, se siente que este modelo de lenguaje ha llegado para quedarse, cumpliendo con las expectativas de ser fácil de usar, rápido, eficiente y además, de código abierto.

Etiquetas :

chatgpt,fibra óptica,inteligencia artificial,OpenAI,operador local de telecomunicaciones,operador local Snell,snell,tarifa de fibra óptica,WhisperV3

Comparte :