Lo nuevo

16 de junio de 2023

Versátil

Meta lanza una IA que convierte el texto en voz

Meta lanza Voicebox: La IA que convierte texto en voz

Por Redacción

Se trata de un nuevo modelo capaz de realizar tareas de generación del habla como edición, muestreo y estilización.

Voicebox de Meta es una nueva inteligencia destacada por su versatilidad, capaz de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.

A continuación, las opciones disponibles que se pueden hacer:

- Síntesis de texto a voz en contexto: puede generar voz a partir de una muestra de audio breve, adaptando el estilo al texto a voz.

- Edición de voz y reducción de ruido: reparar interrupciones o errores en el audio sin tener que regrabar todo, mejorando la calidad y eliminando ruidos no deseados.

- Transferencia de estilo entre idiomas: cambiar el idioma de lectura sin perder la autenticidad, permitiendo una comunicación fluida y natural.

- Muestreo diverso del habla: aprende de datos diversos para generar una voz más representativa del habla en el mundo real.

- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.

- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.

Modelos generativos como este se esperan en el futuro, capaz de desempeñar funciones claves como permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos, brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.

Aún en desarrollo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.

Este avance representa la continua investigación de IA generativa que promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.

{{label}}

Lo nuevo

Versátil

Meta lanza una IA que convierte el texto en voz

lo-nuevo

meta

Voicebox

inteligencia artificial

Más info

Tras Decathlon, Portal Rosario confirma llegada de Kiabi, Jack & Jones y más

Llega Sinergia Pymes, una jornada para hacer negocios y generar alianzas

La campaña del agro marca el pulso de la nueva revista de Punto biz

Dueños de La Favorita reclaman alquileres impagos y van por el desalojo

Lo que tenés que saber de Lo nuevo

Se cayó Meta y dejó a millones de usuarios sin redes

La startup rosarina que renació después de un cierre inesperado

Se viene Instagram Plus: qué funciones trae la versión premium de la app

WhatsApp lanza cuentas administradas por padres: cómo activarlas

Las más leídas

{{titulo}}

Además

{{titulo}}