• Dólar Banco Nación $1260.00
  • Contado con liqui $1238.10
  • Dólar MEP $1246.92
  • Dólar Turista $1638.00
  • Dólar Libre $1230.00
  • Dólar Banco Nación $1260.00
  • Contado con liqui $1238.10
  • Dólar MEP $1246.92
  • Dólar Turista $1638.00
  • Dólar Libre $1230.00

Lo nuevo

Versátil

Meta lanza una IA que convierte el texto en voz

Meta lanza Voicebox: La IA que convierte texto en voz

Por Redacción

Se trata de un nuevo modelo capaz de realizar tareas de generación del habla como edición, muestreo y estilización. 

Voicebox de Meta es una nueva inteligencia destacada por su versatilidad, capaz de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.

A continuación, las opciones disponibles que se pueden hacer:

- Síntesis de texto a voz en contexto: puede generar voz a partir de una muestra de audio breve, adaptando el estilo al texto a voz.

- Edición de voz y reducción de ruido: reparar interrupciones o errores en el audio sin tener que regrabar todo, mejorando la calidad y eliminando ruidos no deseados.

- Transferencia de estilo entre idiomas: cambiar el idioma de lectura sin perder la autenticidad, permitiendo una comunicación fluida y natural.

- Muestreo diverso del habla: aprende de datos diversos para generar una voz más representativa del habla en el mundo real.

- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.

- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.

Modelos generativos como este se esperan en el futuro, capaz de desempeñar funciones claves como permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos, brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.

Aún en desarrollo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.

Este avance representa la continua investigación de IA generativa que promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.

CONTENIDO EXCLUSIVO PARA SUSCRIPTORES.

Si querés ser protagonista de los Negocios necesitás información.
Si estás acá es porque necesitás esta información.

SUSCRIBITE

Por asesoramiento personalizado o consulta de Planes Corporativos escribinos a suscripcion@puntobiz.com.ar. Whatsapp al 3415034363.

Más info

Lo que tenés que saber de Lo nuevo

Las más leidas

Además

La sesión de tu cuenta se cerro por exceso de usuarios.

¿Querés recibir notificaciones de alertas?