Volver al blog
IA · 6 min

Diarización: cómo AudioMap entiende quién dice qué

"Diarización" es la palabra técnica para algo que hace tu cerebro sin pensar: distinguir voces en una conversación. Para una máquina es uno de los problemas más difíciles del audio.

Por qué es difícil

  • Voces parecidas (hermanos, mismo género, mismo acento).
  • Solapamientos: la gente habla encima.
  • Cambios de canal: alguien deja el ordenador y vuelve.
  • Ruido: aire acondicionado, otro idioma de fondo.

La transcripción puede tener 99% de precisión y aun así, si los speakers están mal asignados, la nota es inservible.

Cómo lo abordamos

Embedding por segmento. Dividimos el audio en chunks de 1-3 segundos, pasamos cada chunk por un modelo de speaker embedding (entrenado en español + inglés + portugués). Cada chunk produce un vector de ~512 dims.

Clustering progresivo. Agrupamos vectores en clusters. El número de clusters no se fija a priori — se infiere por densidad. Esto permite que una reunión con 2 personas no genere 5 speakers ficticios y una con 8 sí los detecte.

Refinamiento con prosodia. Usamos ritmo, pausas y entonación como señales secundarias para mejorar la frontera entre speakers cuando los embeddings dudan.

Re-identificación opcional. Si el usuario etiqueta a un speaker ("este es Juan"), el embedding queda guardado cifrado en su cuenta. En reuniones futuras, Juan se identifica automáticamente.

Lo que NO hacemos

No subimos tu voz a un repositorio público. Los embeddings son solo tuyos y se borran si pides borrarlos. La identificación entre cuentas no existe.

Resultados

En benchmarks internos con audio de Zoom típico:

  • Speaker error rate: 4.7% en español, 5.1% en inglés.
  • Cuando hay >5 speakers, sube a ~9%.
  • Solapamientos detectados con 87% de precisión.

Comparado con servicios genéricos (que dan 12-18% de error en español), la mejora es notable. La razón es simple: optimizamos para el caso real — reuniones de equipo y entrevistas — no para podcasts profesionales.

¿Listo para probarlo?

Graba tu próxima reunión y obtén un resumen accionable en segundos.

Empieza gratis
Diarización: cómo AudioMap entiende quién dice qué · AudioMap · AudioMap