Volver al blog
IA · 6 min

Whisper, Gemini y los LLMs: la tecnología detrás de tus notas

Construir un buen producto de notas no es elegir el modelo más nuevo. Es orquestar tres modelos en el orden correcto y saber cuándo cada uno gana.

Capa 1 — Transcripción

Empezamos con Whisper Large v3 (OpenAI) self-hosted en GPUs propias. Razones:

  • Multilingüe nativo (>90 idiomas con buena calidad).
  • Robustez frente a ruido sin equivalente comercial.
  • Coste predecible al ejecutarlo nosotros.

Para audio largo (>30 min), pre-segmentamos con VAD (voice activity detection) para evitar que el modelo se pierda. Para idiomas mixtos en la misma reunión, hacemos detección por chunk y enviamos cada uno a una pasada específica.

Capa 2 — Diarización + alineación

Como contamos en el artículo dedicado, esta capa es propia: embeddings + clustering + prosodia. La salida es la transcripción de Whisper enriquecida con etiquetas de speaker en cada turno.

Capa 3 — Síntesis (LLM)

Aquí usamos Gemini 2.5 Pro como modelo principal por tres razones:

  1. Contexto largo: 1M de tokens. Una reunión de 90 minutos cabe sin truncar.
  2. Calidad en español: en nuestros benchmarks supera a GPT-4 en resúmenes de reuniones reales en castellano.
  3. Coste/rendimiento: a la hora de la verdad, hace lo mismo que modelos premium con menos coste.

Para tareas específicas (clasificación de tareas, extracción de fechas) usamos modelos más pequeños y baratos — no es necesario un cañón para ese trabajo.

Capa 4 — Chat sobre la nota

Esta es la capa que más cariño le tenemos. Usamos retrieval con embeddings sobre la propia transcripción + diarización: cuando preguntas algo, recuperamos el fragmento exacto y se lo damos al modelo. Esto significa que las respuestas tienen citas verificables (timestamp + texto literal).

El principio

Cada modelo está donde es mejor, no donde es más vistoso. El stack se actualiza cuando un modelo nuevo gana en evaluaciones reales contra el actual — no cuando sale un anuncio.

¿Listo para probarlo?

Graba tu próxima reunión y obtén un resumen accionable en segundos.

Empieza gratis
Whisper, Gemini y los LLMs: la tecnología detrás de tus notas · AudioMap · AudioMap