Capítulo 27: Transcripción en vivo — Palabras en pantalla mientras hablas

Imagina a un taquígrafo judicial escribiendo mientras la sesión se desarrolla: cada palabra capturada en el momento en que se pronuncia, sin esperar a que termine la reunión. Eso es exactamente lo que hace la transcripción en vivo de SeaMeet con tus grabaciones. Mientras hablas, el panel de transcripción se llena en tiempo real: etiquetas de oradores, marcas de tiempo y las palabras reales, todas apareciendo a medida que ocurre la conversación.

Sin esperas. Sin paso de carga. Solo palabras en pantalla.

Objetivos del capítulo

Después de leer este capítulo, podrás:

Entender qué hace la transcripción en vivo y cuándo usarla
Configurar los requisitos previos antes de comenzar
Iniciar una sesión de grabación con la transcripción en vivo activa
Leer e interpretar el panel de transcripción mientras grabas
Entender cómo funciona la detección automática de oradores
Solucionar los problemas de conexión y visualización más comunes

¿Qué es la transcripción en vivo?

La transcripción en vivo convierte el audio de tu grabación en texto mientras grabas, produciendo una transcripción con marcas de tiempo y etiquetas de oradores en tiempo real.

Piénsalo así: Imagina a un mecanógrafo sentado a tu lado en cada reunión, escribiendo instantáneamente todo lo que se dice, etiquetando las palabras de cada persona y anotando la hora exacta en que hablaron. Esa transcripción está disponible en el momento en que termina la reunión. Sin retraso de transcripción. Sin el spinner de "procesando tu audio".

La transcripción en vivo se ejecuta junto con tu sesión de grabación. En el momento en que comienzas a grabar:

Un motor de IA comienza a escuchar
Las palabras aparecen en el panel de Transcripción segundos después de ser pronunciadas
Las etiquetas de oradores ("Speaker 1", "Speaker 2") se asignan automáticamente
Las marcas de tiempo indican dónde en la grabación cae cada segmento

Cuando detienes la grabación, la transcripción completa se guarda automáticamente junto al archivo de audio/video.

Antes de comenzar

La transcripción en vivo requiere dos cosas configuradas antes de tu primera sesión:

1. Funciones de IA habilitadas

Abre Configuración (ícono de engranaje ⚙️ en la esquina superior derecha)
Navega a la categoría AI
Confirma que el botón de AI Features esté activado (azul)

Si el botón está en gris o la categoría AI no aparece, contacta a tu administrador de cuenta; las funciones de IA pueden requerir una suscripción activa.

2. Clave API configurada

Aún en Configuración → AI:

Busca el campo API Key
Ingresa tu Clave API de Gemini (consulta el Capítulo 31 para saber cómo obtener una)
Haz clic en "Save"

Una marca de verificación verde confirma que la clave es válida. Una advertencia roja significa que la clave es incorrecta o ha expirado.

Nota: Necesitas una conexión a internet activa durante la grabación. La transcripción en vivo no puede funcionar sin conexión.

Cómo iniciar una sesión de transcripción en vivo

Iniciar la transcripción en vivo es idéntico a iniciar cualquier grabación; no hay un "modo de transcripción" separado que habilitar. Si las Funciones de IA están activadas y hay una clave API configurada, la transcripción en vivo se activa automáticamente.

Paso a paso:

Haz clic en el botón rojo de grabación 🔴 (o usa tu atajo de teclado: Ctrl+Alt+A en Windows, Cmd+Shift+A en macOS)
- Lo que ves: El botón pulsa en rojo. El temporizador de grabación comienza a contar.
Observa cómo aparece el panel de Transcripción
- Lo que ves: Un panel se desliza hacia la vista en el lado derecho de la ventana principal (o debajo del reproductor, según tu diseño). Muestra brevemente "Connecting…".
Habla con normalidad
- Lo que ves: Después de 2 a 5 segundos, el texto comienza a aparecer. La frase más reciente muestra una animación sutil mientras aún se está procesando.
Continúa tu reunión o grabación como de costumbre
- Lo que ves: Los segmentos completados se apilan cronológicamente, cada uno etiquetado con una etiqueta de orador y una marca de tiempo.
Detén la grabación cuando hayas terminado
- Lo que ves: El botón vuelve a su estado inactivo. Un aviso "Saving transcript…" parpadea brevemente y luego desaparece. La transcripción queda almacenada.

Lo que ves mientras grabas

El panel de transcripción tiene tres áreas principales:

┌─────────────────────────────────────────────┐
│  Transcript                    🟢 Connected  │
├─────────────────────────────────────────────┤
│  Speaker 1   0:00:12                        │
│  "Good morning everyone, let's get started" │
│                                             │
│  Speaker 2   0:00:24                        │
│  "Thanks for joining on short notice"       │
│                                             │
│  Speaker 1   0:00:31                        │
│  "Of course. First item on the agenda…"    │
├─────────────────────────────────────────────┤
│  Now Speaking…  ████████░░░░                │
│  "…is the Q3 budget review"                 │
└─────────────────────────────────────────────┘

Qué significa cada elemento:

Elemento	Significado
Etiqueta de orador	Quién está hablando; asignado automáticamente ("Speaker 1", "Speaker 2")
Marca de tiempo	Cuándo en la grabación comienza este segmento (horas:minutos:segundos)
Texto completado	Palabras finalizadas; estas no cambian
Vista previa "Now Speaking…"	La expresión actual aún en procesamiento; puede cambiar ligeramente
Indicador de estado	🟢 Conectado · 🟡 Conectando · 🔴 Error

Indicador de estado de conexión

El indicador en la esquina superior derecha del panel te indica si el motor de IA es accesible:

🟢 Connected — La transcripción funciona normalmente
🟡 Connecting — Estableciendo conexión (normal al inicio, tarda 2-5 segundos)
🔴 Error — Conexión perdida (ver Solución de problemas más abajo)

Si ves 🔴 Error, la grabación en sí continúa de forma segura; solo la transcripción en vivo se ve afectada.

Detección automática de oradores

El motor de IA intenta distinguir entre diferentes voces y asignar una etiqueta a cada una.

Cómo funciona:

Recording timeline:

0:00 ──────────────────────────────────────────────────► time
        │           │           │           │
      Speaker 1   Speaker 2   Speaker 1   Speaker 2
      "Morning"   "Hello"     "Agenda…"   "Agreed"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Cada vez que cambia el orador, el sistema crea un nuevo segmento. Los segmentos del mismo orador reciben la misma etiqueta.

Etiquetas iniciales: El primer orador en hablar es "Speaker 1", la segunda voz nueva es "Speaker 2", y así sucesivamente. Estas son marcadores de posición; puedes renombrarlos después (consulta el Capítulo 29).

Refinamiento del orador: A medida que avanza la grabación, la IA puede refinar las asignaciones anteriores si llega a la conclusión de que dos segmentos pertenecen a la misma voz. Esto es normal. El texto no cambia; solo la atribución del orador en los segmentos anteriores.

Consejo: Para la separación de oradores más precisa, usa auriculares en lugar de altavoces. El sonido de los altavoces captado por tu micrófono puede confundir al detector.

Después de que se detiene la grabación

Cuando haces clic en detener:

La vista previa "Now Speaking…" finaliza cualquier oración en curso
La transcripción completa se guarda junto a tu archivo de grabación automáticamente
No se requiere ninguna acción manual

Dónde encontrar la transcripción:

Abre la grabación en tu biblioteca de grabaciones
Haz clic en "AI Insights" en el panel de detalles
Selecciona la pestaña "Transcript"

La transcripción también está disponible para exportar en formato SRT (formato de subtítulos) o JSON desde la pestaña AI Insights. Consulta el Capítulo 28 para obtener detalles sobre la exportación.

Limitaciones

Comprender estas limitaciones ayuda a establecer expectativas realistas:

Limitación	Detalle
Requiere internet	La transcripción en vivo no puede funcionar sin conexión. El audio es procesado por un motor de IA a través de la red.
Precisión de las marcas de tiempo	Las marcas de tiempo son aproximadas (±3 segundos). Úsalas para navegación, no para documentación legal.
Pausas en la grabación	Si pausas la grabación, la transcripción también se pausa. Los segmentos en pausa no se transcriben.
La precisión varía	La precisión es mayor con habla clara, un orador a la vez y un buen micrófono. Los acentos fuertes, el ruido de fondo o las conversaciones cruzadas reducen la precisión.
Idioma	El idioma de transcripción se puede configurar en Auto Detect (recomendado) o en un idioma específico en Configuración → AI → SeaMeet Integration. Auto Detect maneja reuniones multilingües automáticamente.
Sin edición en tiempo real	No puedes editar la transcripción mientras grabas. La edición está disponible después de que se detiene la grabación.

Superposición de subtítulos durante la reproducción

Cuando reproduces una grabación que tiene una transcripción en vivo, SeaMeet puede mostrar subtítulos directamente en el video, como los subtítulos cerrados en un televisor.

Cómo funcionan los subtítulos:

El texto de los subtítulos se superpone en la vista previa del video en la parte inferior del fotograma
Cada segmento muestra el nombre del orador (con código de color por orador) y el texto hablado
Los subtítulos están sincronizados con la posición de reproducción; avanzan a medida que se reproduce la grabación
Los subtítulos usan automáticamente la transcripción en vivo de Gemini de la sesión

Colores de los oradores: A cada orador se le asigna un color consistente en todos los subtítulos y paneles de transcripción. Los colores se determinan automáticamente y permanecen consistentes durante toda la grabación.

Formato de los subtítulos:

[Speaker 1]: Good morning everyone, let's get started.

Los subtítulos aparecen y desaparecen a medida que se reproduce el segmento de transcripción correspondiente.

Diseño de video de dos columnas

Cuando se ve una grabación de video con una transcripción en vivo disponible, SeaMeet usa un diseño de dos columnas:

┌─────────────────────────────────────────────────────┐
│  Video Preview             │  Transcript Panel       │
│                            │                         │
│  [video with captions]     │  Speaker 1   0:00:12   │
│                            │  "Good morning..."     │
│                            │                         │
│                            │  Speaker 2   0:00:24   │
│                            │  "Thanks for joining"  │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

Columna izquierda: Video de ancho fijo con superposición de subtítulos
Columna derecha: Panel de transcripción con desplazamiento, sincronizado con la posición de reproducción
Botón Maximizar (⤢): Expande el panel de transcripción a superposición de pantalla completa para una lectura más fácil durante grabaciones largas

El diseño de dos columnas solo aparece para grabaciones de video con transcripciones en vivo. Las grabaciones solo de audio y las grabaciones sin transcripciones usan el diseño estándar de una sola columna.

Configuración de idioma para la transcripción

Puedes configurar qué idioma espera SeaMeet durante la transcripción en vivo:

Abre Configuración (⚙️)
Navega a AI → SeaMeet Integration
Encuentra el selector "Meeting Language"
Elige tu idioma:
- Auto Detect (predeterminado, recomendado) — SeaMeet identifica automáticamente el idioma hablado. Mejor para reuniones multilingües o cuando el idioma varía.
- Selección manual — Elige entre más de 20 idiomas específicos, incluidos inglés (EE. UU./Reino Unido), español, francés, alemán, japonés, mandarín, cantonés, coreano y más.

Consejo: Deja el idioma en Auto Detect a menos que tengas una razón específica para forzar un idioma. La detección automática maneja mejor los acentos y las reuniones en varios idiomas que una configuración forzada manualmente.

Solución de problemas

"El panel de transcripción no aparece"

Síntoma: Inicias la grabación pero el panel de transcripción nunca se muestra.

Verifica en este orden:

Ve a Configuración → AI y confirma que el botón de AI Features esté activado
Confirma que tu clave API sea válida (marca de verificación verde en Configuración → AI)
Revisa tu conexión a internet; intenta cargar una página web
Reinicia SeaMeet e inténtalo de nuevo

Si el panel sigue sin aparecer después de los cuatro pasos, es posible que el servicio de IA no esté disponible temporalmente. La grabación en sí no se ve afectada; inténtalo de nuevo más tarde.

"La conexión se interrumpió durante la grabación"

Síntoma: El indicador de estado se pone 🔴 rojo durante una grabación.

Lo que ocurrió: La conexión con el motor de IA se interrumpió. Esto puede deberse a:

Interrupción temporal de la red
El Wi-Fi cambia de punto de acceso
El servicio de IA se desconecta brevemente

Qué hacer:

No detengas la grabación; continúa de forma segura
Revisa tu conexión a internet
La conexión generalmente se recupera automáticamente en 30 segundos
Las palabras pronunciadas durante el período de desconexión no se recuperan; se pierden para la transcripción en vivo (pero el audio permanece en el archivo de grabación, por lo que puedes ejecutar Resumen de IA después; consulta el Capítulo 28)

"Los oradores no están etiquetados correctamente"

Síntoma: Varias personas están etiquetadas como "Speaker 1", o una persona aparece como dos oradores diferentes.

Lo que ocurre: La detección de oradores usa características de voz. La precisión disminuye cuando:

Varias personas hablan al mismo tiempo
La voz de un orador cambia significativamente (risa, voz elevada, audio deficiente)
El ruido de fondo interfiere

Qué hacer:

Después de la grabación, renombra los oradores en el panel de oradores (consulta el Capítulo 29)
Usa la función Merge para combinar dos etiquetas que pertenecen a la misma persona (Capítulo 29)

Mejores prácticas

Sigue estas prácticas para obtener los mejores resultados de transcripción en vivo:

Un orador a la vez Las conversaciones cruzadas (dos personas hablando simultáneamente) confunden la detección de oradores y producen texto ilegible en la transcripción. Anima a los participantes a turnarse.

Entorno de grabación tranquilo El ruido de fondo, como sistemas de climatización, tecleo o ruido de la calle, es captado por el micrófono y reduce la precisión de la transcripción. Un micrófono de diadema colocado cerca de la boca da resultados mucho mejores que un micrófono integrado en una laptop.

Buena colocación del micrófono Para reuniones presenciales con varios participantes, coloca un micrófono cerca del centro de la mesa, o usa micrófonos individuales para cada participante.

Conexión a internet estable Usa una conexión cableada o una señal Wi-Fi fuerte. Evita puntos de acceso móvil o redes con alta pérdida de paquetes; provocan interrupciones de la conexión.

Renombra los oradores rápidamente Haz el renombramiento de oradores inmediatamente después de la grabación mientras recuerdas quién dijo qué. Consulta el Capítulo 29 para obtener instrucciones.

Referencia rápida

┌────────────────────────────────────────────────────────────┐
│                  LIVE TRANSCRIPTION                        │
│                   Quick Reference                          │
├────────────────────────────────────────────────────────────┤
│  Start             │ Record normally — auto-activates      │
│  Status: green     │ 🟢 Transcription running              │
│  Status: yellow    │ 🟡 Connecting (wait 5 s)              │
│  Status: red       │ 🔴 Disconnected — recording safe      │
├────────────────────────────────────────────────────────────┤
│  Transcript panel  │ Right side of main window             │
│  Preview line      │ "Now Speaking…" — in progress         │
│  Completed lines   │ Final — won't change                  │
├────────────────────────────────────────────────────────────┤
│  After stopping    │ Transcript saved automatically        │
│  Find it           │ Recording → AI Insights → Transcript  │
├────────────────────────────────────────────────────────────┤
│  Requires          │ Internet + AI Features on + API key   │
│  Timestamps        │ Approximate ±3 seconds                │
│  Pauses            │ Not transcribed                       │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← Capítulo 26: Glosario de términos | Capítulo 28: Resumen de IA →