Transcripción en vivo — Palabras en pantalla mientras hablas
Capítulo 27: Transcripción en vivo — Palabras en pantalla mientras hablas
Imagina a un taquígrafo judicial escribiendo mientras la sesión se desarrolla: cada palabra capturada en el momento en que se pronuncia, sin esperar a que termine la reunión. Eso es exactamente lo que hace la transcripción en vivo de SeaMeet con tus grabaciones. Mientras hablas, el panel de transcripción se llena en tiempo real: etiquetas de oradores, marcas de tiempo y las palabras reales, todas apareciendo a medida que ocurre la conversación.
Sin esperas. Sin paso de carga. Solo palabras en pantalla.
Objetivos del capítulo
Después de leer este capítulo, podrás:
- Entender qué hace la transcripción en vivo y cuándo usarla
- Configurar los requisitos previos antes de comenzar
- Iniciar una sesión de grabación con la transcripción en vivo activa
- Leer e interpretar el panel de transcripción mientras grabas
- Entender cómo funciona la detección automática de oradores
- Solucionar los problemas de conexión y visualización más comunes
¿Qué es la transcripción en vivo?
La transcripción en vivo convierte el audio de tu grabación en texto mientras grabas, produciendo una transcripción con marcas de tiempo y etiquetas de oradores en tiempo real.
Piénsalo así: Imagina a un mecanógrafo sentado a tu lado en cada reunión, escribiendo instantáneamente todo lo que se dice, etiquetando las palabras de cada persona y anotando la hora exacta en que hablaron. Esa transcripción está disponible en el momento en que termina la reunión. Sin retraso de transcripción. Sin el spinner de "procesando tu audio".
La transcripción en vivo se ejecuta junto con tu sesión de grabación. En el momento en que comienzas a grabar:
- Un motor de IA comienza a escuchar
- Las palabras aparecen en el panel de Transcripción segundos después de ser pronunciadas
- Las etiquetas de oradores ("Speaker 1", "Speaker 2") se asignan automáticamente
- Las marcas de tiempo indican dónde en la grabación cae cada segmento
Cuando detienes la grabación, la transcripción completa se guarda automáticamente junto al archivo de audio/video.
Antes de comenzar
La transcripción en vivo requiere dos cosas configuradas antes de tu primera sesión:
1. Funciones de IA habilitadas
- Abre Configuración (ícono de engranaje ⚙️ en la esquina superior derecha)
- Navega a la categoría AI
- Confirma que el botón de AI Features esté activado (azul)
Si el botón está en gris o la categoría AI no aparece, contacta a tu administrador de cuenta; las funciones de IA pueden requerir una suscripción activa.
2. Clave API configurada
Aún en Configuración → AI:
- Busca el campo API Key
- Ingresa tu Clave API de Gemini (consulta el Capítulo 31 para saber cómo obtener una)
- Haz clic en "Save"
Una marca de verificación verde confirma que la clave es válida. Una advertencia roja significa que la clave es incorrecta o ha expirado.
Nota: Necesitas una conexión a internet activa durante la grabación. La transcripción en vivo no puede funcionar sin conexión.
Cómo iniciar una sesión de transcripción en vivo
Iniciar la transcripción en vivo es idéntico a iniciar cualquier grabación; no hay un "modo de transcripción" separado que habilitar. Si las Funciones de IA están activadas y hay una clave API configurada, la transcripción en vivo se activa automáticamente.
Paso a paso:
-
Haz clic en el botón rojo de grabación 🔴 (o usa tu atajo de teclado:
Ctrl+Alt+Aen Windows,Cmd+Shift+Aen macOS)- Lo que ves: El botón pulsa en rojo. El temporizador de grabación comienza a contar.
-
Observa cómo aparece el panel de Transcripción
- Lo que ves: Un panel se desliza hacia la vista en el lado derecho de la ventana principal (o debajo del reproductor, según tu diseño). Muestra brevemente "Connecting…".
-
Habla con normalidad
- Lo que ves: Después de 2 a 5 segundos, el texto comienza a aparecer. La frase más reciente muestra una animación sutil mientras aún se está procesando.
-
Continúa tu reunión o grabación como de costumbre
- Lo que ves: Los segmentos completados se apilan cronológicamente, cada uno etiquetado con una etiqueta de orador y una marca de tiempo.
-
Detén la grabación cuando hayas terminado
- Lo que ves: El botón vuelve a su estado inactivo. Un aviso "Saving transcript…" parpadea brevemente y luego desaparece. La transcripción queda almacenada.
Lo que ves mientras grabas
El panel de transcripción tiene tres áreas principales:
┌─────────────────────────────────────────────┐
│ Transcript 🟢 Connected │
├─────────────────────────────────────────────┤
│ Speaker 1 0:00:12 │
│ "Good morning everyone, let's get started" │
│ │
│ Speaker 2 0:00:24 │
│ "Thanks for joining on short notice" │
│ │
│ Speaker 1 0:00:31 │
│ "Of course. First item on the agenda…" │
├─────────────────────────────────────────────┤
│ Now Speaking… ████████░░░░ │
│ "…is the Q3 budget review" │
└─────────────────────────────────────────────┘
Qué significa cada elemento:
| Elemento | Significado |
|---|---|
| Etiqueta de orador | Quién está hablando; asignado automáticamente ("Speaker 1", "Speaker 2") |
| Marca de tiempo | Cuándo en la grabación comienza este segmento (horas:minutos:segundos) |
| Texto completado | Palabras finalizadas; estas no cambian |
| Vista previa "Now Speaking…" | La expresión actual aún en procesamiento; puede cambiar ligeramente |
| Indicador de estado | 🟢 Conectado · 🟡 Conectando · 🔴 Error |
Indicador de estado de conexión
El indicador en la esquina superior derecha del panel te indica si el motor de IA es accesible:
- 🟢 Connected — La transcripción funciona normalmente
- 🟡 Connecting — Estableciendo conexión (normal al inicio, tarda 2-5 segundos)
- 🔴 Error — Conexión perdida (ver Solución de problemas más abajo)
Si ves 🔴 Error, la grabación en sí continúa de forma segura; solo la transcripción en vivo se ve afectada.
Detección automática de oradores
El motor de IA intenta distinguir entre diferentes voces y asignar una etiqueta a cada una.
Cómo funciona:
Recording timeline:
0:00 ──────────────────────────────────────────────────► time
│ │ │ │
Speaker 1 Speaker 2 Speaker 1 Speaker 2
"Morning" "Hello" "Agenda…" "Agreed"
▼ ▼ ▼ ▼
[Seg. 1] [Seg. 2] [Seg. 3] [Seg. 4]
Cada vez que cambia el orador, el sistema crea un nuevo segmento. Los segmentos del mismo orador reciben la misma etiqueta.
Etiquetas iniciales: El primer orador en hablar es "Speaker 1", la segunda voz nueva es "Speaker 2", y así sucesivamente. Estas son marcadores de posición; puedes renombrarlos después (consulta el Capítulo 29).
Refinamiento del orador: A medida que avanza la grabación, la IA puede refinar las asignaciones anteriores si llega a la conclusión de que dos segmentos pertenecen a la misma voz. Esto es normal. El texto no cambia; solo la atribución del orador en los segmentos anteriores.
Consejo: Para la separación de oradores más precisa, usa auriculares en lugar de altavoces. El sonido de los altavoces captado por tu micrófono puede confundir al detector.
Después de que se detiene la grabación
Cuando haces clic en detener:
- La vista previa "Now Speaking…" finaliza cualquier oración en curso
- La transcripción completa se guarda junto a tu archivo de grabación automáticamente
- No se requiere ninguna acción manual
Dónde encontrar la transcripción:
- Abre la grabación en tu biblioteca de grabaciones
- Haz clic en "AI Insights" en el panel de detalles
- Selecciona la pestaña "Transcript"
La transcripción también está disponible para exportar en formato SRT (formato de subtítulos) o JSON desde la pestaña AI Insights. Consulta el Capítulo 28 para obtener detalles sobre la exportación.
Limitaciones
Comprender estas limitaciones ayuda a establecer expectativas realistas:
| Limitación | Detalle |
|---|---|
| Requiere internet | La transcripción en vivo no puede funcionar sin conexión. El audio es procesado por un motor de IA a través de la red. |
| Precisión de las marcas de tiempo | Las marcas de tiempo son aproximadas (±3 segundos). Úsalas para navegación, no para documentación legal. |
| Pausas en la grabación | Si pausas la grabación, la transcripción también se pausa. Los segmentos en pausa no se transcriben. |
| La precisión varía | La precisión es mayor con habla clara, un orador a la vez y un buen micrófono. Los acentos fuertes, el ruido de fondo o las conversaciones cruzadas reducen la precisión. |
| Idioma | El idioma de transcripción se puede configurar en Auto Detect (recomendado) o en un idioma específico en Configuración → AI → SeaMeet Integration. Auto Detect maneja reuniones multilingües automáticamente. |
| Sin edición en tiempo real | No puedes editar la transcripción mientras grabas. La edición está disponible después de que se detiene la grabación. |
Superposición de subtítulos durante la reproducción
Cuando reproduces una grabación que tiene una transcripción en vivo, SeaMeet puede mostrar subtítulos directamente en el video, como los subtítulos cerrados en un televisor.
Cómo funcionan los subtítulos:
- El texto de los subtítulos se superpone en la vista previa del video en la parte inferior del fotograma
- Cada segmento muestra el nombre del orador (con código de color por orador) y el texto hablado
- Los subtítulos están sincronizados con la posición de reproducción; avanzan a medida que se reproduce la grabación
- Los subtítulos usan automáticamente la transcripción en vivo de Gemini de la sesión
Colores de los oradores: A cada orador se le asigna un color consistente en todos los subtítulos y paneles de transcripción. Los colores se determinan automáticamente y permanecen consistentes durante toda la grabación.
Formato de los subtítulos:
[Speaker 1]: Good morning everyone, let's get started.
Los subtítulos aparecen y desaparecen a medida que se reproduce el segmento de transcripción correspondiente.
Diseño de video de dos columnas
Cuando se ve una grabación de video con una transcripción en vivo disponible, SeaMeet usa un diseño de dos columnas:
┌─────────────────────────────────────────────────────┐
│ Video Preview │ Transcript Panel │
│ │ │
│ [video with captions] │ Speaker 1 0:00:12 │
│ │ "Good morning..." │
│ │ │
│ │ Speaker 2 0:00:24 │
│ │ "Thanks for joining" │
│ │ [⤢ Max] │
└─────────────────────────────────────────────────────┘
- Columna izquierda: Video de ancho fijo con superposición de subtítulos
- Columna derecha: Panel de transcripción con desplazamiento, sincronizado con la posición de reproducción
- Botón Maximizar (⤢): Expande el panel de transcripción a superposición de pantalla completa para una lectura más fácil durante grabaciones largas
El diseño de dos columnas solo aparece para grabaciones de video con transcripciones en vivo. Las grabaciones solo de audio y las grabaciones sin transcripciones usan el diseño estándar de una sola columna.
Configuración de idioma para la transcripción
Puedes configurar qué idioma espera SeaMeet durante la transcripción en vivo:
- Abre Configuración (⚙️)
- Navega a AI → SeaMeet Integration
- Encuentra el selector "Meeting Language"
- Elige tu idioma:
- Auto Detect (predeterminado, recomendado) — SeaMeet identifica automáticamente el idioma hablado. Mejor para reuniones multilingües o cuando el idioma varía.
- Selección manual — Elige entre más de 20 idiomas específicos, incluidos inglés (EE. UU./Reino Unido), español, francés, alemán, japonés, mandarín, cantonés, coreano y más.
Consejo: Deja el idioma en Auto Detect a menos que tengas una razón específica para forzar un idioma. La detección automática maneja mejor los acentos y las reuniones en varios idiomas que una configuración forzada manualmente.
Solución de problemas
"El panel de transcripción no aparece"
Síntoma: Inicias la grabación pero el panel de transcripción nunca se muestra.
Verifica en este orden:
- Ve a Configuración → AI y confirma que el botón de AI Features esté activado
- Confirma que tu clave API sea válida (marca de verificación verde en Configuración → AI)
- Revisa tu conexión a internet; intenta cargar una página web
- Reinicia SeaMeet e inténtalo de nuevo
Si el panel sigue sin aparecer después de los cuatro pasos, es posible que el servicio de IA no esté disponible temporalmente. La grabación en sí no se ve afectada; inténtalo de nuevo más tarde.
"La conexión se interrumpió durante la grabación"
Síntoma: El indicador de estado se pone 🔴 rojo durante una grabación.
Lo que ocurrió: La conexión con el motor de IA se interrumpió. Esto puede deberse a:
- Interrupción temporal de la red
- El Wi-Fi cambia de punto de acceso
- El servicio de IA se desconecta brevemente
Qué hacer:
- No detengas la grabación; continúa de forma segura
- Revisa tu conexión a internet
- La conexión generalmente se recupera automáticamente en 30 segundos
- Las palabras pronunciadas durante el período de desconexión no se recuperan; se pierden para la transcripción en vivo (pero el audio permanece en el archivo de grabación, por lo que puedes ejecutar Resumen de IA después; consulta el Capítulo 28)
"Los oradores no están etiquetados correctamente"
Síntoma: Varias personas están etiquetadas como "Speaker 1", o una persona aparece como dos oradores diferentes.
Lo que ocurre: La detección de oradores usa características de voz. La precisión disminuye cuando:
- Varias personas hablan al mismo tiempo
- La voz de un orador cambia significativamente (risa, voz elevada, audio deficiente)
- El ruido de fondo interfiere
Qué hacer:
- Después de la grabación, renombra los oradores en el panel de oradores (consulta el Capítulo 29)
- Usa la función Merge para combinar dos etiquetas que pertenecen a la misma persona (Capítulo 29)
Mejores prácticas
Sigue estas prácticas para obtener los mejores resultados de transcripción en vivo:
Un orador a la vez Las conversaciones cruzadas (dos personas hablando simultáneamente) confunden la detección de oradores y producen texto ilegible en la transcripción. Anima a los participantes a turnarse.
Entorno de grabación tranquilo El ruido de fondo, como sistemas de climatización, tecleo o ruido de la calle, es captado por el micrófono y reduce la precisión de la transcripción. Un micrófono de diadema colocado cerca de la boca da resultados mucho mejores que un micrófono integrado en una laptop.
Buena colocación del micrófono Para reuniones presenciales con varios participantes, coloca un micrófono cerca del centro de la mesa, o usa micrófonos individuales para cada participante.
Conexión a internet estable Usa una conexión cableada o una señal Wi-Fi fuerte. Evita puntos de acceso móvil o redes con alta pérdida de paquetes; provocan interrupciones de la conexión.
Renombra los oradores rápidamente Haz el renombramiento de oradores inmediatamente después de la grabación mientras recuerdas quién dijo qué. Consulta el Capítulo 29 para obtener instrucciones.
Referencia rápida
┌────────────────────────────────────────────────────────────┐
│ LIVE TRANSCRIPTION │
│ Quick Reference │
├────────────────────────────────────────────────────────────┤
│ Start │ Record normally — auto-activates │
│ Status: green │ 🟢 Transcription running │
│ Status: yellow │ 🟡 Connecting (wait 5 s) │
│ Status: red │ 🔴 Disconnected — recording safe │
├────────────────────────────────────────────────────────────┤
│ Transcript panel │ Right side of main window │
│ Preview line │ "Now Speaking…" — in progress │
│ Completed lines │ Final — won't change │
├────────────────────────────────────────────────────────────┤
│ After stopping │ Transcript saved automatically │
│ Find it │ Recording → AI Insights → Transcript │
├────────────────────────────────────────────────────────────┤
│ Requires │ Internet + AI Features on + API key │
│ Timestamps │ Approximate ±3 seconds │
│ Pauses │ Not transcribed │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
← Capítulo 26: Glosario de términos | Capítulo 28: Resumen de IA →
Published: