Capítulo 27: Transcrição ao vivo — Palavras na tela enquanto você fala

Imagine um taquígrafo de tribunal digitando à medida que a sessão se desenrola—cada palavra capturada no momento em que é falada, sem esperar até que a reunião termine. É exatamente isso que a transcrição ao vivo do SeaMeet faz para suas gravações. Enquanto você está falando, o painel de transcrição se preenche em tempo real: identificação dos locutores, carimbos de tempo e as palavras reais, tudo aparecendo conforme a conversa acontece.

Sem espera. Sem etapa de upload. Apenas palavras na tela.

Objetivos do capítulo

Após ler este capítulo, você será capaz de:

Entender o que a transcrição ao vivo faz e quando usá-la
Configurar os pré-requisitos antes de começar
Iniciar uma sessão de gravação com a transcrição ao vivo ativa
Ler e interpretar o painel de transcrição durante a gravação
Entender como funciona a detecção automática de locutores
Solucionar os problemas mais comuns de conexão e exibição

O que é a transcrição ao vivo?

A transcrição ao vivo converte o áudio de sua gravação em texto enquanto você grava, produzindo uma transcrição com carimbo de tempo e identificação de locutores em tempo real.

Pense assim: Imagine um datilógrafo sentado ao seu lado em cada reunião, escrevendo instantaneamente tudo que é dito—identificando as palavras de cada pessoa e anotando o horário exato em que foram faladas. Essa transcrição está disponível no momento em que a reunião termina. Sem atraso de transcrição. Sem "processando seu áudio".

A transcrição ao vivo funciona paralelamente à sua sessão de gravação. No momento em que você começa a gravar:

Um motor de IA começa a ouvir
As palavras aparecem no painel de Transcrição dentro de segundos de serem faladas
Identificações de locutores ("Locutor 1", "Locutor 2") são atribuídas automaticamente
Carimbos de tempo marcam onde na gravação cada segmento está

Quando você para de gravar, a transcrição completa é salva automaticamente junto com o arquivo de áudio/vídeo.

Antes de começar

A transcrição ao vivo requer duas coisas configuradas antes da sua primeira sessão:

1. Recursos de IA ativados

Abra as Configurações (ícone de engrenagem ⚙️ no canto superior direito)
Navegue até a categoria IA
Confirme que o botão Recursos de IA está ativado (azul)

Se o botão estiver cinza ou a categoria de IA estiver ausente, contate seu administrador de conta—os recursos de IA podem exigir uma assinatura ativa.

2. Chave de API configurada

Ainda em Configurações → IA:

Procure o campo Chave de API
Insira sua chave de API Gemini (consulte o Capítulo 31 para saber como obter uma)
Clique em Salvar

Um sinal de verificação verde confirma que a chave é válida. Um aviso vermelho significa que a chave está incorreta ou expirou.

Observação: Você precisa de uma conexão ativa com a internet durante a gravação. A transcrição ao vivo não pode funcionar offline.

Como iniciar uma sessão de transcrição ao vivo

Iniciar a transcrição ao vivo é idêntico a iniciar qualquer gravação—não há um "modo de transcrição" separado para ativar. Se os Recursos de IA estiverem ativados e uma chave de API estiver configurada, a transcrição ao vivo é ativada automaticamente.

Passo a passo:

Clique no botão vermelho de gravar 🔴 (ou use seu atalho de teclado: Ctrl+Alt+A no Windows, Cmd+Shift+A no macOS)
- O que você vê: O botão pulsa em vermelho. O cronômetro de gravação começa a contar.
Observe o painel de Transcrição aparecer
- O que você vê: Um painel desliza para a visualização no lado direito da janela principal (ou abaixo do player, dependendo do seu layout). Ele mostra "Conectando…" brevemente.
Fale normalmente
- O que você vê: Após 2 a 5 segundos, o texto começa a aparecer. A frase mais recente mostra uma animação sutil enquanto ainda está sendo processada.
Continue sua reunião ou gravação normalmente
- O que você vê: Segmentos concluídos se acumulam em ordem cronológica, cada um marcado com uma identificação de locutor e um carimbo de tempo.
Pare a gravação quando terminar
- O que você vê: O botão retorna ao estado de inatividade. Um aviso "Salvando transcrição…" pisca brevemente e depois desaparece. A transcrição está armazenada.

O que você vê durante a gravação

O painel de transcrição tem três áreas principais:

┌─────────────────────────────────────────────┐
│  Transcrição                   🟢 Conectado  │
├─────────────────────────────────────────────┤
│  Locutor 1   0:00:12                        │
│  "Bom dia a todos, vamos começar"           │
│                                             │
│  Locutor 2   0:00:24                        │
│  "Obrigado por participar com pouco aviso"  │
│                                             │
│  Locutor 1   0:00:31                        │
│  "Claro. O primeiro item da pauta…"        │
├─────────────────────────────────────────────┤
│  Falando agora…  ████████░░░░               │
│  "…é a revisão do orçamento do 3T"          │
└─────────────────────────────────────────────┘

O que cada elemento significa:

Elemento	Significado
Identificação do locutor	Quem está falando — atribuído automaticamente ("Locutor 1", "Locutor 2")
Carimbo de tempo	Quando nesta gravação este segmento começa (horas:minutos:segundos)
Texto concluído	Palavras finalizadas — não mudam
Prévia "Falando agora…"	A fala atual ainda sendo processada — pode mudar ligeiramente
Indicador de status	🟢 Conectado · 🟡 Conectando · 🔴 Erro

Indicador de status de conexão

O indicador no canto superior direito do painel indica se o motor de IA está acessível:

🟢 Conectado — A transcrição está funcionando normalmente
🟡 Conectando — Estabelecendo conexão (normal na inicialização, leva 2 a 5 segundos)
🔴 Erro — Conexão perdida (consulte Solução de problemas abaixo)

Se você vir 🔴 Erro, a própria gravação continua com segurança—apenas a transcrição ao vivo é afetada.

Detecção automática de locutores

O motor de IA tenta distinguir entre vozes diferentes e atribuir uma identificação a cada uma.

Como funciona:

Linha do tempo da gravação:

0:00 ──────────────────────────────────────────────────► tempo
        │           │           │           │
      Locutor 1   Locutor 2   Locutor 1   Locutor 2
      "Manhã"     "Olá"       "Pauta…"    "Concordo"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Cada vez que o locutor muda, o sistema cria um novo segmento. Segmentos do mesmo locutor recebem a mesma identificação.

Identificações iniciais: O primeiro locutor a falar é "Locutor 1", a segunda voz nova é "Locutor 2", e assim por diante. São espaços reservados—você pode renomeá-los depois (consulte o Capítulo 29).

Refinamento de locutor: À medida que a gravação avança, a IA pode refinar atribuições anteriores se ficar confiante de que dois segmentos pertencem à mesma voz. Isso é normal. O texto não muda—apenas a atribuição de locutor nos segmentos anteriores.

Dica: Para a separação de locutores mais precisa, use fones de ouvido em vez de alto-falantes. O áudio do alto-falante captado pelo microfone pode confundir o detector.

Após a gravação parar

Quando você clica em parar:

A prévia "Falando agora…" finaliza qualquer frase em andamento
A transcrição completa é salva junto com seu arquivo de gravação automaticamente
Nenhuma ação manual é necessária

Onde encontrar a transcrição:

Abra a gravação em sua Biblioteca de gravações
Clique em AI Insights no painel de detalhes
Selecione a aba Transcrição

A transcrição também está disponível para exportação como SRT (formato de legenda) ou JSON na aba AI Insights. Consulte o Capítulo 28 para detalhes de exportação.

Limitações

Entender essas limitações ajuda a definir expectativas realistas:

Limitação	Detalhe
Requer internet	A transcrição ao vivo não pode funcionar offline. O áudio é processado por um motor de IA pela rede.
Precisão do carimbo de tempo	Os carimbos de tempo são aproximados (±3 segundos). Use-os para navegação, não para documentação legal.
Pausas na gravação	Se você pausar a gravação, a transcrição também pausa. Segmentos pausados não são transcritos.
A precisão varia	A precisão é maior com fala clara, um locutor de cada vez e um bom microfone. Sotaques fortes, ruído de fundo ou conversa simultânea reduzem a precisão.
Idioma	O idioma de transcrição pode ser definido como Detecção automática (recomendado) ou um idioma específico em Configurações → IA → Integração SeaMeet. A Detecção automática lida com reuniões multilíngues automaticamente.
Sem edição em tempo real	Você não pode editar a transcrição durante a gravação. A edição está disponível após a parada da gravação.

Sobreposição de legendas durante a reprodução

Quando você reproduz uma gravação que tem uma transcrição ao vivo, o SeaMeet pode exibir legendas diretamente no vídeo—como closed captions em uma TV.

Como as legendas funcionam:

O texto da legenda é sobreposto na prévia de vídeo na parte inferior do quadro
Cada segmento mostra o nome do locutor (com código de cor por locutor) e o texto falado
As legendas são sincronizadas com a posição de reprodução—avançam conforme a gravação reproduz
As legendas usam automaticamente a transcrição Gemini Live da sessão

Cores dos locutores: Cada locutor recebe uma cor consistente em todas as legendas e painéis de transcrição. As cores são determinadas automaticamente e permanecem consistentes durante toda a gravação.

Formato de legenda:

[Locutor 1]: Bom dia a todos, vamos começar.

As legendas aparecem e desaparecem conforme o segmento de transcrição correspondente reproduz.

Layout de vídeo em duas colunas

Ao assistir a uma gravação de vídeo com uma transcrição ao vivo disponível, o SeaMeet usa um layout de duas colunas:

┌─────────────────────────────────────────────────────┐
│  Prévia de vídeo           │  Painel de transcrição  │
│                            │                         │
│  [vídeo com legendas]      │  Locutor 1   0:00:12   │
│                            │  "Bom dia..."          │
│                            │                         │
│                            │  Locutor 2   0:00:24   │
│                            │  "Obrigado"            │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

Coluna esquerda: Vídeo de largura fixa com sobreposição de legenda
Coluna direita: Painel de transcrição com rolagem, sincronizado com a posição de reprodução
Botão maximizar (⤢): Expande o painel de transcrição para sobreposição de tela cheia para leitura mais fácil durante gravações longas

O layout de duas colunas só aparece para gravações de vídeo com transcrições ao vivo. Gravações somente de áudio e gravações sem transcrições usam o layout padrão de coluna única.

Configurações de idioma para transcrição

Você pode configurar qual idioma o SeaMeet espera durante a transcrição ao vivo:

Abra as Configurações (⚙️)
Navegue até IA → Integração SeaMeet
Encontre o seletor Idioma da reunião
Escolha seu idioma:
- Detecção automática (padrão, recomendado) — O SeaMeet identifica automaticamente o idioma falado. Melhor para reuniões multilíngues ou quando o idioma varia.
- Seleção manual — Escolha entre mais de 20 idiomas específicos, incluindo inglês (EUA/Reino Unido), espanhol, francês, alemão, japonês, mandarim, cantonês, coreano e mais.

Dica: Deixe o idioma definido como Detecção automática, a menos que você tenha um motivo específico para forçar um idioma. A detecção automática lida melhor com sotaques e reuniões em vários idiomas do que uma configuração forçada manualmente.

Solução de problemas

"O painel de transcrição não aparece"

Sintoma: Você inicia a gravação, mas o painel de transcrição nunca aparece.

Verifique nesta ordem:

Vá para Configurações → IA e confirme que o botão de Recursos de IA está ativado
Confirme que sua chave de API é válida (sinal de verificação verde em Configurações → IA)
Verifique sua conexão com a internet — tente carregar uma página web
Reinicie o SeaMeet e tente novamente

Se o painel ainda não aparecer após todos os quatro passos, o serviço de IA pode estar temporariamente indisponível. A gravação em si não é afetada—tente novamente mais tarde.

"Conexão perdida durante a gravação"

Sintoma: O indicador de status fica 🔴 vermelho durante uma gravação.

O que aconteceu: A conexão com o motor de IA foi interrompida. Isso pode acontecer devido a:

Interrupção temporária da rede
Wi-Fi mudando de ponto de acesso
O serviço de IA ficando offline brevemente

O que fazer:

Não pare a gravação—ela continua com segurança
Verifique sua conexão com a internet
A conexão geralmente se recupera automaticamente em 30 segundos
Palavras faladas durante o período de desconexão não são recuperadas—elas são perdidas para a transcrição ao vivo (mas o áudio permanece no arquivo de gravação, então você pode executar a Extração de IA depois — consulte o Capítulo 28)

"Locutores não identificados corretamente"

Sintoma: Várias pessoas são identificadas como "Locutor 1", ou uma pessoa aparece como dois locutores diferentes.

O que está acontecendo: A detecção de locutor usa características de voz. A precisão diminui quando:

Várias pessoas falam ao mesmo tempo
A voz de um locutor muda significativamente (rindo, voz elevada, áudio ruim)
Ruído de fundo interfere

O que fazer:

Após a gravação, renomeie os locutores no painel de Locutores (consulte o Capítulo 29)
Use o recurso Mesclar para combinar dois identificadores que pertencem à mesma pessoa (Capítulo 29)

Melhores práticas

Siga estas práticas para os melhores resultados de transcrição ao vivo:

Um locutor de cada vez Conversa simultânea (duas pessoas falando ao mesmo tempo) confunde a detecção de locutores e produz texto distorcido na transcrição. Incentive os participantes a revezar.

Ambiente de gravação silencioso Ruído de fundo—sistemas de ar-condicionado, digitação, barulho da rua—é captado pelo microfone e reduz a precisão da transcrição. Um microfone de fone de ouvido colocado perto da boca fornece resultados muito melhores do que um microfone integrado de laptop.

Boa colocação do microfone Para reuniões presenciais com vários participantes, posicione um microfone perto do centro da mesa, ou use microfones individuais para cada participante.

Conexão estável com a internet Use uma conexão com fio ou um sinal Wi-Fi forte. Evite pontos de acesso móvel ou redes com alta perda de pacotes—elas causam quedas de conexão.

Renomeie os locutores prontamente Faça a renomeação dos locutores imediatamente após a gravação, enquanto você se lembra de quem disse o quê. Consulte o Capítulo 29 para instruções.

Referência rápida

┌────────────────────────────────────────────────────────────┐
│                  TRANSCRIÇÃO AO VIVO                       │
│                   Referência rápida                        │
├────────────────────────────────────────────────────────────┤
│  Iniciar             │ Grave normalmente — ativa auto.     │
│  Status: verde       │ 🟢 Transcrição em execução          │
│  Status: amarelo     │ 🟡 Conectando (aguarde 5 s)         │
│  Status: vermelho    │ 🔴 Desconectado — gravação segura   │
├────────────────────────────────────────────────────────────┤
│  Painel de transc.   │ Lado direito da janela principal    │
│  Linha de prévia     │ "Falando agora…" — em andamento     │
│  Linhas concluídas   │ Final — não mudarão                 │
├────────────────────────────────────────────────────────────┤
│  Após parar          │ Transcrição salva automaticamente   │
│  Encontrá-la         │ Gravação → AI Insights → Transcrição│
├────────────────────────────────────────────────────────────┤
│  Requer              │ Internet + Recursos de IA + chave   │
│  Carimbos de tempo   │ Aproximados ±3 segundos             │
│  Pausas              │ Não transcritas                     │
└────────────────────────────────────────────────────────────┘

Última atualização: 2026-03-20

← Capítulo 26: Glossário de termos | Capítulo 28: Extração de IA →

Transcrição ao vivo - Palavras na tela enquanto você fala