Chapitre 27 : Transcription en direct — Les mots à l'écran au fil de votre parole

Pensez à un sténographe de tribunal qui tape au fil du déroulement de la session — chaque mot capturé au moment où il est prononcé, sans attendre la fin de la réunion. C'est exactement ce que fait la transcription en direct de SeaMeet pour vos enregistrements. Pendant que vous parlez, le panneau de transcription se remplit en temps réel : étiquettes des intervenants, horodatages et les mots réels, tous apparaissant au fur et à mesure que la conversation se déroule.

Pas d'attente. Pas d'étape de téléchargement. Juste des mots à l'écran.

Objectifs du chapitre

Après avoir lu ce chapitre, vous serez en mesure de :

Comprendre ce que fait la transcription en direct et quand l'utiliser
Configurer les prérequis avant de démarrer
Démarrer une session d'enregistrement avec la transcription en direct active
Lire et interpréter le panneau de transcription pendant l'enregistrement
Comprendre le fonctionnement de la détection automatique des intervenants
Résoudre les problèmes de connexion et d'affichage les plus courants

Qu'est-ce que la transcription en direct ?

La transcription en direct convertit l'audio de votre enregistrement en texte pendant que vous enregistrez, produisant une transcription horodatée avec étiquettes des intervenants en temps réel.

Imaginez ceci : Imaginez un dactylographe assis à côté de vous dans chaque réunion, écrivant instantanément tout ce qui est dit — étiquetant les mots de chaque personne et notant l'heure exacte à laquelle elles ont parlé. Cette transcription est disponible dès la fin de la réunion. Pas de délai de transcription. Pas de spinner « traitement de votre audio ».

La transcription en direct fonctionne en parallèle de votre session d'enregistrement. Dès que vous commencez à enregistrer :

Un moteur IA commence à écouter
Les mots apparaissent dans le panneau Transcription en quelques secondes après avoir été prononcés
Les étiquettes d'intervenants (« Intervenant 1 », « Intervenant 2 ») sont attribuées automatiquement
Les horodatages indiquent où dans l'enregistrement chaque segment se situe

Lorsque vous arrêtez d'enregistrer, la transcription complète est sauvegardée automatiquement avec le fichier audio/vidéo.

Avant de commencer

La transcription en direct nécessite deux éléments configurés avant votre première session :

1. Fonctionnalités IA activées

Ouvrez Paramètres (icône d'engrenage ⚙️ dans le coin supérieur droit)
Accédez à la catégorie AI
Confirmez que le bouton Fonctionnalités IA est activé (bleu)

Si le bouton est gris ou si la catégorie AI est absente, contactez votre administrateur de compte — les fonctionnalités IA peuvent nécessiter un abonnement actif.

2. Clé API configurée

Toujours dans Paramètres → AI :

Cherchez le champ Clé API
Entrez votre Clé API Gemini (voir le Chapitre 31 pour savoir comment en obtenir une)
Cliquez sur Enregistrer

Une coche verte confirme que la clé est valide. Un avertissement rouge signifie que la clé est incorrecte ou expirée.

Remarque : Vous avez besoin d'une connexion internet active pendant l'enregistrement. La transcription en direct ne peut pas fonctionner hors ligne.

Comment démarrer une session de transcription en direct

Démarrer la transcription en direct est identique au démarrage de n'importe quel enregistrement — il n'y a pas de « mode transcription » séparé à activer. Si les Fonctionnalités IA sont activées et une clé API est configurée, la transcription en direct s'active automatiquement.

Étape par étape :

Cliquez sur le bouton rouge d'enregistrement 🔴 (ou utilisez votre raccourci clavier : Ctrl+Alt+A sur Windows, Cmd+Maj+A sur macOS)
- Ce que vous voyez : Le bouton pulse en rouge. Le minuteur d'enregistrement commence à compter.
Regardez le panneau Transcription apparaître
- Ce que vous voyez : Un panneau glisse dans la vue sur le côté droit de la fenêtre principale (ou en dessous du lecteur, selon votre disposition). Il affiche "Connecting…" brièvement.
Parlez normalement
- Ce que vous voyez : Après 2 à 5 secondes, du texte commence à apparaître. La phrase la plus récente affiche une animation subtile pendant qu'elle est encore en cours de traitement.
Poursuivez votre réunion ou enregistrement normalement
- Ce que vous voyez : Les segments complétés s'empilent chronologiquement, chacun étiqueté avec une étiquette d'intervenant et un horodatage.
Arrêtez l'enregistrement lorsque vous avez terminé
- Ce que vous voyez : Le bouton revient à son état inactif. Une notice "Saving transcript…" clignote brièvement, puis disparaît. La transcription est stockée.

Ce que vous voyez pendant l'enregistrement

Le panneau de transcription comporte trois zones principales :

┌─────────────────────────────────────────────┐
│  Transcript                    🟢 Connected  │
├─────────────────────────────────────────────┤
│  Speaker 1   0:00:12                        │
│  "Good morning everyone, let's get started" │
│                                             │
│  Speaker 2   0:00:24                        │
│  "Thanks for joining on short notice"       │
│                                             │
│  Speaker 1   0:00:31                        │
│  "Of course. First item on the agenda…"    │
├─────────────────────────────────────────────┤
│  Now Speaking…  ████████░░░░                │
│  "…is the Q3 budget review"                 │
└─────────────────────────────────────────────┘

Ce que chaque élément signifie :

Élément	Signification
Étiquette d'intervenant	Qui parle — attribué automatiquement (« Intervenant 1 », « Intervenant 2 »)
Horodatage	Quand dans l'enregistrement ce segment commence (heures:minutes:secondes)
Texte complété	Mots finalisés — ceux-ci ne changent pas
Aperçu "Now Speaking…"	L'énoncé actuel encore en cours de traitement — peut légèrement changer
Indicateur d'état	🟢 Connected · 🟡 Connecting · 🔴 Error

Indicateur d'état de connexion

L'indicateur dans le coin supérieur droit du panneau vous indique si le moteur IA est accessible :

🟢 Connected — La transcription fonctionne normalement
🟡 Connecting — Établissement de la connexion (normal au démarrage, prend 2 à 5 secondes)
🔴 Error — Connexion perdue (voir Dépannage ci-dessous)

Si vous voyez 🔴 Error, l'enregistrement lui-même continue en toute sécurité — seule la Transcription en direct est affectée.

Détection automatique des intervenants

Le moteur IA tente de distinguer différentes voix et d'attribuer une étiquette à chacune.

Comment ça fonctionne :

Recording timeline:

0:00 ──────────────────────────────────────────────────► time
        │           │           │           │
      Speaker 1   Speaker 2   Speaker 1   Speaker 2
      "Morning"   "Hello"     "Agenda…"   "Agreed"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Chaque fois que l'intervenant change, le système crée un nouveau segment. Les segments du même intervenant reçoivent la même étiquette.

Étiquettes initiales : Le premier intervenant est « Intervenant 1 », la deuxième nouvelle voix est « Intervenant 2 », et ainsi de suite. Ce sont des espaces réservés — vous pouvez les renommer ultérieurement (voir Chapitre 29).

Affinement des intervenants : Au fur et à mesure que l'enregistrement progresse, l'IA peut affiner les attributions antérieures si elle acquiert la certitude que deux segments appartiennent à la même voix. C'est normal. Le texte ne change pas — seule l'attribution d'intervenant sur les segments passés.

Conseil : Pour la séparation des intervenants la plus précise, utilisez des écouteurs plutôt que des haut-parleurs. La sortie des haut-parleurs captée par votre microphone peut embrouiller le détecteur.

Après l'arrêt de l'enregistrement

Lorsque vous cliquez sur arrêter :

L'aperçu "Now Speaking…" finalise toute phrase en cours
La transcription complète est sauvegardée automatiquement avec votre fichier d'enregistrement
Aucune action manuelle n'est requise

Où trouver la transcription :

Ouvrez l'enregistrement dans votre Bibliothèque d'enregistrements
Cliquez sur AI Insights dans le panneau de détails
Sélectionnez l'onglet Transcription

La transcription est également disponible pour l'exportation au format SRT (format de sous-titres) ou JSON depuis l'onglet AI Insights. Voir le Chapitre 28 pour les détails d'exportation.

Limitations

Comprendre ces limitations aide à avoir des attentes réalistes :

Limitation	Détail
Nécessite internet	La transcription en direct ne peut pas fonctionner hors ligne. L'audio est traité par un moteur IA via le réseau.
Précision des horodatages	Les horodatages sont approximatifs (±3 secondes). Utilisez-les pour la navigation, pas pour la documentation légale.
Pauses dans l'enregistrement	Si vous mettez l'enregistrement en pause, la transcription s'arrête aussi. Les segments en pause ne sont pas transcrits.
La précision varie	La précision est maximale avec une parole claire, un seul intervenant à la fois et un bon microphone. Les accents prononcés, le bruit de fond ou les conversations simultanées réduisent la précision.
Langue	La langue de transcription peut être réglée sur Détection automatique (recommandé) ou une langue spécifique dans Paramètres → AI → SeaMeet Integration. La détection automatique gère automatiquement les réunions multilingues.
Pas d'édition en temps réel	Vous ne pouvez pas modifier la transcription pendant l'enregistrement. L'édition est disponible après l'arrêt de l'enregistrement.

Superposition de sous-titres pendant la lecture

Lorsque vous lisez un enregistrement disposant d'une transcription en direct, SeaMeet peut afficher des sous-titres directement sur la vidéo — comme les sous-titres fermés sur une télévision.

Comment fonctionnent les sous-titres :

Le texte des sous-titres est superposé sur l'aperçu vidéo en bas de l'image
Chaque segment affiche le nom de l'intervenant (code couleur par intervenant) et le texte prononcé
Les sous-titres sont synchronisés avec la position de lecture — ils avancent au fil de la lecture de l'enregistrement
Les sous-titres utilisent automatiquement la transcription Gemini Live de la session

Couleurs des intervenants : Chaque intervenant reçoit une couleur cohérente sur tous les sous-titres et panneaux de transcription. Les couleurs sont déterminées automatiquement et restent cohérentes tout au long de l'enregistrement.

Format des sous-titres :

[Speaker 1]: Good morning everyone, let's get started.

Les sous-titres apparaissent et disparaissent au fur et à mesure que le segment de transcription correspondant se joue.

Disposition vidéo en deux colonnes

Lors de la visualisation d'un enregistrement vidéo avec une transcription en direct disponible, SeaMeet utilise une disposition en deux colonnes :

┌─────────────────────────────────────────────────────┐
│  Video Preview             │  Transcript Panel       │
│                            │                         │
│  [video with captions]     │  Speaker 1   0:00:12   │
│                            │  "Good morning..."     │
│                            │                         │
│                            │  Speaker 2   0:00:24   │
│                            │  "Thanks for joining"  │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

Colonne gauche : Vidéo à largeur fixe avec superposition de sous-titres
Colonne droite : Panneau de transcription défilant, synchronisé avec la position de lecture
Bouton agrandir (⤢) : Développe le panneau de transcription en plein écran pour une lecture plus facile lors des enregistrements longs

La disposition en deux colonnes n'apparaît que pour les enregistrements vidéo avec transcriptions en direct. Les enregistrements audio uniquement et les enregistrements sans transcriptions utilisent la disposition standard en colonne unique.

Paramètres de langue pour la transcription

Vous pouvez configurer la langue que SeaMeet attend pendant la transcription en direct :

Ouvrez Paramètres (⚙️)
Accédez à AI → SeaMeet Integration
Trouvez le sélecteur Langue de réunion
Choisissez votre langue :
- Détection automatique (par défaut, recommandé) — SeaMeet identifie automatiquement la langue parlée. Idéal pour les réunions multilingues ou quand la langue varie.
- Sélection manuelle — Choisissez parmi plus de 20 langues spécifiques, dont l'anglais (US/UK), l'espagnol, le français, l'allemand, le japonais, le mandarin, le cantonais, le coréen, et plus.

Conseil : Laissez la langue réglée sur Détection automatique sauf si vous avez une raison spécifique de forcer une langue. La détection automatique gère mieux les accents et les réunions en plusieurs langues qu'un réglage forcé manuellement.

Dépannage

« Le panneau de transcription n'apparaît pas »

Symptôme : Vous démarrez l'enregistrement mais le panneau de transcription n'apparaît jamais.

Vérifiez dans cet ordre :

Allez dans Paramètres → AI et confirmez que le bouton Fonctionnalités IA est activé
Confirmez que votre clé API est valide (coche verte dans Paramètres → AI)
Vérifiez votre connexion internet — essayez de charger une page web
Redémarrez SeaMeet et réessayez

Si le panneau n'apparaît toujours pas après ces quatre étapes, le service IA peut être temporairement indisponible. L'enregistrement lui-même n'est pas affecté — réessayez plus tard.

« La connexion s'est interrompue en cours d'enregistrement »

Symptôme : L'indicateur d'état devient 🔴 rouge pendant un enregistrement.

Ce qui s'est passé : La connexion au moteur IA a été interrompue. Cela peut se produire en raison de :

Interruption temporaire du réseau
Le Wi-Fi change de point d'accès
Le service IA se déconnecte brièvement

Que faire :

N'arrêtez pas l'enregistrement — il continue en toute sécurité
Vérifiez votre connexion internet
La connexion se rétablit généralement automatiquement en 30 secondes
Les mots prononcés pendant la période de déconnexion ne sont pas récupérés — ils sont perdus pour la transcription en direct (mais l'audio reste dans le fichier d'enregistrement, vous pouvez donc lancer l'Extraction IA après coup — voir Chapitre 28)

« Les intervenants ne sont pas correctement étiquetés »

Symptôme : Plusieurs personnes sont étiquetées comme « Intervenant 1 », ou une personne apparaît comme deux intervenants différents.

Ce qui se passe : La détection des intervenants utilise les caractéristiques vocales. La précision diminue quand :

Plusieurs personnes parlent en même temps
La voix d'un intervenant change significativement (rires, voix élevée, mauvais audio)
Le bruit de fond interfère

Que faire :

Après l'enregistrement, renommez les intervenants dans le panneau Intervenants (voir Chapitre 29)
Utilisez la fonctionnalité Fusionner pour combiner deux étiquettes appartenant à la même personne (Chapitre 29)

Bonnes pratiques

Suivez ces pratiques pour les meilleurs résultats de transcription en direct :

Un intervenant à la fois Les conversations croisées (deux personnes parlant simultanément) perturbent la détection des intervenants et produisent du texte confus dans la transcription. Encouragez les participants à prendre la parole à tour de rôle.

Environnement d'enregistrement calme Le bruit de fond — systèmes de ventilation, frappe de touches, bruit de la rue — est capté par le microphone et réduit la précision de la transcription. Un microphone casque placé près de la bouche donne des résultats bien meilleurs qu'un microphone intégré à un ordinateur portable.

Bon positionnement du microphone Pour les réunions en présentiel avec plusieurs participants, positionnez un microphone près du centre de la table, ou utilisez des microphones individuels pour chaque participant.

Connexion internet stable Utilisez une connexion filaire ou un signal Wi-Fi fort. Évitez les points d'accès mobiles ou les réseaux à forte perte de paquets — ils causent des interruptions de connexion.

Renommez les intervenants rapidement Effectuez le renommage des intervenants immédiatement après l'enregistrement pendant que vous vous souvenez encore de qui a dit quoi. Voir le Chapitre 29 pour les instructions.

Référence rapide

┌────────────────────────────────────────────────────────────┐
│                  LIVE TRANSCRIPTION                        │
│                   Quick Reference                          │
├────────────────────────────────────────────────────────────┤
│  Start             │ Record normally — auto-activates      │
│  Status: green     │ 🟢 Transcription running              │
│  Status: yellow    │ 🟡 Connecting (wait 5 s)              │
│  Status: red       │ 🔴 Disconnected — recording safe      │
├────────────────────────────────────────────────────────────┤
│  Transcript panel  │ Right side of main window             │
│  Preview line      │ "Now Speaking…" — in progress         │
│  Completed lines   │ Final — won't change                  │
├────────────────────────────────────────────────────────────┤
│  After stopping    │ Transcript saved automatically        │
│  Find it           │ Recording → AI Insights → Transcript  │
├────────────────────────────────────────────────────────────┤
│  Requires          │ Internet + AI Features on + API key   │
│  Timestamps        │ Approximate ±3 seconds                │
│  Pauses            │ Not transcribed                       │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← Chapitre 26 : Glossaire des termes | Chapitre 28 : Extraction IA →