Kapitel 27: Live-Transkription — Wörter auf dem Bildschirm, während Sie sprechen

Stellen Sie sich einen Gerichtsstenografen vor, der tippt, während die Sitzung abläuft – jedes Wort wird in dem Moment erfasst, in dem es gesprochen wird, ohne auf das Ende des Meetings zu warten. Genau das macht SeaMeets Live-Transkription für Ihre Aufnahmen. Während Sie sprechen, füllt sich das Transkript-Panel in Echtzeit: Sprecher-Labels, Zeitstempel und die tatsächlichen Wörter – alles erscheint, während das Gespräch stattfindet.

Kein Warten. Kein Upload-Schritt. Nur Wörter auf dem Bildschirm.

Kapitelziele

Nach dem Lesen dieses Kapitels können Sie:

Verstehen, was Live-Transkription tut und wann Sie sie verwenden sollten
Die Voraussetzungen vor dem Start einrichten
Eine Aufnahmesitzung mit aktiver Live-Transkription starten
Das Transkript-Panel während der Aufnahme lesen und interpretieren
Verstehen, wie automatische Sprechererkennung funktioniert
Die häufigsten Verbindungs- und Anzeigenprobleme beheben

Was ist Live-Transkription?

Live-Transkription konvertiert das Audio Ihrer Aufnahme während Sie aufnehmen in Text und erzeugt ein mit Zeitstempeln versehenes, sprecher-beschriftetes Transkript in Echtzeit.

Stellen Sie sich das so vor: Stellen Sie sich einen Schreiber vor, der neben Ihnen in jedem Meeting sitzt und sofort alles aufschreibt – die Wörter jeder Person mit Labels versieht und den genauen Zeitpunkt notiert, wann sie gesprochen haben. Dieses Transkript ist in dem Moment verfügbar, in dem das Meeting endet. Keine Transkriptionsverzögerung. Kein "Ihr Audio wird verarbeitet"-Spinner.

Die Live-Transkription läuft parallel zu Ihrer Aufnahmesitzung. In dem Moment, in dem Sie die Aufnahme starten:

Beginnt eine KI-Engine zuzuhören
Erscheinen Wörter im Transkript-Panel innerhalb von Sekunden nach dem Sprechen
Werden Sprecher-Labels ("Sprecher 1", "Sprecher 2") automatisch zugewiesen
Markieren Zeitstempel, wo in der Aufnahme jedes Segment liegt

Wenn Sie die Aufnahme stoppen, wird das vollständige Transkript automatisch zusammen mit der Audio-/Videodatei gespeichert.

Bevor Sie beginnen

Die Live-Transkription erfordert zwei Dinge, die vor Ihrer ersten Sitzung konfiguriert sein müssen:

1. KI-Funktionen aktiviert

Öffnen Sie Einstellungen (Zahnrad-Symbol ⚙️ in der oberen rechten Ecke)
Navigieren Sie zur Kategorie KI
Bestätigen Sie, dass der KI-Funktionen-Umschalter ein ist (blau)

Wenn der Umschalter grau oder die KI-Kategorie fehlt, wenden Sie sich an Ihren Kontoadministrator – KI-Funktionen erfordern möglicherweise ein aktives Abonnement.

2. API-Schlüssel konfiguriert

Noch in Einstellungen → KI:

Suchen Sie das API-Schlüssel-Feld
Geben Sie Ihren Gemini-API-Schlüssel ein (siehe Kapitel 31, wie Sie einen erhalten)
Klicken Sie auf Speichern

Ein grünes Häkchen bestätigt, dass der Schlüssel gültig ist. Eine rote Warnung bedeutet, dass der Schlüssel falsch ist oder abgelaufen ist.

Hinweis: Sie benötigen während der Aufnahme eine aktive Internetverbindung. Live-Transkription kann nicht offline funktionieren.

So starten Sie eine Live-Transkriptionssitzung

Das Starten der Live-Transkription ist identisch mit dem Starten einer beliebigen Aufnahme – es gibt keinen separaten "Transkriptionsmodus", der aktiviert werden muss. Wenn KI-Funktionen aktiviert sind und ein API-Schlüssel konfiguriert ist, wird die Live-Transkription automatisch aktiviert.

Schritt für Schritt:

Klicken Sie auf den roten Aufnahmeknopf 🔴 (oder verwenden Sie Ihre Tastenkombination: Strg+Alt+A unter Windows, Cmd+Umschalt+A unter macOS)
- Was Sie sehen: Der Knopf pulst rot. Der Aufnahmetimer beginnt hochzuzählen.
Beobachten Sie das erscheinende Transkript-Panel
- Was Sie sehen: Ein Panel gleitet auf der rechten Seite des Hauptfensters in die Ansicht (oder unterhalb des Players, abhängig von Ihrem Layout). Es zeigt kurz "Verbindung wird hergestellt..." an.
Sprechen Sie normal
- Was Sie sehen: Nach 2–5 Sekunden erscheint Text. Die neueste Phrase zeigt eine subtile Animation, während sie noch verarbeitet wird.
Setzen Sie Ihr Meeting oder Ihre Aufnahme wie gewohnt fort
- Was Sie sehen: Abgeschlossene Segmente stapeln sich chronologisch auf, jedes mit einem Sprecher-Label und einem Zeitstempel versehen.
Stoppen Sie die Aufnahme, wenn Sie fertig sind
- Was Sie sehen: Der Knopf kehrt in seinen Ruhezustand zurück. Ein "Transkript wird gespeichert..."-Hinweis blinkt kurz auf und verschwindet dann. Das Transkript wird gespeichert.

Was Sie während der Aufnahme sehen

Das Transkript-Panel hat drei Hauptbereiche:

┌─────────────────────────────────────────────┐
│  Transkript                    🟢 Verbunden  │
├─────────────────────────────────────────────┤
│  Sprecher 1   0:00:12                       │
│  "Guten Morgen allerseits, fangen wir an"   │
│                                             │
│  Sprecher 2   0:00:24                       │
│  "Danke, dass ihr kurzfristig dabei seid"   │
│                                             │
│  Sprecher 1   0:00:31                       │
│  "Natürlich. Erster Punkt auf der Tages…"  │
├─────────────────────────────────────────────┤
│  Spricht gerade…  ████████░░░░              │
│  "…ordnung ist die Q3-Budgetüberprüfung"    │
└─────────────────────────────────────────────┘

Was jedes Element bedeutet:

Element	Bedeutung
Sprecher-Label	Wer spricht – automatisch zugewiesen ("Sprecher 1", "Sprecher 2")
Zeitstempel	Wann in der Aufnahme dieses Segment beginnt (Stunden:Minuten:Sekunden)
Abgeschlossener Text	Abgeschlossene Wörter – diese ändern sich nicht
"Spricht gerade..."-Vorschau	Die aktuelle Äußerung, die noch verarbeitet wird – kann sich leicht ändern
Statusanzeige	🟢 Verbunden · 🟡 Verbindung wird hergestellt · 🔴 Fehler

Verbindungsstatusanzeige

Die Anzeige in der oberen rechten Ecke des Panels zeigt an, ob die KI-Engine erreichbar ist:

🟢 Verbunden — Transkription läuft normal
🟡 Verbindung wird hergestellt — Verbindung wird aufgebaut (normal beim Start, dauert 2–5 Sekunden)
🔴 Fehler — Verbindung unterbrochen (siehe Fehlerbehebung unten)

Wenn Sie 🔴 Fehler sehen, läuft die Aufnahme selbst weiter sicher – nur die Live-Transkription ist betroffen.

Automatische Sprechererkennung

Die KI-Engine versucht, zwischen verschiedenen Stimmen zu unterscheiden und jeder ein Label zuzuweisen.

Wie es funktioniert:

Aufnahmezeitachse:

0:00 ──────────────────────────────────────────────────► Zeit
        │           │           │           │
      Sprecher 1  Sprecher 2  Sprecher 1  Sprecher 2
      "Morgen"    "Hallo"     "Agenda…"   "Einverstanden"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Jedes Mal, wenn der Sprecher wechselt, erstellt das System ein neues Segment. Segmente desselben Sprechers erhalten dasselbe Label.

Anfangslabels: Der erste Sprecher, der redet, ist "Sprecher 1", die zweite neue Stimme ist "Sprecher 2" und so weiter. Dies sind Platzhalter – Sie können sie später umbenennen (siehe Kapitel 29).

Sprecher-Verfeinerung: Im Laufe der Aufnahme kann die KI frühere Zuweisungen verfeinern, wenn sie sicher ist, dass zwei Segmente zur gleichen Stimme gehören. Das ist normal. Der Text ändert sich nicht – nur die Sprecher-Zuordnung bei vergangenen Segmenten.

Tipp: Für die genaueste Sprechertrennung verwenden Sie Kopfhörer statt Lautsprecher. Lautsprecherausgabe, die von Ihrem Mikrofon aufgenommen wird, kann den Detektor verwirren.

Nachdem die Aufnahme stoppt

Wenn Sie auf Stopp klicken:

Die "Spricht gerade..."-Vorschau schließt alle laufenden Sätze ab
Das vollständige Transkript wird automatisch zusammen mit Ihrer Aufnahmedatei gespeichert
Keine manuelle Aktion erforderlich

Wo das Transkript zu finden ist:

Öffnen Sie die Aufnahme in Ihrer Aufnahmebibliothek
Klicken Sie auf KI-Einblicke im Detailbereich
Wählen Sie die Registerkarte Transkript

Das Transkript ist auch als SRT (Untertitelformat) oder JSON über die KI-Einblicke-Registerkarte zum Export verfügbar. Siehe Kapitel 28 für Export-Details.

Einschränkungen

Das Verständnis dieser Einschränkungen hilft, realistische Erwartungen zu setzen:

Einschränkung	Details
Internetverbindung erforderlich	Live-Transkription kann nicht offline laufen. Das Audio wird von einer KI-Engine über das Netzwerk verarbeitet.
Zeitstempel-Genauigkeit	Zeitstempel sind ungefähr (±3 Sekunden). Verwenden Sie sie zur Navigation, nicht für rechtliche Dokumentation.
Pausen in der Aufnahme	Wenn Sie die Aufnahme pausieren, pausiert auch die Transkription. Pausierte Segmente werden nicht transkribiert.
Genauigkeit variiert	Die Genauigkeit ist am höchsten bei klarer Sprache, einem Sprecher gleichzeitig und einem guten Mikrofon. Starke Akzente, Hintergrundgeräusche oder Überlappungen reduzieren die Genauigkeit.
Sprache	Die Transkriptionssprache kann auf Automatisch erkennen (empfohlen) oder eine bestimmte Sprache in Einstellungen → KI → SeaMeet-Integration gesetzt werden. Automatisch erkennen verarbeitet mehrsprachige Meetings automatisch.
Keine Echtzeit-Bearbeitung	Sie können das Transkript während der Aufnahme nicht bearbeiten. Die Bearbeitung ist nach dem Stoppen der Aufnahme verfügbar.

Untertitel-Overlay bei der Wiedergabe

Wenn Sie eine Aufnahme mit einem Live-Transkript abspielen, kann SeaMeet Untertitel direkt auf dem Video anzeigen – wie Untertitel im Fernsehen.

Wie Untertitel funktionieren:

Untertiteltext wird auf die Videovorschau am unteren Rand des Frames überlagert
Jedes Segment zeigt den Sprechernamen (farblich codiert pro Sprecher) und den gesprochenen Text
Untertitel sind mit der Wiedergabeposition synchronisiert – sie bewegen sich mit, während die Aufnahme abgespielt wird
Untertitel verwenden automatisch das Gemini Live-Transkript aus der Sitzung

Sprecherfarben: Jedem Sprecher wird eine konsistente Farbe in allen Untertiteln und Transkript-Panels zugewiesen. Die Farben werden automatisch bestimmt und bleiben während der gesamten Aufnahme konsistent.

Untertitelformat:

[Sprecher 1]: Guten Morgen allerseits, fangen wir an.

Untertitel erscheinen und verschwinden, wenn das entsprechende Transkriptsegment abgespielt wird.

Zweispalten-Videolayout

Beim Ansehen einer Videoaufnahme mit einem verfügbaren Live-Transkript verwendet SeaMeet ein zweispaltiges Layout:

┌─────────────────────────────────────────────────────┐
│  Videovorschau             │  Transkript-Panel       │
│                            │                         │
│  [Video mit Untertiteln]   │  Sprecher 1   0:00:12  │
│                            │  "Guten Morgen..."     │
│                            │                         │
│                            │  Sprecher 2   0:00:24  │
│                            │  "Danke fürs Kommen"   │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

Linke Spalte: Breites Video mit Untertitel-Overlay
Rechte Spalte: Scrollendes Transkript-Panel, synchronisiert mit der Wiedergabeposition
Maximieren-Schaltfläche (⤢): Erweitert das Transkript-Panel auf Vollbild-Overlay für einfachere Lesbarkeit bei langen Aufnahmen

Das zweispaltige Layout erscheint nur für Videoaufnahmen mit Live-Transkripten. Nur-Audio-Aufnahmen und Aufnahmen ohne Transkripte verwenden das standardmäßige einspaltige Layout.

Spracheinstellungen für die Transkription

Sie können konfigurieren, welche Sprache SeaMeet während der Live-Transkription erwartet:

Öffnen Sie Einstellungen (⚙️)
Navigieren Sie zu KI → SeaMeet-Integration
Suchen Sie den Meeting-Sprache-Selektor
Wählen Sie Ihre Sprache:
- Automatisch erkennen (Standard, empfohlen) — SeaMeet identifiziert die gesprochene Sprache automatisch. Am besten für mehrsprachige Meetings oder wenn die Sprache variiert.
- Manuelle Auswahl — Wählen Sie aus 20+ spezifischen Sprachen, einschließlich Englisch (US/UK), Spanisch, Französisch, Deutsch, Japanisch, Mandarin, Kantonesisch, Koreanisch und mehr.

Tipp: Belassen Sie die Sprache auf Automatisch erkennen, es sei denn, Sie haben einen bestimmten Grund, eine Sprache zu erzwingen. Automatische Erkennung verarbeitet Akzente und gemischsprachige Meetings besser als eine manuell erzwungene Einstellung.

Fehlerbehebung

"Transkript-Panel erscheint nicht"

Symptom: Sie starten die Aufnahme, aber das Transkript-Panel erscheint nie.

Überprüfen Sie diese der Reihe nach:

Gehen Sie zu Einstellungen → KI und bestätigen Sie, dass der KI-Funktionen-Umschalter ein ist
Bestätigen Sie, dass Ihr API-Schlüssel gültig ist (grünes Häkchen in Einstellungen → KI)
Überprüfen Sie Ihre Internetverbindung – versuchen Sie, eine Webseite zu laden
Starten Sie SeaMeet neu und versuchen Sie es erneut

Wenn das Panel nach allen vier Schritten immer noch nicht erscheint, ist der KI-Dienst möglicherweise vorübergehend nicht verfügbar. Die Aufnahme selbst ist nicht betroffen – versuchen Sie es später erneut.

"Verbindung während der Aufnahme unterbrochen"

Symptom: Die Statusanzeige wird während einer Aufnahme 🔴 rot.

Was passiert ist: Die Verbindung zur KI-Engine wurde unterbrochen. Dies kann passieren aufgrund von:

Vorübergehender Netzwerkunterbrechung
WLAN wechselt Zugangspunkte
Der KI-Dienst geht kurz offline

Was zu tun ist:

Stoppen Sie die Aufnahme nicht – sie läuft weiter sicher
Überprüfen Sie Ihre Internetverbindung
Die Verbindung wird normalerweise automatisch innerhalb von 30 Sekunden wiederhergestellt
Während der Verbindungsunterbrechung gesprochene Wörter werden nicht wiederhergestellt – sie gehen für das Live-Transkript verloren (aber das Audio bleibt in der Aufnahmedatei, sodass Sie danach KI-Extraktion ausführen können – siehe Kapitel 28)

"Sprecher werden nicht korrekt beschriftet"

Symptom: Mehrere Personen werden als "Sprecher 1" beschriftet, oder eine Person erscheint als zwei verschiedene Sprecher.

Was passiert: Sprechererkennung verwendet Stimmcharakteristika. Die Genauigkeit sinkt, wenn:

Mehrere Personen gleichzeitig sprechen
Die Stimme eines Sprechers sich erheblich verändert (Lachen, erhobene Stimme, schlechtes Audio)
Hintergrundgeräusche stören

Was zu tun ist:

Benennen Sie nach der Aufnahme Sprecher im Sprecher-Panel um (siehe Kapitel 29)
Verwenden Sie die Zusammenführungsfunktion, um zwei Labels zu kombinieren, die zur gleichen Person gehören (Kapitel 29)

Best Practices

Befolgen Sie diese Praktiken für die besten Live-Transkriptionsergebnisse:

Immer nur ein Sprecher gleichzeitig Überlappungen (zwei Personen sprechen gleichzeitig) verwirren die Sprechererkennung und produzieren verzerrten Text im Transkript. Ermutigen Sie die Teilnehmer, abwechselnd zu sprechen.

Ruhige Aufnahmeumgebung Hintergrundgeräusche – HLK-Anlagen, Tippen, Straßenlärm – werden vom Mikrofon aufgenommen und reduzieren die Transkriptionsgenauigkeit. Ein Headset-Mikrofon in Mundnähe liefert weitaus bessere Ergebnisse als ein eingebautes Laptop-Mikrofon.

Gute Mikrofonpositionierung Für persönliche Meetings mit mehreren Teilnehmern positionieren Sie ein Mikrofon in der Mitte des Tisches, oder verwenden Sie individuelle Mikrofone für jeden Teilnehmer.

Stabile Internetverbindung Verwenden Sie eine kabelgebundene Verbindung oder ein starkes WLAN-Signal. Vermeiden Sie Hotspots oder Netzwerke mit hohem Paketverlust – diese verursachen Verbindungsabbrüche.

Sprecher schnell umbenennen Nehmen Sie die Sprecher-Umbenennung sofort nach der Aufnahme vor, solange Sie sich noch erinnern, wer was gesagt hat. Siehe Kapitel 29 für Anweisungen.

Schnellreferenz

┌────────────────────────────────────────────────────────────┐
│                  LIVE-TRANSKRIPTION                         │
│                   Schnellreferenz                           │
├────────────────────────────────────────────────────────────┤
│  Starten           │ Normal aufnehmen — auto-aktiviert      │
│  Status: grün      │ 🟢 Transkription läuft                 │
│  Status: gelb      │ 🟡 Verbindung wird hergestellt (5s)    │
│  Status: rot       │ 🔴 Getrennt — Aufnahme sicher          │
├────────────────────────────────────────────────────────────┤
│  Transkript-Panel  │ Rechte Seite des Hauptfensters         │
│  Vorschauzeile     │ "Spricht gerade..." — in Bearbeitung   │
│  Abgeschlossene    │ Endgültig — ändert sich nicht          │
│  Zeilen            │                                        │
├────────────────────────────────────────────────────────────┤
│  Nach dem Stoppen  │ Transkript automatisch gespeichert     │
│  Finden Sie es     │ Aufnahme → KI-Einblicke → Transkript   │
├────────────────────────────────────────────────────────────┤
│  Erfordert         │ Internet + KI-Funktionen ein + API-Key │
│  Zeitstempel       │ Ungefähr ±3 Sekunden                   │
│  Pausen            │ Werden nicht transkribiert             │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← Kapitel 26: Glossar der Begriffe | Kapitel 28: KI-Extraktion →

Live-Transkription - Wörter auf dem Bildschirm, während Sie sprechen