SeaMeet Desktop jest tutaj — Nagrywaj wszystko, nie przegap niczego. Pobierz za darmo →

Transkrypcja na żywo — słowa na ekranie w trakcie mówienia

Rozdział 27: Transkrypcja na żywo — słowa na ekranie w trakcie mówienia

Wyobraź sobie stenografkę sądową piszącą w miarę jak sesja się toczy — każde słowo uchwycone w chwili jego wypowiedzenia, bez czekania na zakończenie spotkania. To właśnie robi transkrypcja na żywo SeaMeet dla Twoich nagrań. Gdy rozmawiasz, panel transkrypcji wypełnia się w czasie rzeczywistym: etykiety mówiącego, znaczniki czasu i rzeczywiste słowa — wszystko pojawiające się w trakcie rozmowy.

Bez czekania. Bez etapu przesyłania. Po prostu słowa na ekranie.


Cele rozdziału

Po przeczytaniu tego rozdziału będziesz w stanie:

  • Rozumieć, co robi transkrypcja na żywo i kiedy jej używać
  • Skonfigurować wymagania wstępne przed pierwszą sesją
  • Rozpocząć sesję nagrywania z aktywną transkrypcją na żywo
  • Odczytywać i interpretować panel transkrypcji podczas nagrywania
  • Rozumieć, jak działa automatyczne wykrywanie mówiącego
  • Rozwiązywać najczęstsze problemy z połączeniem i wyświetlaniem

Co to jest transkrypcja na żywo?

Transkrypcja na żywo konwertuje dźwięk z Twojego nagrania na tekst podczas nagrywania, tworząc transkrypcję ze znacznikami czasu i etykietami mówiącego w czasie rzeczywistym.

Pomyśl o tym tak: Wyobraź sobie maszynistkę siedzącą obok Ciebie na każdym spotkaniu, natychmiast zapisującą wszystko, co zostało powiedziane — oznaczającą słowa każdej osoby i notującą dokładny czas mówienia. Ta transkrypcja jest dostępna w chwili zakończenia spotkania. Bez opóźnienia transkrypcji. Bez kręcącego się kółka "przetwarzania dźwięku".

Transkrypcja na żywo działa równolegle z sesją nagrywania. W chwili gdy zaczynasz nagrywać:

  • Silnik AI zaczyna nasłuchiwać
  • Słowa pojawiają się w panelu Transkrypcji w ciągu sekund od wypowiedzenia
  • Etykiety mówiącego ("Mówiący 1", "Mówiący 2") są przypisywane automatycznie
  • Znaczniki czasu oznaczają miejsce w nagraniu, w którym wypada każdy segment

Gdy zatrzymasz nagrywanie, kompletna transkrypcja zostanie zapisana automatycznie wraz z plikiem audio/wideo.


Zanim zaczniesz

Transkrypcja na żywo wymaga skonfigurowania dwóch rzeczy przed pierwszą sesją:

1. Włączone Funkcje AI

  1. Otwórz Ustawienia (ikona koła zębatego ⚙️ w prawym górnym rogu)
  2. Przejdź do kategorii AI
  3. Potwierdź, że przełącznik Funkcje AI jest włączony (niebieski)

Jeśli przełącznik jest szary lub brakuje kategorii AI, skontaktuj się z administratorem konta — Funkcje AI mogą wymagać aktywnej subskrypcji.

2. Skonfigurowany Klucz API

W Ustawieniach → AI:

  1. Poszukaj pola Klucz API
  2. Wprowadź swój Klucz API Gemini (patrz Rozdział 31, aby dowiedzieć się, jak go uzyskać)
  3. Kliknij Zapisz

Zielony znacznik wyboru potwierdza, że klucz jest ważny. Czerwone ostrzeżenie oznacza, że klucz jest nieprawidłowy lub wygasł.

Uwaga: Podczas nagrywania potrzebujesz aktywnego połączenia z internetem. Transkrypcja na żywo nie może działać offline.


Jak rozpocząć sesję transkrypcji na żywo

Rozpoczęcie transkrypcji na żywo jest identyczne z rozpoczęciem każdego nagrania — nie ma oddzielnego "trybu transkrypcji" do włączenia. Jeśli Funkcje AI są włączone i skonfigurowany jest Klucz API, transkrypcja na żywo aktywuje się automatycznie.

Krok po kroku:

  1. Kliknij czerwony przycisk nagrywania 🔴 (lub użyj skrótu klawiszowego: Ctrl+Alt+A w Windows, Cmd+Shift+A w macOS)

    • Co widzisz: Przycisk pulsuje na czerwono. Timer nagrywania zaczyna liczyć.
  2. Obserwuj pojawianie się panelu Transkrypcji

    • Co widzisz: Panel wysuwa się po prawej stronie głównego okna (lub poniżej odtwarzacza, zależnie od układu). Na chwilę pokazuje "Łączenie…"
  3. Mów normalnie

    • Co widzisz: Po 2–5 sekundach zaczyna pojawiać się tekst. Najnowsza fraza wyświetla subtelną animację, gdy jest jeszcze przetwarzana.
  4. Kontynuuj spotkanie lub nagrywanie jak zwykle

    • Co widzisz: Ukończone segmenty układają się chronologicznie, każdy oznaczony etykietą mówiącego i znacznikiem czasu.
  5. Zatrzymaj nagrywanie gdy skończysz

    • Co widzisz: Przycisk wraca do stanu bezczynności. Na chwilę pojawia się komunikat "Zapisywanie transkrypcji…", a następnie znika. Transkrypcja jest zapisana.

Co widzisz podczas nagrywania

Panel transkrypcji ma trzy główne obszary:

┌─────────────────────────────────────────────┐
│  Transkrypcja              🟢 Połączono      │
├─────────────────────────────────────────────┤
│  Mówiący 1   0:00:12                        │
│  "Dzień dobry wszystkim, zacznijmy"         │
│                                             │
│  Mówiący 2   0:00:24                        │
│  "Dziękuję za dołączenie na krótkie        │
│   zaproszenie"                              │
│                                             │
│  Mówiący 1   0:00:31                        │
│  "Oczywiście. Pierwsza sprawa na agendzie…" │
├─────────────────────────────────────────────┤
│  Teraz mówi…  ████████░░░░                  │
│  "…to przegląd budżetu Q3"                  │
└─────────────────────────────────────────────┘

Co oznacza każdy element:

ElementZnaczenie
Etykieta mówiącegoKto mówi — przypisywane automatycznie ("Mówiący 1", "Mówiący 2")
Znacznik czasuKiedy w nagraniu zaczyna się ten segment (godziny:minuty:sekundy)
Ukończony tekstOstateczne słowa — nie zmieniają się
Podgląd "Teraz mówi…"Aktualna wypowiedź wciąż przetwarzana — może się nieznacznie zmieniać
Wskaźnik statusu🟢 Połączono · 🟡 Łączenie · 🔴 Błąd

Wskaźnik statusu połączenia

Wskaźnik w prawym górnym rogu panelu informuje, czy silnik AI jest osiągalny:

  • 🟢 Połączono — Transkrypcja działa normalnie
  • 🟡 Łączenie — Nawiązywanie połączenia (normalne przy uruchomieniu, trwa 2–5 sekund)
  • 🔴 Błąd — Połączenie zerwane (patrz Rozwiązywanie problemów poniżej)

Gdy widzisz 🔴 Błąd, samo nagrywanie trwa bezpiecznie — dotknięta jest tylko transkrypcja na żywo.


Automatyczne wykrywanie mówiącego

Silnik AI próbuje odróżnić różne głosy i przypisać każdemu etykietę.

Jak to działa:

Oś czasu nagrywania:

0:00 ──────────────────────────────────────────────────► czas
        │           │           │           │
      Mówiący 1   Mówiący 2   Mówiący 1   Mówiący 2
      "Dzień"     "Cześć"     "Agenda…"   "Zgoda"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Za każdym razem, gdy mówiący się zmienia, system tworzy nowy segment. Segmenty od tego samego mówiącego otrzymują tę samą etykietę.

Etykiety początkowe: Pierwszy mówiący jest "Mówiący 1", drugi nowy głos to "Mówiący 2" i tak dalej. Są to symbole zastępcze — możesz je później zmienić (patrz Rozdział 29).

Udoskonalanie mówiącego: W miarę postępu nagrywania AI może udoskonalać wcześniejsze przypisania, jeśli uzna, że dwa segmenty należą do tego samego głosu. To jest normalne. Tekst się nie zmienia — zmienia się tylko atrybucja mówiącego dla wcześniejszych segmentów.

Wskazówka: Aby uzyskać najdokładniejsze rozróżnienie mówiącego, używaj słuchawek zamiast głośników. Dźwięk głośnika przechwycony przez mikrofon może mylić detektor.


Po zatrzymaniu nagrywania

Gdy klikniesz stop:

  1. Podgląd "Teraz mówi…" finalizuje każde zdanie w toku
  2. Kompletna transkrypcja jest zapisywana automatycznie obok pliku nagrania
  3. Żadne ręczne działanie nie jest wymagane

Gdzie znaleźć transkrypcję:

  • Otwórz nagranie w swojej Bibliotece nagrań
  • Kliknij Wnioski AI w panelu szczegółów
  • Wybierz zakładkę Transkrypcja

Transkrypcja jest również dostępna do eksportu jako SRT (format napisów) lub JSON z zakładki Wnioski AI. Szczegóły eksportu znajdziesz w Rozdziale 28.


Ograniczenia

Zrozumienie tych ograniczeń pomaga ustawić realistyczne oczekiwania:

OgraniczenieSzczegół
Wymaga internetuTranskrypcja na żywo nie może działać offline. Dźwięk jest przetwarzany przez silnik AI przez sieć.
Dokładność znaczników czasuZnaczniki czasu są przybliżone (±3 sekundy). Używaj ich do nawigacji, nie do dokumentacji prawnej.
Pauzy w nagrywaniuJeśli wstrzymasz nagrywanie, transkrypcja również się wstrzymuje. Wstrzymane segmenty nie są transkrybowane.
Dokładność jest zmiennaDokładność jest najwyższa przy wyraźnej mowie, jednym mówiącym na raz i dobrym mikrofonie. Silny akcent, hałas w tle lub nakładające się głosy zmniejszają dokładność.
JęzykJęzyk transkrypcji można ustawić na Auto Detect (zalecane) lub konkretny język w Ustawieniach → AI → Integracja SeaMeet. Auto Detect automatycznie obsługuje spotkania wielojęzyczne.
Brak edycji w czasie rzeczywistymNie możesz edytować transkrypcji podczas nagrywania. Edycja jest dostępna po zatrzymaniu nagrywania.

Nakładka napisów podczas odtwarzania

Podczas odtwarzania nagrania z transkrypcją na żywo, SeaMeet może wyświetlać napisy bezpośrednio na wideo — podobnie jak napisy na telewizorze.

Jak działają napisy:

  • Tekst napisów jest nakładany na podgląd wideo u dołu klatki
  • Każdy segment pokazuje imię mówiącego (zakodowane kolorem dla każdego mówiącego) i wypowiedziane słowa
  • Napisy są zsynchronizowane z pozycją odtwarzania — przesuwają się wraz z odtwarzanym nagraniem
  • Napisy automatycznie korzystają z transkrypcji Gemini Live z sesji

Kolory mówiących: Każdy mówiący ma przypisany spójny kolor we wszystkich napisach i panelach transkrypcji. Kolory są ustalane automatycznie i pozostają spójne przez całe nagranie.

Format napisów:

[Mówiący 1]: Dzień dobry wszystkim, zacznijmy.

Napisy pojawiają się i znikają wraz z odtwarzanym segmentem transkrypcji.


Dwukolumnowy układ wideo

Podczas oglądania nagrania wideo z dostępną transkrypcją na żywo, SeaMeet używa układu dwukolumnowego:

┌─────────────────────────────────────────────────────┐
│  Podgląd wideo             │  Panel transkrypcji     │
│                            │                         │
│  [wideo z napisami]        │  Mówiący 1   0:00:12   │
│                            │  "Dzień dobry..."       │
│                            │                         │
│                            │  Mówiący 2   0:00:24   │
│                            │  "Dziękuję za          │
│                            │   dołączenie"           │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘
  • Lewa kolumna: Wideo o stałej szerokości z nakładką napisów
  • Prawa kolumna: Przewijalny panel transkrypcji zsynchronizowany z pozycją odtwarzania
  • Przycisk maksymalizacji (⤢): Rozszerza panel transkrypcji do nakładki pełnoekranowej dla łatwiejszego czytania przy długich nagraniach

Układ dwukolumnowy pojawia się tylko w przypadku nagrań wideo z transkrypcjami na żywo. Nagrania tylko audio i nagrania bez transkrypcji korzystają ze standardowego układu jednokolumnowego.


Ustawienia języka transkrypcji

Możesz skonfigurować, jakiego języka SeaMeet oczekuje podczas transkrypcji na żywo:

  1. Otwórz Ustawienia (⚙️)
  2. Przejdź do AIIntegracja SeaMeet
  3. Znajdź selektor Język spotkania
  4. Wybierz swój język:
    • Auto Detect (domyślne, zalecane) — SeaMeet automatycznie identyfikuje język mówiony. Najlepsze do spotkań wielojęzycznych lub gdy język jest zmienny.
    • Ręczny wybór — Wybierz spośród 20+ konkretnych języków, w tym angielskiego (US/UK), hiszpańskiego, francuskiego, niemieckiego, japońskiego, mandaryńskiego, kantońskiego, koreańskiego i innych.

Wskazówka: Zostaw język ustawiony na Auto Detect, chyba że masz konkretny powód, aby wymusić język. Automatyczne wykrywanie lepiej radzi sobie z akcentami i spotkaniami mieszanojęzycznymi niż ręcznie wymuszone ustawienie.


Rozwiązywanie problemów

"Panel transkrypcji nie pojawia się"

Objaw: Zaczynasz nagrywać, ale panel transkrypcji nigdy się nie pokazuje.

Sprawdź w tej kolejności:

  1. Przejdź do Ustawień → AI i potwierdź, że przełącznik Funkcje AI jest włączony
  2. Potwierdź, że Klucz API jest ważny (zielony znacznik wyboru w Ustawieniach → AI)
  3. Sprawdź połączenie z internetem — spróbuj załadować stronę internetową
  4. Uruchom ponownie SeaMeet i spróbuj ponownie

Jeśli panel nadal się nie pojawia po wszystkich czterech krokach, usługa AI może być tymczasowo niedostępna. Samo nagranie jest nienaruszone — spróbuj ponownie później.


"Połączenie zerwane w trakcie nagrywania"

Objaw: Wskaźnik statusu zmienia się na 🔴 czerwony podczas nagrywania.

Co się stało: Połączenie z silnikiem AI zostało przerwane. Może się to zdarzyć z powodu:

  • Tymczasowej przerwy w sieci
  • Przełączenia Wi-Fi między punktami dostępowymi
  • Chwilowego przejścia usługi AI w tryb offline

Co robić:

  1. Nie zatrzymuj nagrywania — trwa bezpiecznie
  2. Sprawdź połączenie z internetem
  3. Połączenie zazwyczaj odzyskuje się automatycznie w ciągu 30 sekund
  4. Słowa wypowiedziane podczas rozłączenia nie są odzyskiwane — przepadają dla transkrypcji na żywo (ale dźwięk pozostaje w pliku nagrania, więc możesz uruchomić Ekstrakcję AI po fakcie — patrz Rozdział 28)

"Mówiący nie są prawidłowo oznaczeni"

Objaw: Wiele osób jest oznaczonych jako "Mówiący 1", lub jedna osoba pojawia się jako dwóch różnych mówiących.

Co się dzieje: Wykrywanie mówiącego używa charakterystyk głosu. Dokładność spada gdy:

  • Wiele osób mówi jednocześnie
  • Głos mówiącego znacznie się zmienia (śmiech, podniesiony głos, słaby dźwięk)
  • Hałas w tle zakłóca

Co robić:

  • Po nagrywaniu zmień nazwy mówiących w panelu Mówiących (patrz Rozdział 29)
  • Użyj funkcji Scalania, aby połączyć dwie etykiety należące do tej samej osoby (Rozdział 29)

Najlepsze praktyki

Stosuj te praktyki, aby uzyskać najlepsze wyniki transkrypcji na żywo:

Jeden mówiący na raz Nakładające się głosy (dwie osoby mówiące jednocześnie) mylą wykrywanie mówiącego i produkują niezrozumiały tekst w transkrypcji. Zachęcaj uczestników do przemawiania po kolei.

Ciche środowisko nagrywania Hałas w tle — systemy HVAC, pisanie, hałas uliczny — jest przechwytywany przez mikrofon i zmniejsza dokładność transkrypcji. Mikrofon na słuchawkach umieszczony blisko ust daje znacznie lepsze wyniki niż wbudowany mikrofon laptopa.

Dobre ustawienie mikrofonu Na spotkaniach osobistych z wieloma uczestnikami ustaw mikrofon blisko środka stołu lub używaj indywidualnych mikrofonów dla każdego uczestnika.

Stabilne połączenie internetowe Używaj połączenia przewodowego lub silnego sygnału Wi-Fi. Unikaj hotspotów lub sieci z dużą utratą pakietów — powodują one przerwy w połączeniu.

Niezwłocznie zmieniaj nazwy mówiących Zmieniaj nazwy mówiących bezpośrednio po nagraniu, gdy pamiętasz, kto co powiedział. Instrukcje znajdziesz w Rozdziale 29.


Szybkie odniesienie

┌────────────────────────────────────────────────────────────┐
│               TRANSKRYPCJA NA ŻYWO                         │
│                 Szybkie odniesienie                         │
├────────────────────────────────────────────────────────────┤
│  Start              │ Nagraj normalnie — auto-aktywacja     │
│  Status: zielony    │ 🟢 Transkrypcja działa               │
│  Status: żółty      │ 🟡 Łączenie (czekaj 5 s)             │
│  Status: czerwony   │ 🔴 Rozłączono — nagranie bezpieczne  │
├────────────────────────────────────────────────────────────┤
│  Panel transkrypcji │ Prawa strona głównego okna           │
│  Linia podglądu     │ "Teraz mówi…" — w toku               │
│  Ukończone linie    │ Ostateczne — nie zmienią się          │
├────────────────────────────────────────────────────────────┤
│  Po zatrzymaniu     │ Transkrypcja zapisana automatycznie   │
│  Znajdź ją          │ Nagranie → Wnioski AI → Transkrypcja │
├────────────────────────────────────────────────────────────┤
│  Wymaga             │ Internet + Funkcje AI włączone +      │
│                     │ Klucz API                            │
│  Znaczniki czasu    │ Przybliżone ±3 sekundy               │
│  Pauzy              │ Nie są transkrybowane                │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

Rozdział 26: Słowniczek terminów | Rozdział 28: Ekstrakcja AI →

Published: