Rozdział 27: Transkrypcja na żywo — słowa na ekranie w trakcie mówienia

Wyobraź sobie stenografkę sądową piszącą w miarę jak sesja się toczy — każde słowo uchwycone w chwili jego wypowiedzenia, bez czekania na zakończenie spotkania. To właśnie robi transkrypcja na żywo SeaMeet dla Twoich nagrań. Gdy rozmawiasz, panel transkrypcji wypełnia się w czasie rzeczywistym: etykiety mówiącego, znaczniki czasu i rzeczywiste słowa — wszystko pojawiające się w trakcie rozmowy.

Bez czekania. Bez etapu przesyłania. Po prostu słowa na ekranie.

Cele rozdziału

Po przeczytaniu tego rozdziału będziesz w stanie:

Rozumieć, co robi transkrypcja na żywo i kiedy jej używać
Skonfigurować wymagania wstępne przed pierwszą sesją
Rozpocząć sesję nagrywania z aktywną transkrypcją na żywo
Odczytywać i interpretować panel transkrypcji podczas nagrywania
Rozumieć, jak działa automatyczne wykrywanie mówiącego
Rozwiązywać najczęstsze problemy z połączeniem i wyświetlaniem

Co to jest transkrypcja na żywo?

Transkrypcja na żywo konwertuje dźwięk z Twojego nagrania na tekst podczas nagrywania, tworząc transkrypcję ze znacznikami czasu i etykietami mówiącego w czasie rzeczywistym.

Pomyśl o tym tak: Wyobraź sobie maszynistkę siedzącą obok Ciebie na każdym spotkaniu, natychmiast zapisującą wszystko, co zostało powiedziane — oznaczającą słowa każdej osoby i notującą dokładny czas mówienia. Ta transkrypcja jest dostępna w chwili zakończenia spotkania. Bez opóźnienia transkrypcji. Bez kręcącego się kółka "przetwarzania dźwięku".

Transkrypcja na żywo działa równolegle z sesją nagrywania. W chwili gdy zaczynasz nagrywać:

Silnik AI zaczyna nasłuchiwać
Słowa pojawiają się w panelu Transkrypcji w ciągu sekund od wypowiedzenia
Etykiety mówiącego ("Mówiący 1", "Mówiący 2") są przypisywane automatycznie
Znaczniki czasu oznaczają miejsce w nagraniu, w którym wypada każdy segment

Gdy zatrzymasz nagrywanie, kompletna transkrypcja zostanie zapisana automatycznie wraz z plikiem audio/wideo.

Zanim zaczniesz

Transkrypcja na żywo wymaga skonfigurowania dwóch rzeczy przed pierwszą sesją:

1. Włączone Funkcje AI

Otwórz Ustawienia (ikona koła zębatego ⚙️ w prawym górnym rogu)
Przejdź do kategorii AI
Potwierdź, że przełącznik Funkcje AI jest włączony (niebieski)

Jeśli przełącznik jest szary lub brakuje kategorii AI, skontaktuj się z administratorem konta — Funkcje AI mogą wymagać aktywnej subskrypcji.

2. Skonfigurowany Klucz API

W Ustawieniach → AI:

Poszukaj pola Klucz API
Wprowadź swój Klucz API Gemini (patrz Rozdział 31, aby dowiedzieć się, jak go uzyskać)
Kliknij Zapisz

Zielony znacznik wyboru potwierdza, że klucz jest ważny. Czerwone ostrzeżenie oznacza, że klucz jest nieprawidłowy lub wygasł.

Uwaga: Podczas nagrywania potrzebujesz aktywnego połączenia z internetem. Transkrypcja na żywo nie może działać offline.

Jak rozpocząć sesję transkrypcji na żywo

Rozpoczęcie transkrypcji na żywo jest identyczne z rozpoczęciem każdego nagrania — nie ma oddzielnego "trybu transkrypcji" do włączenia. Jeśli Funkcje AI są włączone i skonfigurowany jest Klucz API, transkrypcja na żywo aktywuje się automatycznie.

Krok po kroku:

Kliknij czerwony przycisk nagrywania 🔴 (lub użyj skrótu klawiszowego: Ctrl+Alt+A w Windows, Cmd+Shift+A w macOS)
- Co widzisz: Przycisk pulsuje na czerwono. Timer nagrywania zaczyna liczyć.
Obserwuj pojawianie się panelu Transkrypcji
- Co widzisz: Panel wysuwa się po prawej stronie głównego okna (lub poniżej odtwarzacza, zależnie od układu). Na chwilę pokazuje "Łączenie…"
Mów normalnie
- Co widzisz: Po 2–5 sekundach zaczyna pojawiać się tekst. Najnowsza fraza wyświetla subtelną animację, gdy jest jeszcze przetwarzana.
Kontynuuj spotkanie lub nagrywanie jak zwykle
- Co widzisz: Ukończone segmenty układają się chronologicznie, każdy oznaczony etykietą mówiącego i znacznikiem czasu.
Zatrzymaj nagrywanie gdy skończysz
- Co widzisz: Przycisk wraca do stanu bezczynności. Na chwilę pojawia się komunikat "Zapisywanie transkrypcji…", a następnie znika. Transkrypcja jest zapisana.

Co widzisz podczas nagrywania

Panel transkrypcji ma trzy główne obszary:

┌─────────────────────────────────────────────┐
│  Transkrypcja              🟢 Połączono      │
├─────────────────────────────────────────────┤
│  Mówiący 1   0:00:12                        │
│  "Dzień dobry wszystkim, zacznijmy"         │
│                                             │
│  Mówiący 2   0:00:24                        │
│  "Dziękuję za dołączenie na krótkie        │
│   zaproszenie"                              │
│                                             │
│  Mówiący 1   0:00:31                        │
│  "Oczywiście. Pierwsza sprawa na agendzie…" │
├─────────────────────────────────────────────┤
│  Teraz mówi…  ████████░░░░                  │
│  "…to przegląd budżetu Q3"                  │
└─────────────────────────────────────────────┘

Co oznacza każdy element:

Element	Znaczenie
Etykieta mówiącego	Kto mówi — przypisywane automatycznie ("Mówiący 1", "Mówiący 2")
Znacznik czasu	Kiedy w nagraniu zaczyna się ten segment (godziny:minuty:sekundy)
Ukończony tekst	Ostateczne słowa — nie zmieniają się
Podgląd "Teraz mówi…"	Aktualna wypowiedź wciąż przetwarzana — może się nieznacznie zmieniać
Wskaźnik statusu	🟢 Połączono · 🟡 Łączenie · 🔴 Błąd

Wskaźnik statusu połączenia

Wskaźnik w prawym górnym rogu panelu informuje, czy silnik AI jest osiągalny:

🟢 Połączono — Transkrypcja działa normalnie
🟡 Łączenie — Nawiązywanie połączenia (normalne przy uruchomieniu, trwa 2–5 sekund)
🔴 Błąd — Połączenie zerwane (patrz Rozwiązywanie problemów poniżej)

Gdy widzisz 🔴 Błąd, samo nagrywanie trwa bezpiecznie — dotknięta jest tylko transkrypcja na żywo.

Automatyczne wykrywanie mówiącego

Silnik AI próbuje odróżnić różne głosy i przypisać każdemu etykietę.

Jak to działa:

Oś czasu nagrywania:

0:00 ──────────────────────────────────────────────────► czas
        │           │           │           │
      Mówiący 1   Mówiący 2   Mówiący 1   Mówiący 2
      "Dzień"     "Cześć"     "Agenda…"   "Zgoda"
          ▼           ▼           ▼           ▼
      [Seg. 1]    [Seg. 2]    [Seg. 3]    [Seg. 4]

Za każdym razem, gdy mówiący się zmienia, system tworzy nowy segment. Segmenty od tego samego mówiącego otrzymują tę samą etykietę.

Etykiety początkowe: Pierwszy mówiący jest "Mówiący 1", drugi nowy głos to "Mówiący 2" i tak dalej. Są to symbole zastępcze — możesz je później zmienić (patrz Rozdział 29).

Udoskonalanie mówiącego: W miarę postępu nagrywania AI może udoskonalać wcześniejsze przypisania, jeśli uzna, że dwa segmenty należą do tego samego głosu. To jest normalne. Tekst się nie zmienia — zmienia się tylko atrybucja mówiącego dla wcześniejszych segmentów.

Wskazówka: Aby uzyskać najdokładniejsze rozróżnienie mówiącego, używaj słuchawek zamiast głośników. Dźwięk głośnika przechwycony przez mikrofon może mylić detektor.

Po zatrzymaniu nagrywania

Gdy klikniesz stop:

Podgląd "Teraz mówi…" finalizuje każde zdanie w toku
Kompletna transkrypcja jest zapisywana automatycznie obok pliku nagrania
Żadne ręczne działanie nie jest wymagane

Gdzie znaleźć transkrypcję:

Otwórz nagranie w swojej Bibliotece nagrań
Kliknij Wnioski AI w panelu szczegółów
Wybierz zakładkę Transkrypcja

Transkrypcja jest również dostępna do eksportu jako SRT (format napisów) lub JSON z zakładki Wnioski AI. Szczegóły eksportu znajdziesz w Rozdziale 28.

Ograniczenia

Zrozumienie tych ograniczeń pomaga ustawić realistyczne oczekiwania:

Ograniczenie	Szczegół
Wymaga internetu	Transkrypcja na żywo nie może działać offline. Dźwięk jest przetwarzany przez silnik AI przez sieć.
Dokładność znaczników czasu	Znaczniki czasu są przybliżone (±3 sekundy). Używaj ich do nawigacji, nie do dokumentacji prawnej.
Pauzy w nagrywaniu	Jeśli wstrzymasz nagrywanie, transkrypcja również się wstrzymuje. Wstrzymane segmenty nie są transkrybowane.
Dokładność jest zmienna	Dokładność jest najwyższa przy wyraźnej mowie, jednym mówiącym na raz i dobrym mikrofonie. Silny akcent, hałas w tle lub nakładające się głosy zmniejszają dokładność.
Język	Język transkrypcji można ustawić na Auto Detect (zalecane) lub konkretny język w Ustawieniach → AI → Integracja SeaMeet. Auto Detect automatycznie obsługuje spotkania wielojęzyczne.
Brak edycji w czasie rzeczywistym	Nie możesz edytować transkrypcji podczas nagrywania. Edycja jest dostępna po zatrzymaniu nagrywania.

Nakładka napisów podczas odtwarzania

Podczas odtwarzania nagrania z transkrypcją na żywo, SeaMeet może wyświetlać napisy bezpośrednio na wideo — podobnie jak napisy na telewizorze.

Jak działają napisy:

Tekst napisów jest nakładany na podgląd wideo u dołu klatki
Każdy segment pokazuje imię mówiącego (zakodowane kolorem dla każdego mówiącego) i wypowiedziane słowa
Napisy są zsynchronizowane z pozycją odtwarzania — przesuwają się wraz z odtwarzanym nagraniem
Napisy automatycznie korzystają z transkrypcji Gemini Live z sesji

Kolory mówiących: Każdy mówiący ma przypisany spójny kolor we wszystkich napisach i panelach transkrypcji. Kolory są ustalane automatycznie i pozostają spójne przez całe nagranie.

Format napisów:

[Mówiący 1]: Dzień dobry wszystkim, zacznijmy.

Napisy pojawiają się i znikają wraz z odtwarzanym segmentem transkrypcji.

Dwukolumnowy układ wideo

Podczas oglądania nagrania wideo z dostępną transkrypcją na żywo, SeaMeet używa układu dwukolumnowego:

┌─────────────────────────────────────────────────────┐
│  Podgląd wideo             │  Panel transkrypcji     │
│                            │                         │
│  [wideo z napisami]        │  Mówiący 1   0:00:12   │
│                            │  "Dzień dobry..."       │
│                            │                         │
│                            │  Mówiący 2   0:00:24   │
│                            │  "Dziękuję za          │
│                            │   dołączenie"           │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

Lewa kolumna: Wideo o stałej szerokości z nakładką napisów
Prawa kolumna: Przewijalny panel transkrypcji zsynchronizowany z pozycją odtwarzania
Przycisk maksymalizacji (⤢): Rozszerza panel transkrypcji do nakładki pełnoekranowej dla łatwiejszego czytania przy długich nagraniach

Układ dwukolumnowy pojawia się tylko w przypadku nagrań wideo z transkrypcjami na żywo. Nagrania tylko audio i nagrania bez transkrypcji korzystają ze standardowego układu jednokolumnowego.

Ustawienia języka transkrypcji

Możesz skonfigurować, jakiego języka SeaMeet oczekuje podczas transkrypcji na żywo:

Otwórz Ustawienia (⚙️)
Przejdź do AI → Integracja SeaMeet
Znajdź selektor Język spotkania
Wybierz swój język:
- Auto Detect (domyślne, zalecane) — SeaMeet automatycznie identyfikuje język mówiony. Najlepsze do spotkań wielojęzycznych lub gdy język jest zmienny.
- Ręczny wybór — Wybierz spośród 20+ konkretnych języków, w tym angielskiego (US/UK), hiszpańskiego, francuskiego, niemieckiego, japońskiego, mandaryńskiego, kantońskiego, koreańskiego i innych.

Wskazówka: Zostaw język ustawiony na Auto Detect, chyba że masz konkretny powód, aby wymusić język. Automatyczne wykrywanie lepiej radzi sobie z akcentami i spotkaniami mieszanojęzycznymi niż ręcznie wymuszone ustawienie.

Rozwiązywanie problemów

"Panel transkrypcji nie pojawia się"

Objaw: Zaczynasz nagrywać, ale panel transkrypcji nigdy się nie pokazuje.

Sprawdź w tej kolejności:

Przejdź do Ustawień → AI i potwierdź, że przełącznik Funkcje AI jest włączony
Potwierdź, że Klucz API jest ważny (zielony znacznik wyboru w Ustawieniach → AI)
Sprawdź połączenie z internetem — spróbuj załadować stronę internetową
Uruchom ponownie SeaMeet i spróbuj ponownie

Jeśli panel nadal się nie pojawia po wszystkich czterech krokach, usługa AI może być tymczasowo niedostępna. Samo nagranie jest nienaruszone — spróbuj ponownie później.

"Połączenie zerwane w trakcie nagrywania"

Objaw: Wskaźnik statusu zmienia się na 🔴 czerwony podczas nagrywania.

Co się stało: Połączenie z silnikiem AI zostało przerwane. Może się to zdarzyć z powodu:

Tymczasowej przerwy w sieci
Przełączenia Wi-Fi między punktami dostępowymi
Chwilowego przejścia usługi AI w tryb offline

Co robić:

Nie zatrzymuj nagrywania — trwa bezpiecznie
Sprawdź połączenie z internetem
Połączenie zazwyczaj odzyskuje się automatycznie w ciągu 30 sekund
Słowa wypowiedziane podczas rozłączenia nie są odzyskiwane — przepadają dla transkrypcji na żywo (ale dźwięk pozostaje w pliku nagrania, więc możesz uruchomić Ekstrakcję AI po fakcie — patrz Rozdział 28)

"Mówiący nie są prawidłowo oznaczeni"

Objaw: Wiele osób jest oznaczonych jako "Mówiący 1", lub jedna osoba pojawia się jako dwóch różnych mówiących.

Co się dzieje: Wykrywanie mówiącego używa charakterystyk głosu. Dokładność spada gdy:

Wiele osób mówi jednocześnie
Głos mówiącego znacznie się zmienia (śmiech, podniesiony głos, słaby dźwięk)
Hałas w tle zakłóca

Co robić:

Po nagrywaniu zmień nazwy mówiących w panelu Mówiących (patrz Rozdział 29)
Użyj funkcji Scalania, aby połączyć dwie etykiety należące do tej samej osoby (Rozdział 29)

Najlepsze praktyki

Stosuj te praktyki, aby uzyskać najlepsze wyniki transkrypcji na żywo:

Jeden mówiący na raz Nakładające się głosy (dwie osoby mówiące jednocześnie) mylą wykrywanie mówiącego i produkują niezrozumiały tekst w transkrypcji. Zachęcaj uczestników do przemawiania po kolei.

Ciche środowisko nagrywania Hałas w tle — systemy HVAC, pisanie, hałas uliczny — jest przechwytywany przez mikrofon i zmniejsza dokładność transkrypcji. Mikrofon na słuchawkach umieszczony blisko ust daje znacznie lepsze wyniki niż wbudowany mikrofon laptopa.

Dobre ustawienie mikrofonu Na spotkaniach osobistych z wieloma uczestnikami ustaw mikrofon blisko środka stołu lub używaj indywidualnych mikrofonów dla każdego uczestnika.

Stabilne połączenie internetowe Używaj połączenia przewodowego lub silnego sygnału Wi-Fi. Unikaj hotspotów lub sieci z dużą utratą pakietów — powodują one przerwy w połączeniu.

Niezwłocznie zmieniaj nazwy mówiących Zmieniaj nazwy mówiących bezpośrednio po nagraniu, gdy pamiętasz, kto co powiedział. Instrukcje znajdziesz w Rozdziale 29.

Szybkie odniesienie

┌────────────────────────────────────────────────────────────┐
│               TRANSKRYPCJA NA ŻYWO                         │
│                 Szybkie odniesienie                         │
├────────────────────────────────────────────────────────────┤
│  Start              │ Nagraj normalnie — auto-aktywacja     │
│  Status: zielony    │ 🟢 Transkrypcja działa               │
│  Status: żółty      │ 🟡 Łączenie (czekaj 5 s)             │
│  Status: czerwony   │ 🔴 Rozłączono — nagranie bezpieczne  │
├────────────────────────────────────────────────────────────┤
│  Panel transkrypcji │ Prawa strona głównego okna           │
│  Linia podglądu     │ "Teraz mówi…" — w toku               │
│  Ukończone linie    │ Ostateczne — nie zmienią się          │
├────────────────────────────────────────────────────────────┤
│  Po zatrzymaniu     │ Transkrypcja zapisana automatycznie   │
│  Znajdź ją          │ Nagranie → Wnioski AI → Transkrypcja │
├────────────────────────────────────────────────────────────┤
│  Wymaga             │ Internet + Funkcje AI włączone +      │
│                     │ Klucz API                            │
│  Znaczniki czasu    │ Przybliżone ±3 sekundy               │
│  Pauzy              │ Nie są transkrybowane                │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← Rozdział 26: Słowniczek terminów | Rozdział 28: Ekstrakcja AI →