Transkrypcja na żywo — słowa na ekranie w trakcie mówienia
Rozdział 27: Transkrypcja na żywo — słowa na ekranie w trakcie mówienia
Wyobraź sobie stenografkę sądową piszącą w miarę jak sesja się toczy — każde słowo uchwycone w chwili jego wypowiedzenia, bez czekania na zakończenie spotkania. To właśnie robi transkrypcja na żywo SeaMeet dla Twoich nagrań. Gdy rozmawiasz, panel transkrypcji wypełnia się w czasie rzeczywistym: etykiety mówiącego, znaczniki czasu i rzeczywiste słowa — wszystko pojawiające się w trakcie rozmowy.
Bez czekania. Bez etapu przesyłania. Po prostu słowa na ekranie.
Cele rozdziału
Po przeczytaniu tego rozdziału będziesz w stanie:
- Rozumieć, co robi transkrypcja na żywo i kiedy jej używać
- Skonfigurować wymagania wstępne przed pierwszą sesją
- Rozpocząć sesję nagrywania z aktywną transkrypcją na żywo
- Odczytywać i interpretować panel transkrypcji podczas nagrywania
- Rozumieć, jak działa automatyczne wykrywanie mówiącego
- Rozwiązywać najczęstsze problemy z połączeniem i wyświetlaniem
Co to jest transkrypcja na żywo?
Transkrypcja na żywo konwertuje dźwięk z Twojego nagrania na tekst podczas nagrywania, tworząc transkrypcję ze znacznikami czasu i etykietami mówiącego w czasie rzeczywistym.
Pomyśl o tym tak: Wyobraź sobie maszynistkę siedzącą obok Ciebie na każdym spotkaniu, natychmiast zapisującą wszystko, co zostało powiedziane — oznaczającą słowa każdej osoby i notującą dokładny czas mówienia. Ta transkrypcja jest dostępna w chwili zakończenia spotkania. Bez opóźnienia transkrypcji. Bez kręcącego się kółka "przetwarzania dźwięku".
Transkrypcja na żywo działa równolegle z sesją nagrywania. W chwili gdy zaczynasz nagrywać:
- Silnik AI zaczyna nasłuchiwać
- Słowa pojawiają się w panelu Transkrypcji w ciągu sekund od wypowiedzenia
- Etykiety mówiącego ("Mówiący 1", "Mówiący 2") są przypisywane automatycznie
- Znaczniki czasu oznaczają miejsce w nagraniu, w którym wypada każdy segment
Gdy zatrzymasz nagrywanie, kompletna transkrypcja zostanie zapisana automatycznie wraz z plikiem audio/wideo.
Zanim zaczniesz
Transkrypcja na żywo wymaga skonfigurowania dwóch rzeczy przed pierwszą sesją:
1. Włączone Funkcje AI
- Otwórz Ustawienia (ikona koła zębatego ⚙️ w prawym górnym rogu)
- Przejdź do kategorii AI
- Potwierdź, że przełącznik Funkcje AI jest włączony (niebieski)
Jeśli przełącznik jest szary lub brakuje kategorii AI, skontaktuj się z administratorem konta — Funkcje AI mogą wymagać aktywnej subskrypcji.
2. Skonfigurowany Klucz API
W Ustawieniach → AI:
- Poszukaj pola Klucz API
- Wprowadź swój Klucz API Gemini (patrz Rozdział 31, aby dowiedzieć się, jak go uzyskać)
- Kliknij Zapisz
Zielony znacznik wyboru potwierdza, że klucz jest ważny. Czerwone ostrzeżenie oznacza, że klucz jest nieprawidłowy lub wygasł.
Uwaga: Podczas nagrywania potrzebujesz aktywnego połączenia z internetem. Transkrypcja na żywo nie może działać offline.
Jak rozpocząć sesję transkrypcji na żywo
Rozpoczęcie transkrypcji na żywo jest identyczne z rozpoczęciem każdego nagrania — nie ma oddzielnego "trybu transkrypcji" do włączenia. Jeśli Funkcje AI są włączone i skonfigurowany jest Klucz API, transkrypcja na żywo aktywuje się automatycznie.
Krok po kroku:
-
Kliknij czerwony przycisk nagrywania 🔴 (lub użyj skrótu klawiszowego:
Ctrl+Alt+Aw Windows,Cmd+Shift+Aw macOS)- Co widzisz: Przycisk pulsuje na czerwono. Timer nagrywania zaczyna liczyć.
-
Obserwuj pojawianie się panelu Transkrypcji
- Co widzisz: Panel wysuwa się po prawej stronie głównego okna (lub poniżej odtwarzacza, zależnie od układu). Na chwilę pokazuje "Łączenie…"
-
Mów normalnie
- Co widzisz: Po 2–5 sekundach zaczyna pojawiać się tekst. Najnowsza fraza wyświetla subtelną animację, gdy jest jeszcze przetwarzana.
-
Kontynuuj spotkanie lub nagrywanie jak zwykle
- Co widzisz: Ukończone segmenty układają się chronologicznie, każdy oznaczony etykietą mówiącego i znacznikiem czasu.
-
Zatrzymaj nagrywanie gdy skończysz
- Co widzisz: Przycisk wraca do stanu bezczynności. Na chwilę pojawia się komunikat "Zapisywanie transkrypcji…", a następnie znika. Transkrypcja jest zapisana.
Co widzisz podczas nagrywania
Panel transkrypcji ma trzy główne obszary:
┌─────────────────────────────────────────────┐
│ Transkrypcja 🟢 Połączono │
├─────────────────────────────────────────────┤
│ Mówiący 1 0:00:12 │
│ "Dzień dobry wszystkim, zacznijmy" │
│ │
│ Mówiący 2 0:00:24 │
│ "Dziękuję za dołączenie na krótkie │
│ zaproszenie" │
│ │
│ Mówiący 1 0:00:31 │
│ "Oczywiście. Pierwsza sprawa na agendzie…" │
├─────────────────────────────────────────────┤
│ Teraz mówi… ████████░░░░ │
│ "…to przegląd budżetu Q3" │
└─────────────────────────────────────────────┘
Co oznacza każdy element:
| Element | Znaczenie |
|---|---|
| Etykieta mówiącego | Kto mówi — przypisywane automatycznie ("Mówiący 1", "Mówiący 2") |
| Znacznik czasu | Kiedy w nagraniu zaczyna się ten segment (godziny:minuty:sekundy) |
| Ukończony tekst | Ostateczne słowa — nie zmieniają się |
| Podgląd "Teraz mówi…" | Aktualna wypowiedź wciąż przetwarzana — może się nieznacznie zmieniać |
| Wskaźnik statusu | 🟢 Połączono · 🟡 Łączenie · 🔴 Błąd |
Wskaźnik statusu połączenia
Wskaźnik w prawym górnym rogu panelu informuje, czy silnik AI jest osiągalny:
- 🟢 Połączono — Transkrypcja działa normalnie
- 🟡 Łączenie — Nawiązywanie połączenia (normalne przy uruchomieniu, trwa 2–5 sekund)
- 🔴 Błąd — Połączenie zerwane (patrz Rozwiązywanie problemów poniżej)
Gdy widzisz 🔴 Błąd, samo nagrywanie trwa bezpiecznie — dotknięta jest tylko transkrypcja na żywo.
Automatyczne wykrywanie mówiącego
Silnik AI próbuje odróżnić różne głosy i przypisać każdemu etykietę.
Jak to działa:
Oś czasu nagrywania:
0:00 ──────────────────────────────────────────────────► czas
│ │ │ │
Mówiący 1 Mówiący 2 Mówiący 1 Mówiący 2
"Dzień" "Cześć" "Agenda…" "Zgoda"
▼ ▼ ▼ ▼
[Seg. 1] [Seg. 2] [Seg. 3] [Seg. 4]
Za każdym razem, gdy mówiący się zmienia, system tworzy nowy segment. Segmenty od tego samego mówiącego otrzymują tę samą etykietę.
Etykiety początkowe: Pierwszy mówiący jest "Mówiący 1", drugi nowy głos to "Mówiący 2" i tak dalej. Są to symbole zastępcze — możesz je później zmienić (patrz Rozdział 29).
Udoskonalanie mówiącego: W miarę postępu nagrywania AI może udoskonalać wcześniejsze przypisania, jeśli uzna, że dwa segmenty należą do tego samego głosu. To jest normalne. Tekst się nie zmienia — zmienia się tylko atrybucja mówiącego dla wcześniejszych segmentów.
Wskazówka: Aby uzyskać najdokładniejsze rozróżnienie mówiącego, używaj słuchawek zamiast głośników. Dźwięk głośnika przechwycony przez mikrofon może mylić detektor.
Po zatrzymaniu nagrywania
Gdy klikniesz stop:
- Podgląd "Teraz mówi…" finalizuje każde zdanie w toku
- Kompletna transkrypcja jest zapisywana automatycznie obok pliku nagrania
- Żadne ręczne działanie nie jest wymagane
Gdzie znaleźć transkrypcję:
- Otwórz nagranie w swojej Bibliotece nagrań
- Kliknij Wnioski AI w panelu szczegółów
- Wybierz zakładkę Transkrypcja
Transkrypcja jest również dostępna do eksportu jako SRT (format napisów) lub JSON z zakładki Wnioski AI. Szczegóły eksportu znajdziesz w Rozdziale 28.
Ograniczenia
Zrozumienie tych ograniczeń pomaga ustawić realistyczne oczekiwania:
| Ograniczenie | Szczegół |
|---|---|
| Wymaga internetu | Transkrypcja na żywo nie może dzia łać offline. Dźwięk jest przetwarzany przez silnik AI przez sieć. |
| Dokładność znaczników czasu | Znaczniki czasu są przybliżone (±3 sekundy). Używaj ich do nawigacji, nie do dokumentacji prawnej. |
| Pauzy w nagrywaniu | Jeśli wstrzymasz nagrywanie, transkrypcja również się wstrzymuje. Wstrzymane segmenty nie są transkrybowane. |
| Dokładność jest zmienna | Dokładność jest najwyższa przy wyraźnej mowie, jednym mówiącym na raz i dobrym mikrofonie. Silny akcent, hałas w tle lub nakładające się głosy zmniejszają dokładność. |
| Język | Język transkrypcji można ustawić na Auto Detect (zalecane) lub konkretny język w Ustawieniach → AI → Integracja SeaMeet. Auto Detect automatycznie obsługuje spotkania wielojęzyczne. |
| Brak edycji w czasie rzeczywistym | Nie możesz edytować transkrypcji podczas nagrywania. Edycja jest dostępna po zatrzymaniu nagrywania. |
Nakładka napisów podczas odtwarzania
Podczas odtwarzania nagrania z transkrypcją na żywo, SeaMeet może wyświetlać napisy bezpośrednio na wideo — podobnie jak napisy na telewizorze.
Jak działają napisy:
- Tekst napisów jest nakładany na podgląd wideo u dołu klatki
- Każdy segment pokazuje imię mówiącego (zakodowane kolorem dla każdego mówiącego) i wypowiedziane słowa
- Napisy są zsynchronizowane z pozycją odtwarzania — przesuwają się wraz z odtwarzanym nagraniem
- Napisy automatycznie korzystają z transkrypcji Gemini Live z sesji
Kolory mówiących: Każdy mówiący ma przypisany spójny kolor we wszystkich napisach i panelach transkrypcji. Kolory są ustalane automatycznie i pozostają spójne przez całe nagranie.
Format napisów:
[Mówiący 1]: Dzień dobry wszystkim, zacznijmy.
Napisy pojawiają się i znikają wraz z odtwarzanym segmentem transkrypcji.
Dwukolumnowy układ wideo
Podczas oglądania nagrania wideo z dostępną transkrypcją na żywo, SeaMeet używa układu dwukolumnowego:
┌─────────────────────────────────────────────────────┐
│ Podgląd wideo │ Panel transkrypcji │
│ │ │
│ [wideo z napisami] │ Mówiący 1 0:00:12 │
│ │ "Dzień dobry..." │
│ │ │
│ │ Mówiący 2 0:00:24 │
│ │ "Dziękuję za │
│ │ dołączenie" │
│ │ [⤢ Max] │
└─────────────────────────────────────────────────────┘
- Lewa kolumna: Wideo o stałej szerokości z nakładką napisów
- Prawa kolumna: Przewijalny panel transkrypcji zsynchronizowany z pozycją odtwarzania
- Przycisk maksymalizacji (⤢): Rozszerza panel transkrypcji do nakładki pełnoekranowej dla łatwiejszego czytania przy długich nagraniach
Układ dwukolumnowy pojawia się tylko w przypadku nagrań wideo z transkrypcjami na żywo. Nagrania tylko audio i nagrania bez transkrypcji korzystają ze standardowego układu jednokolumnowego.
Ustawienia języka transkrypcji
Możesz skonfigurować, jakiego języka SeaMeet oczekuje podczas transkrypcji na żywo:
- Otwórz Ustawienia (⚙️)
- Przejdź do AI → Integracja SeaMeet
- Znajdź selektor Język spotkania
- Wybierz swój język:
- Auto Detect (domyślne, zalecane) — SeaMeet automatycznie identyfikuje język mówiony. Najlepsze do spotkań wielojęzycznych lub gdy język jest zmienny.
- Ręczny wybór — Wybierz spośród 20+ konkretnych języków, w tym angielskiego (US/UK), hiszpańskiego, francuskiego, niemieckiego, japońskiego, mandaryńskiego, kantońskiego, koreańskiego i innych.
Wskazówka: Zostaw język ustawiony na Auto Detect, chyba że masz konkretny powód, aby wymusić język. Automatyczne wykrywanie lepiej radzi sobie z akcentami i spotkaniami mieszanojęzycznymi niż ręcznie wymuszone ustawienie.
Rozwiązywanie problemów
"Panel transkrypcji nie pojawia się"
Objaw: Zaczynasz nagrywać, ale panel transkrypcji nigdy się nie pokazuje.
Sprawdź w tej kolejności:
- Przejdź do Ustawień → AI i potwierdź, że przełącznik Funkcje AI jest włączony
- Potwierdź, że Klucz API jest ważny (zielony znacznik wyboru w Ustawieniach → AI)
- Sprawdź połączenie z internetem — spróbuj załadować stronę internetową
- Uruchom ponownie SeaMeet i spróbuj ponownie
Jeśli panel nadal się nie pojawia po wszystkich czterech krokach, usługa AI może być tymczasowo niedostępna. Samo nagranie jest nienaruszone — spróbuj ponownie później.
"Połączenie zerwane w trakcie nagrywania"
Objaw: Wskaźnik statusu zmienia się na 🔴 czerwony podczas nagrywania.
Co się stało: Połączenie z silnikiem AI zostało przerwane. Może się to zdarzyć z powodu:
- Tymczasowej przerwy w sieci
- Przełączenia Wi-Fi między punktami dostępowymi
- Chwilowego przejścia usługi AI w tryb offline
Co robić:
- Nie zatrzymuj nagrywania — trwa bezpiecznie
- Sprawdź połączenie z internetem
- Połączenie zazwyczaj odzyskuje się automatycznie w ciągu 30 sekund
- Słowa wypowiedziane podczas rozłączenia nie są odzyskiwane — przepadają dla transkrypcji na żywo (ale dźwięk pozostaje w pliku nagrania, więc możesz uruchomić Ekstrakcję AI po fakcie — patrz Rozdział 28)
"Mówiący nie są prawidłowo oznaczeni"
Objaw: Wiele osób jest oznaczonych jako "Mówiący 1", lub jedna osoba pojawia się jako dwóch różnych mówiących.
Co się dzieje: Wykrywanie mówiącego używa charakterystyk głosu. Dokładność spada gdy:
- Wiele osób mówi jednocześnie
- Głos mówiącego znacznie się zmienia (śmiech, podniesiony głos, słaby dźwięk)
- Hałas w tle zakłóca
Co robić:
- Po nagrywaniu zmień nazwy mówiących w panelu Mówiących (patrz Rozdział 29)
- Użyj funkcji Scalania, aby połączyć dwie etykiety należące do tej samej osoby (Rozdział 29)
Najlepsze praktyki
Stosuj te praktyki, aby uzyskać najlepsze wyniki transkrypcji na żywo:
Jeden mówiący na raz Nakładające się głosy (dwie osoby mówiące jednocześnie) mylą wykrywanie mówiącego i produkują niezrozumiały tekst w transkrypcji. Zachęcaj uczestników do przemawiania po kolei.
Ciche środowisko nagrywania Hałas w tle — systemy HVAC, pisanie, hałas uliczny — jest przechwytywany przez mikrofon i zmniejsza dokładność transkrypcji. Mikrofon na słuchawkach umieszczony blisko ust daje znacznie lepsze wyniki niż wbudowany mikrofon laptopa.
Dobre ustawienie mikrofonu Na spotkaniach osobistych z wieloma uczestnikami ustaw mikrofon blisko środka stołu lub używaj indywidualnych mikrofonów dla każdego uczestnika.
Stabilne połączenie internetowe Używaj połączenia przewodowego lub silnego sygnału Wi-Fi. Unikaj hotspotów lub sieci z dużą utratą pakietów — powodują one przerwy w połączeniu.
Niezwłocznie zmieniaj nazwy mówiących Zmieniaj nazwy mówiących bezpośrednio po nagraniu, gdy pamiętasz, kto co powiedział. Instrukcje znajdziesz w Rozdziale 29.
Szybkie odniesienie
┌────────────────────────────────────────────────────────────┐
│ TRANSKRYPCJA NA ŻYWO │
│ Szybkie odniesienie │
├────────────────────────────────────────────────────────────┤
│ Start │ Nagraj normalnie — auto-aktywacja │
│ Status: zielony │ 🟢 Transkrypcja działa │
│ Status: żółty │ 🟡 Łączenie (czekaj 5 s) │
│ Status: czerwony │ 🔴 Rozłączono — nagranie bezpieczne │
├────────────────────────────────────────────────────────────┤
│ Panel transkrypcji │ Prawa strona głównego okna │
│ Linia podglądu │ "Teraz mówi…" — w toku │
│ Ukończone linie │ Ostateczne — nie zmienią się │
├────────────────────────────────────────────────────────────┤
│ Po zatrzymaniu │ Transkrypcja zapisana automatycznie │
│ Znajdź ją │ Nagranie → Wnioski AI → Transkrypcja │
├────────────────────────────────────────────────────────────┤
│ Wymaga │ Internet + Funkcje AI włączone + │
│ │ Klucz API │
│ Znaczniki czasu │ Przybliżone ±3 sekundy │
│ Pauzy │ Nie są transkrybowane │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
← Rozdział 26: Słowniczek terminów | Rozdział 28: Ekstrakcja AI →
Published: