ライブ文字起こし — 話した言葉がリアルタイムで画面に
第 27 章: ライブ文字起こし — 話した言葉がリアルタイムで画面に
セッションが進行する中で裁判所の速記者がタイピングし続けるような場面を想像してください。発言された言葉がその瞬間にすべて記録され、会議が終わるまで待つ必要はありません。SeaMeet のライブ文字起こしが録音に対して行うのがまさにそれです。話している間、文字起こしパネルがリアルタイムで埋まっていきます。話者のラベル、タイムスタンプ、そして実際の言葉が、会話が進行するにつれて表示されます。
待ち時間なし。アップロード手順なし。ただ言葉が画面に表示されるだけです。
章の目標
この章を読み終えると、以下のことができるようになります:
- ライブ文字起こしが何をするものか、いつ使うべきかを理解する
- 開始前の前提条件を設定する
- ライブ文字起こしをアクティブにした状態 で録音セッションを開始する
- 録音中に文字起こしパネルを読んで解釈する
- 自動話者検出の仕組みを理解する
- 最も一般的な接続と表示の問題をトラブルシューティングする
ライブ文字起こしとは何ですか?
ライブ文字起こしは、録音中の音声をリアルタイムで文字に変換し、タイムスタンプと話者ラベル付きの文字起こしをリアルタイムで生成します。
例えて言うと: すべての会議であなたの隣に座ってすべての発言を即座に書き留めるタイピストがいて、各人の言葉にラベルを付けて発言した正確な時刻を記録するようなものです。会議が終わった瞬間にその文字起こしが利用できます。文字起こしの遅延なし。「音声を処理中」というスピナーなし。
ライブ文字起こしは録音セッションと並行して実行されます。録音を開始した瞬間から:
- AI エンジンが聴き始めます
- 言葉は発話から数秒以内に文字起こしパネルに表示されます
- 話者ラベル(「話者 1」、「話者 2」)が自動的に割り当てられます
- タイムスタンプが録音内の各セグメントの位置を示します
録音を停止すると、完全な文字起こしが音声/映像ファイルと一緒に自動的に保存されます。
始める前に
ライブ文字起こしには、最初のセッション前に 2 つの設定が必要です:
1. AI 機能が有効になっている
- 設定(右上の歯車アイコン ⚙️)を開きます
- AI カテゴリに移動します
- AI 機能トグルがオン(青色)であることを確認します
トグルがグレーか AI カテゴリが見当たらない場合は、アカウント管理者に連絡してください。AI 機能にはアクティブなサブスクリプションが必要な場合があります。
2. API キーが設定されている
引き続き 設定 → AI で:
- API キーフィールドを探します
- Gemini API キーを入力します(取得方法については第 31 章を参照)
- 保存をクリックします
緑色のチェックマークはキーが有効であることを示します。赤い警告はキーが間違っているか期限切れであることを意味します。
注意: 録音中はアクティブなインターネット接続が必要です。ライブ文字起こしはオフラインでは実行できません。
ライブ文字起こしセッションを開始する方法
ライブ文字起こしの開始は通常の録音の開始と同じです。有効にする別の「文字起こしモード」はありません。AI 機能がオンで API キーが設定されている場合、ライブ文字起こしは自動的にアクティブになります。
ステップバイステップ:
-
赤い録音ボタン 🔴 をクリックします(またはキーボードショートカットを使用: Windows では
Ctrl+Alt+A、macOS ではCmd+Shift+A)- 表 示内容: ボタンが赤くパルスします。録音タイマーがカウントアップを始めます。
-
文字起こしパネルが表示されるのを確認します
- 表示内容: パネルがメインウィンドウの右側(またはレイアウトによってはプレーヤーの下)にスライドして表示されます。一瞬「接続中...」と表示されます。
-
普通に話します
- 表示内容: 2 ~ 5 秒後にテキストが表示され始めます。最新のフレーズはまだ処理中であることを示す微妙なアニメーションが表示されます。
-
会議や録音を通常通り続けます
- 表示内容: 完了したセグメントが時系列に積み重なっていき、それぞれに話者ラベルとタイムスタンプが付きます。
-
完了したら録音を停止します
- 表示内容: ボタンがアイドル状態に戻ります。「文字起こしを保存中...」という通知が一瞬表示されて消えます。文字起こしが保存されます。
録音中に見えるもの
文字起こしパネルには 3 つの主要なエリアがあります:
┌─────────────────────────────────────────────┐
│ Transcript 🟢 Connected │
├─────────────────────────────────────────────┤
│ Speaker 1 0:00:12 │
│ "Good morning everyone, let's get started" │
│ │
│ Speaker 2 0:00:24 │
│ "Thanks for joining on short notice" │
│ │
│ Speaker 1 0:00:31 │
│ "Of course. First item on the agenda…" │
├─────────────────────────────────────────────┤
│ Now Speaking… ████████░░░░ │
│ "…is the Q3 budget review" │
└─────────────────────────────────────────────┘
各要素の意味:
| 要素 | 意味 |
|---|---|
| 話者ラベル | 話しているのが誰か — 自動的に割り当てられます(「話者 1」、「話者 2」) |
| タイムスタンプ | 録音内でこのセグメントが始まる時刻(時:分:秒) |
| 確定したテキスト | 最終確定した言葉 — 変更されません |
| 「Now Speaking...」プレビュー | まだ処理中の現在の発話 — 若干変わる場合があります |
| ステータスインジケーター | 🟢 接続中 · 🟡 接続しています · 🔴 エラー |
接続ステータスインジケーター
パネルの右上隅にあるインジケーターは AI エンジンに到達できるかどうかを示します:
- 🟢 接続中 — 文字起こしが正常に実行されています
- 🟡 接続しています — 接続を確立中(起動時は正常で、2 ~ 5 秒かかります)
- 🔴 エラー — 接続が切れました(以下のトラブルシューティングを参照)
🔴 エラーが表示された場合、録音自体は安全に続行されます。ライブ文字起こしのみが影響を受けます。
自動話者検出
AI エンジンは異なる声を区別して、それぞれにラベルを割り当てようとします。
仕組み:
Recording timeline:
0:00 ──────────────────────────────────────────────────► time
│ │ │ │
Speaker 1 Speaker 2 Speaker 1 Speaker 2
"Morning" "Hello" "Agenda…" "Agreed"
▼ ▼ ▼ ▼
[Seg. 1] [Seg. 2] [Seg. 3] [Seg. 4]
話者が変わるたびに、システムは新しいセグメントを作成します。同じ話者のセグメントには同じラベルが付きます。
初期ラベル: 最初に話した話者が「話者 1」、次の新しい声が「話者 2」というように続きます。これはプレースホルダーです。後で名前を変更できます(第 29 章を参照)。
話者の精緻化: 録音が進むにつれて、AI が 2 つのセグメントが同じ声に属すると確信した場合、以前の割り当てを修正する場合があります。これは正常な動作です。テキストは変わりません。過去のセグメントの話者の帰属のみが変わります。
ヒント: 最も正確な話者分離のためには、スピーカーではなくヘッドフォンを使用してください。マイクに拾われるスピーカーの出力は検出器を混乱させる可能性があります。
録音を停止した後
停止をクリックすると:
- 「Now Speaking...」プレビューが進行中の文章を確定します
- 完全な文字起こしが録音ファイルと一緒に自動的に保存されます
- 手動操作は不要です
文字起こしを見つける場所:
- 録音ライブラリで録音を開きます
- 詳細パネルの AI インサイトをクリックします
- 文字起こしタブを選択します
文字起こしは AI インサイトタブから SRT(字幕フォーマット)または JSON としてエクスポートすることもできます。エクスポートの詳細については第 28 章を参照してください。
制限事項
これらの制限を理解 することで、現実的な期待を持つことができます:
| 制限事項 | 詳細 |
|---|---|
| インターネットが必要 | ライブ文字起こしはオフラインでは実行できません。音声はネットワーク経由で AI エンジンによって処理されます。 |
| タイムスタンプの精度 | タイムスタンプはおおよその値です(±3 秒)。ナビゲーションには使用できますが、法的な文書には使用しないでください。 |
| 録音の一時停止 | 録音を一時停止すると、文字起こしも一時停止されます。一時停止したセグメントは文字起こしされません。 |
| 精度の変動 | 明瞭な音声、一度に 1 人の話者、良いマイクの場合に精度が最も高くなります。強いアクセント、バックグラウンドノイズ、または複数の人が同時に話すと精度が下がります。 |
| 言語 | 文字起こし言語は自動検出(推奨)または 設定 → AI → SeaMeet Integration で特定の言語に設定できます。自動検出は多言語会議を自動的に処理します。 |
| リアルタイム編集不可 | 録音中は文字起こしを編集できません。録音停止後に編集できます。 |
再生中のキャプションオーバーレイ
ライブ文字起こしがある録音を再生すると、SeaMeet はテレビのクローズドキャプションのように映像に直接キャプションを表示できます。
キャプションの仕組み:
- キャプションのテキストはフレームの下部にある映像プレビューにオーバーレイされます
- 各セグメントには話者名(話者ごとに色分け)と発話されたテキストが表示されます
- キャプションは再生位置に同期されており、録音の再生に合わせて進みます
- キャプションは自動的にセッションの Gemini Live 文字起こしを使用します
話者の色: 各話者にはすべてのキャプションと文字起こしパネルで一貫した色が割り当てられます。色は自動的に決定され、録音全体を通じて一貫しています。
キャプションフォーマット:
[Speaker 1]: Good morning everyone, let's get started.
キャプションは一致する文字起こしセグメントが再生されるに従って表示・非表示になります。
2 列映像レイアウト
ライブ文字起こしがある映像録画を視聴する際、SeaMeet は 2 列レイアウトを使用します:
┌─────────────────────────────────────────────────────┐
│ Video Preview │ Transcript Panel │
│ │ │
│ [video with captions] │ Speaker 1 0:00:12 │
│ │ "Good morning..." │
│ │ │
│ │ Speaker 2 0:00:24 │
│ │ "Thanks for joining" │
│ │ [⤢ Max] │
└─────────────────────────────────────────────────────┘
- 左列: キャプションオーバーレイ付きの固定幅映像
- 右列: 再生位置に同期したスクロール文字起こしパネル
- 最大化ボタン(⤢): 長い録音を読みやすくするために文字起こしパネルをフルスクリーンオーバーレイに拡大します
2 列レイアウトはライブ文字起こし付きの映像録画にのみ表示されます。音声のみの録音や文字起こしなしの録音は標準的な 1 列レイアウトを使用します。
文字起こしの言語設定
ライブ文字起こし中に SeaMeet が使用する言語を設定できます:
- 設定(⚙️)を開きます
- AI → SeaMeet Integration に移動します
- 会議言語セレクターを見つけます
- 言語を選択します:
- 自動検出(デフォルト、推奨)— SeaMeet が発話言語を自動的に識別します。多言語会議や言語が変わる場合に最適です。
- 手動選択 — 英語(米国/英国)、スペイン語、フランス語、ドイツ語、日本語、中国語(標準語)、広東語、韓国語など 20 以上の特定の言語から選択できます。
ヒント: 特定の言語を強制する特別な理由がない限り、言語は自動検出のままにしてください。自動検出はアクセントや混合言語の会議を手動設定よりもうまく処理します。
トラブルシューティング
「文字起こしパネルが表示されない」
症状: 録音を開始しても文字起こしパネルが表示されない。
順番に確認してください:
- 設定 → AI に移動して AI 機能トグルがオンであることを確認します
- API キーが有効であることを確認します(設定 → AI に緑色のチェックマーク)
- インターネット接続を確認します — ウェブページを読み込んでみます
- SeaMeet を再起動して再試行します
4 つのステップをすべて実行してもパネルが表示されない場合、AI サービスが一時的に利用できない可能性があります。録音自体は影響を受けません。後でもう一度試してください。
「録音中に接続が切れた」
症状: 録音中にステータスインジケーターが 🔴 赤色に変わる。
何が起きたか: AI エンジンへの接続が中断されました。以下の原因が考えられます:
- 一時的なネットワーク中断
- Wi-Fi がアクセスポイントを切り替えた
- AI サービスが一時的にオフラインになった
対処方法:
- 録音を停止しないでください — 安全に続行されます
- インターネット接続を確認します
- 接続は通常 30 秒以内に自動的に回復します
- 切断中に話された言葉は回復されません — ライブ文字起こしでは失われます(ただし音声は録音ファイルに残っているため、後で AI 要約を実行できます — 第 28 章を参照)
「話者のラベルが正しくない」
症状: 複数の人が「話者 1」とラベル付けされている、または 1 人の人が 2 人の異なる話者として表示される。
何が起きているか: 話者検出は声の特徴を使用します。以下の場合に精度が低下します:
- 複数の人が同時に話している
- 話者の声が大きく変わる(笑い声、大きな声、音質の悪化)
- バックグラウンドノイズが干渉している
対処方法:
- 録音後、話者パネルで話者の名前を変更します(第 29 章を参照)
- 同一人物の 2 つのラベルを結合するには統合機能を使用します(第 29 章)
ベストプラクティス
最良のライブ文字起こし結果のためにこれらの方法に従ってください:
一度に 1 人が話す 同時発話(2 人が同時に話すこと)は話者検出を混乱させ、文字起こしで乱れたテキストが生成されます。参加者が順番に話すよう促してください。
静かな録音環境 バックグラウンドノイズ — 空調システム、タイピング、街の騒音 — はマイクに拾われ、文字起こしの精度を下げます。口の近くに配置したヘッドセットマイクは、ノートパソコンの内蔵マイクよりもはるかに良い結果を提供します。
適切なマイクの配置 複数の参加者がいる対面会議では、テーブルの中央近くにマイクを配置するか、各参加者が個別のマイクを使用します。
安定したインターネット接続 有線接続または強い Wi-Fi 信号を使用します。ホットスポットやパケットロスが多いネットワークは避けてください — 接続が切れる原因になります。
すぐに話者の名前を変更する 誰が何を言ったかを覚えているうちに、録音直後に話者の名前変更を行います。手順については第 29 章を参照してください。
クイックリファレンス
┌────────────────────────────────────────────────────────────┐
│ LIVE TRANSCRIPTION │
│ Quick Reference │
├────────────────────────────────────────────────────────────┤
│ Start │ Record normally — auto-activates │
│ Status: green │ 🟢 Transcription running │
│ Status: yellow │ 🟡 Connecting (wait 5 s) │
│ Status: red │ 🔴 Disconnected — recording safe │
├────────────────────────────────────────────────────────────┤
│ Transcript panel │ Right side of main window │
│ Preview line │ "Now Speaking…" — in progress │
│ Completed lines │ Final — won't change │
├────────────────────────────────────────────────────────────┤
│ After stopping │ Transcript saved automatically │
│ Find it │ Recording → AI Insights → Transcript │
├────────────────────────────────────────────────────────────┤
│ Requires │ Internet + AI Features on + API key │
│ Timestamps │ Approximate ±3 seconds │
│ Pauses │ Not transcribed │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
Published: