第 24 章：SeaMeet の仕組み（技術編）

はじめに

「録画」ボタンを押したとき、裏側で何が起きているか気になったことはありますか？SeaMeet はどのようにして画面をキャプチャし、映像をエンコードし、ファイルを保存し、コンピューターを過熱させることなくリアルタイムで処理しているのでしょうか？この章では、SeaMeet を動かす技術的な魔法の幕を開きます。

心配はいりません。コンピューターサイエンスの学位がなくても理解できます。アナロジーや視覚的な例を使って、すべてをわかりやすい言葉で説明します。この章を読み終えると、「録画」をクリックした瞬間からファイルがライブラリに表示されるまで、録画パイプライン全体を確実に理解できるようになります。

本章の目標

この章を読むと、以下のことができるようになります：

最初から最後までの完全な録画パイプラインを理解する
音声と映像のキャプチャが技術的にどのように機能するかを知る
エンコード、圧縮、ファイル形式を理解する
Flashback の循環バッファがどのように機能するかを学ぶ
自動検出がシステムをどのように監視するかを知る
特定の技術的制限が存在する理由を理解する
技術的な知識に基づいて設定について十分な情報に基づいた決定を下す

第 1 部：録画パイプラインの概要

録画の旅

「録画開始」をクリックしたときに何が起こるか追ってみましょう：

┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│ キャプチャ  │ →  │   処理      │ →  │  エンコード │ →  │   保存      │
│             │    │             │    │             │    │             │
│ 画面 +      │    │ 生データ    │    │ 映像/音声   │    │ ディスクへ  │
│ 音声        │    │ バッファリング│   │ 圧縮        │    │ 書き込み    │
└─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘
     ↓                  ↓                  ↓                  ↓
  30-60 fps         メモリバッファ      H.264/MP3         MP4/WebM
  44.1-48kHz        一時保存           圧縮              最終ファイル

時間スケール： これらすべてが録画中、毎秒 30～60 回継続的に実行されます。

第 2 部：映像キャプチャ

画面キャプチャの仕組み

概念： コンピューターの画面は、絶えず変化し続ける絵画のようなものです。SeaMeet はこの絵画の写真を非常に素早く撮り、映像を作成します。

技術的なプロセス：

フレームの取得

オペレーティングシステムが提供：
┌─────────────────────────────┐
│  画面バッファ（フレーム）   │
│  1920×1080 ピクセル         │
│  毎秒 60 回                 │
└─────────────────────────────┘
         ↓
SeaMeet がこのバッファをキャプチャ

フレームバッファ

キャプチャされたフレームが移動する場所：
┌─────────────────────────────┐
│  RAM バッファ               │
│  一時保持エリア             │
│  エンコード待ちキュー       │
└─────────────────────────────┘

3 つのキャプチャモード：

フルスクリーンキャプチャ：

画面バッファ全体をキャプチャ
サイズ：1920×1080 × 4 バイト/ピクセル = フレームあたり約 8 MB
30 fps の場合：毎秒 240 MB の生データ

ウィンドウキャプチャ：

OS が SeaMeet に通知：「ウィンドウは座標 (x, y, 幅, 高さ) にあります」
SeaMeet はその矩形のみをキャプチャ
サイズが小さい = データが少ない

リージョンキャプチャ：

矩形を定義：(開始_x, 開始_y, 幅, 高さ)
SeaMeet は正確にその領域をキャプチャ
最も効率的（最小データ）

フレームレートの計算

30fps が実際に意味すること：

毎秒 30 フレーム =
• 毎秒 30 回の画面キャプチャ
• 33.3 ミリ秒ごとに 1 フレーム
• 毎分 1,800 フレーム
• 毎時 108,000 フレーム（30fps）

1080p 解像度の場合：
• 1 フレーム = 1920 × 1080 ピクセル
• 1 フレーム = 2,073,600 ピクセル
• 1 フレーム = 非圧縮で約 6 MB
• 30 フレーム = 毎秒約 180 MB 非圧縮
• 1 時間 = 非圧縮で約 650 GB！

だから圧縮は必須なのです！

第 3 部：音声キャプチャ

音声録音の仕組み

概念： 音は波です。コンピューターはこれらの波を非常に素早く数値に変換します。

技術的なプロセス：

マイク入力

音波 → マイク → アナログ信号
                        ↓
アナログ/デジタルコンバーター (ADC)

サンプリング

サンプリングレート：毎秒 44,100 または 48,000 サンプル

波のスナップショットを撮るようなイメージ：
• 毎秒 48,000 枚の写真
• 各写真はその瞬間の波の高さをキャプチャ
• サンプルが多い = より正確な波の再現

ビット深度

16 ビット = 65,536 の値
24 ビット = 16,777,216 の値

写真のピクセルのようなもの：
• ビットが多い = 音の「色」が多い
• ダイナミックレンジが向上（静かな音と大きな音の差）

計算：

CD 音質：
• サンプリングレート 44.1 kHz
• 16 ビット深度
• 2 チャンネル（ステレオ）
• 毎秒：44,100 × 16 × 2 = 1,411,200 ビット = 176 KB/s
• 毎分：非圧縮で約 10.5 MB

高音質：
• サンプリングレート 48 kHz
• 24 ビット深度
• 2 チャンネル
• 毎秒：48,000 × 24 × 2 = 2,304,000 ビット = 288 KB/s
• 毎分：非圧縮で約 17 MB

システム音声キャプチャ

仕組み：

システム音声はスピーカーから「キャプチャ」されるのではなく、スピーカーに到達する前に傍受されます：

アプリケーション → システム音声ミキサー → スピーカー
                          ↓
                       SeaMeet
                          ↓
                       録音

Windows の場合：

「ステレオミックス」またはループバック録音を使用
ドライバーレベルで音声ストリームを傍受
品質の低下なし

macOS の場合：

画面録画の許可が必要
CoreAudio フレームワークを使用
仮想音声デバイスを作成

第 4 部：エンコードと圧縮

圧縮が必要な理由

問題：

1080p 30fps の生映像：
• 毎秒 180 MB
• 毎分 10.8 GB
• 毎時 650 GB！

CD 生音声：
• 毎分 10.5 MB
• 毎時 630 MB

どんなコンピューターもそれほどの速さでそれほどのデータを書き込めません！

解決策： 圧縮

映像圧縮（コーデック）

映像圧縮の仕組み：

フレームの種類：

I フレーム（キーフレーム）：完全な画像
• 完全な写真のようなもの
• ファイルサイズが大きい
• 参照ポイント

P フレーム（予測フレーム）：前フレームからの変化
• 変化した部分のみを保存
• はるかに小さい
• 「人物の口が動いた」

B フレーム（双方向フレーム）：過去と未来のフレームからの変化
• 最も効率的
• 前後のフレームを参照
• エンコードが複雑

例：

映像シーケンス：I P P B P B P I P P B P

I フレーム：完全な画像（大きい）
P フレーム：動いている部分のみ（小さい）
B フレーム：スマートな予測（最小）

H.264 圧縮プロセス：

フレームをマクロブロックに分割（16×16 ピクセルの正方形）
前フレームと比較
一致するブロックを見つける
差分のみを保存
数学的変換を適用（DCT）
量子化（精度を下げる）
エントロピーエンコード（効率的なビット詰め込み）

圧縮率：

非圧縮：毎時 650 GB
H.264 圧縮後：毎時 4-8 GB
圧縮率：約 100:1

映像はほぼ同一に見えます！
品質の低下はほとんど気づきません。

音声圧縮

ロスレスとロッシーの違い：

ロスレス（WAV、FLAC）：

音声のすべてのビットを保持
音声の ZIP ファイルのようなもの
50% のサイズ削減
完璧な品質

ロッシー（MP3、AAC）：

「聞こえない」音を削除
はるかに小さいファイル
90% のサイズ削減
品質の低下（ほとんど気づかない）

MP3 圧縮プロセス：

心理音響モデル
- 人間が聞こえない音を特定
- それらを削除
周波数解析
- 音声を周波数帯域に分解
- 各帯域を異なる方法で圧縮
ビット割り当て
- 聞こえる音により多くのビット
- マスクされた音には少ないビット
ハフマンエンコード
- 効率的なビット詰め込み

圧縮率：

非圧縮 WAV：毎時 630 MB
MP3 128 kbps：毎時約 60 MB（90% 小さい）
MP3 320 kbps：毎時約 150 MB（75% 小さい）

第 5 部：Flashback システム

循環バッファのアーキテクチャ

概念： ループするコンベヤーベルトを想像してください。物品は一定時間ベルト上に留まり、端から落ちます。

技術的な実装：

Flashback バッファ構造：

┌──────────────────────────────────────────────────────────┐
│  循環バッファ（RAM）                                     │
│                                                          │
│  ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐      │
│  │F1  │→│F2  │→│F3  │→│F4  │→│F5  │→│F6  │→│F7  │      │
│  └────┘ └────┘ └────┘ └────┘ └────┘ └────┘ └────┘      │
│    ↑                                         ↓           │
│    └─────────────────────────────────────────┘           │
│                   （ループして戻る）                     │
│                                                          │
│  各「F」= 1 秒の映像                                     │
│  バッファサイズ：60 秒 = 60 フレーム保存                 │
└──────────────────────────────────────────────────────────┘

書き込みプロセス（継続的）：
1. 現在位置にフレームを書き込む
2. 次の位置に移動
3. 最後に達したら先頭に戻る（上書き）
4. 毎秒 30-60 回繰り返す

保存プロセス（トリガー時）：
1. 現在位置を「終了」としてマーク
2. バッファの継続時間分だけ後方に読み取る
3. マークされたすべてのフレームをコピー
4. 最終映像ファイルにエンコード
5. バッファは中断なく継続

メモリ管理：

バッファサイズの計算：

1080p 30fps の 60 秒バッファの場合：
• 生データ：180 MB/s × 60s = 10.8 GB（多すぎ！）
• バッファ内の圧縮データ：約 3 MB/s × 60s = 180 MB
• オーバーヘッドを含む実際の使用量：約 200-250 MB

これが機能する理由：

メモリは高速（RAM が対応できる）
継続的な上書き = 一定のメモリ使用量
即時保存 = バッファをディスクにコピーするだけ
バッファが満杯になったらパフォーマンスへの影響なし

第 6 部：自動検出システム

検出の仕組み

監視ループ：

500 ミリ秒ごと（毎秒 2 回）：

1. ウィンドウタイトルを確認
   ├─ すべての開いているウィンドウのリストを取得
   ├─ 各タイトルにキーワードがないか確認：
   │  • "Zoom Meeting"
   │  • "Microsoft Teams"
   │  • "Google Meet"
   │  • など
   └─ スコア：一致が見つかった = +50 ポイント

2. 実行中のプロセスを確認
   ├─ アクティブなプロセスのリストを取得
   ├─ 以下を確認：
   │  • zoom.exe
   │  • Teams.exe
   │  • chrome.exe（会議 URL を含む）
   └─ スコア：プロセスが見つかった = +30 ポイント

3. 音声ストリームを確認
   ├─ アクティブな音声チャンネルを監視
   ├─ 以下を検出：
   │  • マイクはアクティブか？
   │  • スピーカーはアクティブか？
   │  • 両方同時？（おそらく会議）
   └─ スコア：会議パターン = +40 ポイント

4. ウィンドウの形状を確認
   ├─ ウィンドウの形を分析
   ├─ 以下を探す：
   │  • フルスクリーン映像
   │  • ギャラリービューレイアウト
   │  • 会議コントロールバー
   └─ スコア：一致 = +20 ポイント

5. スコアを評価
   ├─ 合計スコア = すべての信号の合計
   ├─ 検出閾値：80 ポイント
   ├─ 高信頼度：120+ ポイント
   └─ スコアに基づいてアクションをトリガー

6. 500ms 待機
   └─ 繰り返す

このアプローチの理由：

複数の信号 = 精度
重み付けスコアリング = 柔軟性
高速ループ（毎秒 2 回）= 高応答性
リソース使用量が少ない = 効率的

第 7 部：ファイル形式とコンテナ

コンテナとは何か？

アナロジー： コンテナはさまざまなアイテムを入れる箱のようなもの：

映像トラック（動く映像）
音声トラック（音）
メタデータ（映像に関する情報）
字幕（ある場合）

コンテナとコーデックの違い：

コンテナ = 箱（MP4、WebM、AVI）
コーデック = 圧縮方法（H.264、VP8）

例えると：
コンテナ = ファイルフォルダ
コーデック = 中の文書の書き方

MP4 コンテナ構造

MP4 ファイル構造：

┌──────────────────────────────────────┐
│  ftyp（ファイルタイプ）              │
│  「これは MP4 ファイルです」         │
├──────────────────────────────────────┤
│  moov（ムービーヘッダー）            │
│  - 時間：3600 秒                     │
│  - トラック：2（映像 + 音声）        │
│  - タイムスケール情報                │
├──────────────────────────────────────┤
│  mdat（メディアデータ）              │
│  ┌────────────────────────────────┐  │
│  │ 映像トラック（H.264）          │  │
│  │ フレーム 1、フレーム 2、...    │  │
│  └────────────────────────────────┘  │
│  ┌────────────────────────────────┐  │
│  │ 音声トラック（AAC）            │  │
│  │ サンプル 1、サンプル 2、...    │  │
│  └────────────────────────────────┘  │
└──────────────────────────────────────┘

MP4 が人気の理由：

汎用的な互換性
効率的なストリーミング
多くのコーデックをサポート
優れたメタデータサポート
すべてのデバイスで動作

第 8 部：ハードウェアアクセラレーション

CPU エンコードと GPU エンコード

CPU エンコード（ソフトウェア）：

利点：
• 最高品質
• 最も互換性が高い
• すべてのコンピューターで動作

欠点：
• 非常に遅い/CPU 集中型
• バッテリーを消耗
• システムの速度低下を引き起こす可能性

GPU エンコード（ハードウェア）：

利点：
• 非常に高速
• CPU 使用率が低い
• 専用ハードウェア
• バッテリー効率が良い

欠点：
• わずかに品質が低い（ほとんど気づかない）
• 互換性のある GPU が必要
• 設定の柔軟性が低い

ハードウェアアクセラレーションの仕組み

NVIDIA NVENC：

プロセス：
1. 生の映像フレームを GPU に送信
2. GPU のエンコーダーチップが処理
3. 専用ハードウェアが H.264 エンコードを実行
4. エンコードされたデータを返送
5. CPU はほとんど関与しない

結果：CPU 使用率が 50-70% から 10-20% に低下

Intel Quick Sync：

Intel プロセッサーに内蔵
専用メディアエンコードハードウェア
ノートパソコンに非常に効率的
低消費電力

AMD VCE：

NVENC と同様だが AMD GPU 向け
グラフィックカード上のハードウェアエンコードブロック
良好な品質、高速エンコード

第 9 部：継続的なディスク書き込み——データ損失ゼロ

アーキテクチャ

SeaMeet の録画エンジンはディスクへのストリーミングモデルに基づいて構築されています。映像と音声データは、ユーザーが停止するまでメモリに保持するのではなく、録画が進むにつれて継続的に出力ファイルにフラッシュされます。

従来の録画機：
┌──────────────────────────────────────────────────────────┐
│  RAM バッファ（録画全体を通して増大し続ける）            │
│  フレーム 1 → フレーム 2 → ... → フレーム 216,000（2 時間 @ 30fps）│
│                                          ↓               │
│                                   [停止をクリック]       │
│                                          ↓               │
│                                   ディスクに書き込む     │
│                                   （単一の大きなフラッシュ）│
└──────────────────────────────────────────────────────────┘

SeaMeet のストリーミングモデル：
┌──────────────────────────────────────────────────────────┐
│  フレーム 1-90   → エンコード → チャンク書き込み → ディスク ✅│
│  フレーム 91-180 → エンコード → チャンク書き込み → ディスク ✅│
│  フレーム 181-270→ エンコード → チャンク書き込み → ディスク ✅│
│  ...                                                     │
│  [停止をクリック] → コンテナを確定 → 完了 ✅            │
└──────────────────────────────────────────────────────────┘

主な違い： SeaMeet では、録画ファイルは最初の数秒からディスク上に存在し成長します。録画が任意の時点で中断された場合、すでにディスクにフラッシュされたすべてのチャンクは復元可能です。

技術的な実装

映像（WebM/MP4 コンテナストリーミング）：

VideoRecordingEngine はエンコードされたパケットを
ストリーミングモードで開いているファイルハンドルに直接書き込みます：

エンコードされたパケット → コンテナにマックス → OS ファイルキャッシュに flush()
                                                        ↓
                                             チャンク境界で fsync
                                                        ↓
                                             データがディスクにコミット

音声：

PCM サンプル → エンコード（MP3/AAC/WebM Opus）→ ファイルハンドルに書き込み
                                                         ↓
                                              定期的な flush + sync

チャンク境界：

映像：キーフレーム間隔で数秒ごとにフラッシュ
音声：音声パケットと共に継続的にフラッシュ
両方：OS レベルの fsync でプロセス終了後もデータが生き残ることを保証

なぜ重要なのか

クラッシュ耐性テーブル：

イベント	メモリのみの録画機	SeaMeet
アプリのクラッシュ	データ損失 100%	最大で数秒の損失（最後の未フラッシュチャンク）
OS クラッシュ / BSOD / カーネルパニック	データ損失 100%	フラッシュされたすべてのチャンクが生き残る
電源障害	データ損失 100%	フラッシュされたすべてのチャンクが生き残る
強制終了（kill -9）	データ損失 100%	フラッシュされたすべてのチャンクが生き残る
正常停止	完全なファイルが保存	完全なファイルが保存

メモリフットプリント：

従来：RAM 使用量は録画時間と共に増加
  1 時間 1080p @ 30fps ≈ RAM 3.6 GB

SeaMeet ストリーミング：RAM 使用量は一定
  1 時間 1080p @ 30fps ≈ RAM 約 50-100 MB（エンコードバッファのみ）
  → 残りの 3.5+ GB はすでにディスク上

これはまた、SeaMeet がメモリ制限に遭遇することなく任意の長さの録画を処理できることを意味します——数時間の録画も 5 分の録画も同じピーク RAM を使用します。

第 10 部：パフォーマンスの最適化

SeaMeet が効率的な理由

1. ストリーミング書き込み（バッファされたバルク書き込みではなく）：

代わりに：
フレームが RAM に蓄積 → [停止] → すべてをディスクにダンプ

SeaMeet の場合：
フレーム → エンコード → ディスクにチャンクを書き込む（数秒ごと）

一定で予測可能なディスク I/O = 録画終了時のスパイクなし

2. 非同期エンコード：

キャプチャスレッド：画面からフレームを取得
エンコードスレッド：フレームを圧縮
ディスクスレッド：ファイルに書き込む

3 つのスレッドが並行して動作
待機なし、最大効率

3. 選択的品質：

Flashback は低品質を使用（高速エンコード）
通常の録画は高品質を使用
ユーザーはニーズに基づいて選択できる

4. メモリマッピング：

大きなファイルがメモリにマップされる
OS が効率的にページングを処理
従来のファイル I/O より高速

第 10 部：制限と制約

なぜ一部のことが不可能なのか

1. DRM コンテンツを録画できない：

Netflix、Disney+ などは暗号化を使用
グラフィックカードが表示のために復号化
復号化されたストリームをキャプチャできない
法的/技術的なブロック

SeaMeet は画面バッファをキャプチャ
しかし DRM コンテンツはそこに現れない
結果：黒い画面の録画

2. 保護されたアプリをキャプチャできない：

一部のバンキングアプリが画面キャプチャをブロック
OS レベルのセキュリティ機能
機密情報を保護
設計上バイパスできない

3. Bluetooth の音声遅延：

Bluetooth 音声には内蔵の遅延がある
典型的に 100-300ms
SeaMeet の問題ではない
ハードウェアの制限

解決策：有線ヘッドフォンを使用

4. 画面解像度より高い解像度で録画できない：

画面が 1080p → 録画の最大は 1080p
1080p から 4K を魔法のように作れない
ピクセルデータが存在しない

例外：一部の GPU はアップスケーリングをサポート
ただしそれは本物の 4K ではない

まとめ

SeaMeet は以下を行う精巧なエンジニアリング作品です：

✅ 高速で画面と音声をキャプチャ

✅ リアルタイムで映像/音声を圧縮（100:1 の比率！）

✅ 継続的にディスクにストリーミング — クラッシュ時もデータ損失ゼロ

✅ Flashback タイムマシンに循環バッファを使用

✅ 自動検出のために複数の信号を監視

✅ ハードウェアアクセラレーションとマルチスレッドで最適化

✅ すべてを標準ファイル形式にパッケージ化

重要なポイント：

継続的なディスク書き込み — データは最初の秒から安全；クラッシュで失うのは最大で数秒
圧縮は必須 — なければファイルは巨大になる
ハードウェアアクセラレーションが助ける — 作業を GPU にオフロード
Flashback は RAM バッファを使用 — 高速な循環ストレージ
自動検出はパターンマッチング — 複数の信号を重み付け
コーデックは重要 — H.264 は汎用、H.265 は効率的
DRM は録画できない — 技術的・法的な制限

技術用語の簡略説明：

コーデック = 圧縮方法
コンテナ = ファイル形式の箱
フレーム = 映像の単一画像
サンプル = 音声波のスナップショット
ビットレート = 毎秒のデータ量
バッファ = 一時的なメモリストレージ
遅延 = アクションと録画の間の遅延

章のチェックリスト

次に進む前に、以下を理解する必要があります：

画面キャプチャの仕組み（フレームの取得）
圧縮が必要な理由（ファイルサイズの計算）
継続的なディスク書き込みが録画を保護する方法
Flashback の循環バッファの仕組み
5 つの自動検出シグナル
コンテナとコーデックの違い
ハードウェアアクセラレーションの効果
一部のコンテンツを録画できない理由

技術的な知識を習得！ 🔧 SeaMeet の魔法の背後にある仕組みを理解しました。