제24장: SeaMeet 작동 원리 (기술)

소개

"Record" 버튼을 누를 때 뒤에서 어떤 일이 일어나는지 궁금한 적이 있나요? SeaMeet은 어떻게 화면을 캡처하고, 비디오를 인코딩하고, 파일을 저장하면서, 컴퓨터를 토스터로 만들지 않고 이 모든 것을 실시간으로 할까요? 이 장은 SeaMeet을 작동시키는 기술적 마법을 설명합니다.

걱정하지 마세요—이것을 이해하기 위해 컴퓨터 과학 학위가 필요하지 않습니다. 비유와 시각적 예시를 사용하여 모든 것을 쉬운 말로 설명하겠습니다. 이 장을 끝낼 때까지, "Record"를 클릭한 순간부터 파일이 라이브러리에 나타날 때까지의 녹음 파이프라인에 대한 확실한 이해를 갖게 될 것입니다.

장 목표

이 장을 읽은 후, 다음을 할 수 있게 됩니다:

처음부터 끝까지 완전한 녹음 파이프라인 이해
오디오 및 비디오 캡처가 기술적 수준에서 어떻게 작동하는지 알기
인코딩, 압축 및 파일 형식 이해
Flashback의 순환 버퍼 작동 방식 학습
자동 감지가 시스템을 모니터링하는 방법 알기
특정 기술적 제한이 존재하는 이유 이해
기술적 지식을 바탕으로 설정에 대한 정보에 기반한 결정 내리기

파트 1: 녹음 파이프라인 개요

녹음의 여정

"Start Recording"을 클릭할 때 어떤 일이 일어나는지 추적해 보겠습니다:

┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│   캡처      │ →  │   처리      │ →  │   인코딩    │ →  │    저장     │
│             │    │             │    │             │    │             │
│ 화면 +     │    │ 원시 데이터  │    │ 비디오/     │    │ 디스크에    │
│ 오디오     │    │ 버퍼링      │    │ 오디오 압축  │    │ 기록       │
└─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘
     ↓                  ↓                  ↓                  ↓
  30-60 fps         메모리 버퍼        H.264/MP3         MP4/WebM
  44.1-48kHz        임시              압축              최종 파일

시간 규모: 이 모든 것이 녹음하는 동안 초당 30-60번, 연속적으로 일어납니다.

파트 2: 비디오 캡처

화면 캡처 작동 방식

개념: 컴퓨터 화면은 끊임없이 변하는 그림과 같습니다. SeaMeet은 이 그림의 사진을 매우 빠르게 촬영하여 비디오를 만듭니다.

기술적 과정:

프레임 그랩

운영 체제가 제공하는 것:
┌─────────────────────────────┐
│  화면 버퍼 (프레임)          │
│  1920×1080 픽셀             │
│  초당 60회                   │
└─────────────────────────────┘
         ↓
SeaMeet이 이 버퍼를 캡처합니다

프레임 버퍼

캡처된 프레임이 이동하는 곳:
┌─────────────────────────────┐
│  RAM 버퍼                    │
│  임시 보관 영역               │
│  인코딩 대기열                │
└─────────────────────────────┘

세 가지 캡처 모드:

전체 화면 캡처:

전체 화면 버퍼를 캡처
크기: 1920×1080 × 4바이트/픽셀 = 프레임당 약 8 MB
30 fps에서: 초당 240 MB 원시 데이터

창 캡처:

OS가 SeaMeet에 알림: "창이 좌표 (x, y, 너비, 높이)에 있습니다"
SeaMeet은 그 직사각형만 캡처
더 작은 크기 = 더 적은 데이터

영역 캡처:

직사각형을 정의: (시작_x, 시작_y, 너비, 높이)
SeaMeet이 해당 영역만 정확히 캡처
가장 효율적 (가장 적은 데이터)

프레임 레이트 수학

30fps가 실제로 의미하는 것:

초당 30프레임 =
• 초당 30번 화면 캡처
• 33.3밀리초마다 1프레임
• 분당 1,800프레임
• 시간당 108,000프레임 (30fps)

1080p 해상도에서:
• 1프레임 = 1920 × 1080 픽셀
• 1프레임 = 2,073,600 픽셀
• 1프레임 = 비압축 약 6 MB
• 30프레임 = 초당 비압축 약 180 MB
• 1시간 = 비압축 약 650 GB!

이것이 압축이 필수적인 이유입니다!

파트 3: 오디오 캡처

오디오 녹음 작동 방식

개념: 소리는 파동입니다. 컴퓨터는 이 파동을 매우 빠르게 숫자로 변환합니다.

기술적 과정:

마이크 입력

음파 → 마이크 → 아날로그 신호
                                     ↓
아날로그 → 디지털 변환기 (ADC)

샘플링

샘플 레이트: 초당 44,100 또는 48,000 샘플

파동의 사진을 찍는 것으로 생각하세요:
• 초당 48,000장의 사진
• 각 사진은 그 순간의 파동 높이를 캡처
• 더 많은 샘플 = 더 정확한 파동 재현

비트 깊이

16비트 = 65,536 가능한 값
24비트 = 16,777,216 가능한 값

사진의 픽셀처럼:
• 더 많은 비트 = 더 많은 소리의 "색상"
• 더 나은 다이내믹 레인지 (조용한 것 vs 큰 것)

수학:

CD 품질 오디오:
• 44.1 kHz 샘플 레이트
• 16비트 깊이
• 2채널 (스테레오)
• 초당: 44,100 × 16 × 2 = 1,411,200비트 = 176 KB/s
• 분당: 비압축 약 10.5 MB

고품질 오디오:
• 48 kHz 샘플 레이트
• 24비트 깊이
• 2채널
• 초당: 48,000 × 24 × 2 = 2,304,000비트 = 288 KB/s
• 분당: 비압축 약 17 MB

시스템 오디오 캡처

작동 방식:

시스템 오디오는 스피커에서 "캡처"되는 것이 아니라—스피커에 도달하기 전에 가로챕니다:

애플리케이션 → 시스템 오디오 믹서 → 스피커
                     ↓
                  SeaMeet
                     ↓
                  녹음

Windows에서:

"Stereo Mix" 또는 루프백 녹음 사용
드라이버 수준에서 오디오 스트림 가로채기
품질 손실 없음

macOS에서:

화면 녹화 권한 필요
CoreAudio 프레임워크 사용
가상 오디오 장치 생성

파트 4: 인코딩 및 압축

압축이 필요한 이유

문제:

원시 1080p 30fps 비디오:
• 초당 180 MB
• 분당 10.8 GB
• 시간당 650 GB!

원시 CD 오디오:
• 분당 10.5 MB
• 시간당 630 MB

어떤 컴퓨터도 그렇게 많은 데이터를 그렇게 빠르게 기록할 수 없습니다!

해결책: 압축

비디오 압축 (코덱)

비디오 압축 작동 방식:

프레임 유형:

I-프레임 (키프레임): 완전한 이미지
• 전체 사진과 같음
• 큰 파일 크기
• 기준점

P-프레임 (예측): 이전 프레임에서의 변경
• 변경된 것만 저장
• 훨씬 작음
• "사람의 입이 움직였습니다"

B-프레임 (양방향): 과거와 미래에서의 변경
• 가장 효율적
• 전후 프레임을 참조
• 인코딩이 복잡

예시:

비디오 시퀀스: I P P B P B P I P P B P

I-프레임: 전체 이미지 (큼)
P-프레임: 움직이는 부분만 (작음)
B-프레임: 스마트 예측 (가장 작음)

H.264 압축 과정:

프레임을 매크로블록으로 분할 (16×16 픽셀 사각형)
이전 프레임과 비교
일치하는 블록 찾기
차이점만 저장
수학적 변환 적용 (DCT)
양자화 (정밀도 감소)
엔트로피 인코딩 (효율적인 비트 패킹)

압축 비율:

비압축: 시간당 650 GB
H.264 압축: 시간당 4-8 GB
압축 비율: 약 100:1

비디오는 거의 동일하게 보입니다!
품질 손실은 거의 인식할 수 없습니다.

오디오 압축

무손실 vs. 손실:

무손실 (WAV, FLAC):

오디오의 모든 비트를 보존
오디오용 ZIP 파일과 같음
50% 크기 감소
완벽한 품질

손실 (MP3, AAC):

"들리지 않는" 소리를 제거
훨씬 작은 파일
90% 크기 감소
품질 손실 (하지만 대개 눈에 띄지 않음)

MP3 압축 과정:

심리음향 모델
- 인간이 들을 수 없는 소리를 식별
- 제거
주파수 분석
- 오디오를 주파수 대역으로 분할
- 각 대역을 다르게 압축
비트 할당
- 들리는 소리에 더 많은 비트
- 마스킹된 소리에 더 적은 비트
허프만 인코딩
- 효율적인 비트 패킹

압축 비율:

비압축 WAV: 시간당 630 MB
MP3 128 kbps: 시간당 약 60 MB (90% 작아짐)
MP3 320 kbps: 시간당 약 150 MB (75% 작아짐)

파트 5: Flashback 시스템

순환 버퍼 아키텍처

개념: 루프를 도는 컨베이어 벨트를 상상해 보세요. 아이템은 정해진 시간 동안 벨트에 머물다가 끝에서 떨어집니다.

기술적 구현:

Flashback 버퍼 구조:

┌──────────────────────────────────────────────────────────┐
│  순환 버퍼 (RAM)                                          │
│                                                          │
│  ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐      │
│  │F1  │→│F2  │→│F3  │→│F4  │→│F5  │→│F6  │→│F7  │      │
│  └────┘ └────┘ └────┘ └────┘ └────┘ └────┘ └────┘      │
│    ↑                                         ↓           │
│    └─────────────────────────────────────────┘           │
│                   (루프 순환)                              │
│                                                          │
│  각 "F" = 1초의 비디오                                     │
│  버퍼 크기: 60초 = 60프레임 저장                            │
└──────────────────────────────────────────────────────────┘

쓰기 과정 (연속):
1. 현재 위치에 프레임 쓰기
2. 다음 위치로 이동
3. 끝에 도달하면 처음으로 돌아가기 (덮어쓰기)
4. 초당 30-60번 반복

저장 과정 (트리거 시):
1. 현재 위치를 "끝"으로 표시
2. 버퍼 기간만큼 뒤로 읽기
3. 표시된 모든 프레임 복사
4. 최종 비디오 파일로 인코딩
5. 버퍼는 중단 없이 계속

메모리 관리:

버퍼 크기 계산:

1080p 30fps에서 60초 버퍼의 경우:
• 원시: 180 MB/s × 60s = 10.8 GB (너무 많음!)
• 버퍼 내 압축: ~3 MB/s × 60s = 180 MB
• 오버헤드 포함 실제 사용: ~200-250 MB

이것이 작동하는 이유:

메모리는 빠름 (RAM이 처리 가능)
연속 덮어쓰기 = 일정한 메모리 사용
즉각 저장 = 버퍼를 디스크에 복사하기만 하면 됨
버퍼가 가득 차면 성능 영향 없음

파트 6: 자동 감지 시스템

감지 작동 방식

모니터링 루프:

500밀리초마다 (초당 2회):

1. 창 제목 확인
   ├─ 열려 있는 모든 창 목록 가져오기
   ├─ 각 제목에서 키워드 확인:
   │  • "Zoom Meeting"
   │  • "Microsoft Teams"
   │  • "Google Meet"
   │  • 등
   └─ 점수: 일치 발견 = +50점

2. 실행 중인 프로세스 확인
   ├─ 활성 프로세스 목록 가져오기
   ├─ 확인 대상:
   │  • zoom.exe
   │  • Teams.exe
   │  • chrome.exe (회의 URL 포함)
   └─ 점수: 프로세스 발견 = +30점

3. 오디오 스트림 확인
   ├─ 활성 오디오 채널 모니터링
   ├─ 감지:
   │  • 마이크 활성?
   │  • 스피커 활성?
   │  • 둘 다 함께? (회의 가능성 높음)
   └─ 점수: 회의 패턴 = +40점

4. 창 형상 확인
   ├─ 창 모양 분석
   ├─ 찾는 것:
   │  • 전체 화면 비디오
   │  • 갤러리 뷰 레이아웃
   │  • 회의 컨트롤 바
   └─ 점수: 일치 = +20점

5. 점수 평가
   ├─ 총 점수 = 모든 신호의 합
   ├─ 감지 임계값: 80점
   ├─ 높은 확신: 120점 이상
   └─ 점수에 따라 작업 트리거

6. 500ms 대기
   └─ 반복

이 접근 방식의 이유:

여러 신호 = 정확성
가중 점수 = 유연성
빠른 루프 (초당 2회) = 반응성
낮은 리소스 사용 = 효율성

파트 7: 파일 형식 및 컨테이너

컨테이너란?

비유: 컨테이너는 다양한 항목을 담는 상자와 같습니다:

비디오 트랙 (움직이는 그림)
오디오 트랙 (소리)
메타데이터 (비디오에 대한 정보)
자막 (있는 경우)

컨테이너 vs. 코덱:

컨테이너 = 상자 (MP4, WebM, AVI)
코덱 = 압축 방법 (H.264, VP8)

이렇게 생각하세요:
컨테이너 = 파일 폴더
코덱 = 내부 문서가 작성되는 방식

MP4 컨테이너 구조

MP4 파일 구조:

┌──────────────────────────────────────┐
│  ftyp (파일 유형)                     │
│  "이것은 MP4 파일입니다"               │
├──────────────────────────────────────┤
│  moov (무비 헤더)                     │
│  - 길이: 3600초                       │
│  - 트랙: 2개 (비디오 + 오디오)         │
│  - 타임스케일 정보                     │
├──────────────────────────────────────┤
│  mdat (미디어 데이터)                  │
│  ┌────────────────────────────────┐  │
│  │ 비디오 트랙 (H.264)             │  │
│  │ 프레임 1, 프레임 2, 프레임 3... │  │
│  └────────────────────────────────┘  │
│  ┌────────────────────────────────┐  │
│  │ 오디오 트랙 (AAC)              │  │
│  │ 샘플 1, 샘플 2, 샘플 3...     │  │
│  └────────────────────────────────┘  │
└──────────────────────────────────────┘

MP4가 인기 있는 이유:

범용 호환성
효율적인 스트리밍
많은 코덱 지원
좋은 메타데이터 지원
모든 장치에서 작동

파트 8: 하드웨어 가속

CPU vs. GPU 인코딩

CPU 인코딩 (소프트웨어):

장점:
• 최고 품질
• 가장 호환성
• 모든 컴퓨터에서 작동

단점:
• 매우 느림/CPU 집약적
• 배터리 소모
• 시스템 속도 저하 가능

GPU 인코딩 (하드웨어):

장점:
• 매우 빠름
• 낮은 CPU 사용
• 전용 하드웨어
• 배터리 효율적

단점:
• 약간 낮은 품질 (거의 눈에 띄지 않음)
• 호환 GPU 필요
• 덜 유연한 설정

하드웨어 가속 작동 방식

NVIDIA NVENC:

과정:
1. 원시 비디오 프레임이 GPU로 전송
2. GPU의 인코더 칩이 처리
3. 전용 하드웨어가 H.264 인코딩 수행
4. 인코딩된 데이터가 반환
5. CPU는 거의 관여하지 않음

결과: CPU 사용률 50-70% 대신 10-20%

Intel Quick Sync:

Intel 프로세서에 내장
전용 미디어 인코딩 하드웨어
노트북에 매우 효율적
낮은 전력 소비

AMD VCE:

NVENC와 유사하지만 AMD GPU용
그래픽 카드의 하드웨어 인코딩 블록
좋은 품질, 빠른 인코딩

파트 9: 연속 디스크 기록 — 데이터 손실 제로

아키텍처

SeaMeet의 녹음 엔진은 스트리밍 투 디스크 모델을 중심으로 구축되었습니다. 비디오 및 오디오 데이터는 사용자가 중지할 때까지 메모리에 보관하지 않고, 녹음이 진행됨에 따라 출력 파일에 연속적으로 플러시됩니다.

전통적인 레코더:
┌──────────────────────────────────────────────────────────┐
│  RAM 버퍼 (녹음 내내 증가)                                 │
│  프레임 1 → 프레임 2 → ... → 프레임 216,000 (30fps에서 2시간) │
│                                          ↓               │
│                                   [중지 클릭]             │
│                                          ↓               │
│                                   디스크에 기록            │
│                                   (단일 대량 플러시)        │
└──────────────────────────────────────────────────────────┘

SeaMeet 스트리밍 모델:
┌──────────────────────────────────────────────────────────┐
│  프레임 1-90   → 인코딩 → 청크 기록 → 디스크 ✅            │
│  프레임 91-180 → 인코딩 → 청크 기록 → 디스크 ✅            │
│  프레임 181-270→ 인코딩 → 청크 기록 → 디스크 ✅            │
│  ...                                                     │
│  [중지 클릭] → 컨테이너 마무리 → 완료 ✅                    │
└──────────────────────────────────────────────────────────┘

핵심 차이점: SeaMeet에서는 녹음 파일이 첫 몇 초부터 디스크에 존재하며 커집니다. 어느 시점에서든 녹음이 중단되면, 이미 디스크에 플러시된 모든 청크를 복구할 수 있습니다.

기술적 구현

비디오 (WebM/MP4 컨테이너 스트리밍):

VideoRecordingEngine이 인코딩된 패킷을 스트리밍 모드로
열린 파일 핸들에 직접 기록:

EncodedPacket → 컨테이너에 먹스 → OS 파일 캐시에 flush()
                                              ↓
                                     청크 경계에서 fsync
                                              ↓
                                     데이터가 디스크에 커밋

오디오:

PCM 샘플 → 인코딩 (MP3/AAC/WebM Opus) → 파일 핸들에 기록
                                                    ↓
                                           주기적 flush + sync

청크 경계:

비디오: 키프레임 간격마다 몇 초마다 플러시
오디오: 오디오 패킷과 함께 연속 플러시
둘 다: OS 수준 fsync로 프로세스 사망 시에도 데이터 보존

이것이 중요한 이유

충돌 복원력 표:

이벤트	메모리 전용 레코더	SeaMeet
앱 충돌	100% 데이터 손실	최대 몇 초 손실 (마지막 미플러시 청크)
OS 충돌 / BSOD / 커널 패닉	100% 데이터 손실	플러시된 모든 청크 보존
정전	100% 데이터 손실	플러시된 모든 청크 보존
강제 종료 (kill -9)	100% 데이터 손실	플러시된 모든 청크 보존
정상 중지	전체 파일 저장	전체 파일 저장

메모리 사용량:

전통적: RAM 사용량이 녹음 시간에 따라 증가
  30fps에서 1시간 1080p ≈ RAM에 3.6 GB

SeaMeet 스트리밍: RAM 사용량이 일정하게 유지
  30fps에서 1시간 1080p ≈ RAM에 ~50-100 MB (인코드 버퍼만)
  → 나머지 3.5+ GB는 이미 디스크에

이는 또한 SeaMeet이 메모리 제한에 부딪히지 않고 임의로 긴 녹음을 처리할 수 있음을 의미합니다 — 수 시간의 녹음도 5분 녹음과 동일한 피크 RAM을 사용합니다.

파트 10: 성능 최적화

SeaMeet이 효율적인 이유

1. 스트리밍 기록 (버퍼된 대량 기록이 아님):

이것 대신:
RAM에 프레임 축적 → [중지] → 모든 것을 디스크에 덤프

SeaMeet은 이렇게 합니다:
프레임 → 인코딩 → 디스크에 청크 기록 (몇 초마다)

일정하고 예측 가능한 디스크 I/O = 녹음 종료 시 스파이크 없음

2. 비동기 인코딩:

캡처 스레드: 화면에서 프레임 가져오기
인코딩 스레드: 프레임 압축
디스크 스레드: 파일에 기록

세 스레드가 병렬로 작업
대기 없음, 최대 효율

3. 선택적 품질:

Flashback은 낮은 품질 사용 (빠른 인코딩)
일반 녹음은 높은 품질 사용
사용자가 필요에 따라 선택 가능

4. 메모리 매핑:

대용량 파일을 메모리에 매핑
OS가 페이징을 효율적으로 처리
전통적인 파일 I/O보다 빠름

파트 10: 제한 사항 및 제약

일부 것들이 불가능한 이유

1. DRM 콘텐츠를 녹음할 수 없음:

Netflix, Disney+ 등은 암호화를 사용
그래픽 카드가 표시를 위해 복호화
복호화된 스트림을 캡처할 수 없음
법적/기술적 차단

SeaMeet은 화면 버퍼를 캡처
하지만 DRM 콘텐츠는 거기에 나타나지 않음
결과: 검은 화면 녹음

2. 보호된 앱을 캡처할 수 없음:

일부 뱅킹 앱은 화면 캡처를 차단
OS 수준 보안 기능
민감한 정보를 보호
우회할 수 없음 (의도된 설계)

3. Bluetooth 오디오 지연:

Bluetooth 오디오에는 내장 지연이 있음
일반적으로 100-300ms
SeaMeet의 잘못이 아님
하드웨어 제한

해결책: 유선 헤드폰 사용

4. 화면 해상도보다 높게 녹음할 수 없음:

화면이 1080p → 최대 녹음 1080p
1080p에서 4K를 마법처럼 만들 수 없음
픽셀 데이터가 존재하지 않음

예외: 일부 GPU가 업스케일링을 지원
하지만 이는 진정한 4K가 아님

요약

SeaMeet은 다음과 같은 정교한 엔지니어링 산물입니다:

✅ 캡처 — 고속으로 화면 및 오디오 캡처

✅ 압축 — 실시간으로 비디오/오디오 압축 (100:1 비율!)

✅ 연속 디스크 기록 — 충돌에도 데이터 손실 제로

✅ 순환 버퍼 사용 — Flashback 타임머신에 활용

✅ 모니터링 — 자동 감지를 위한 다중 신호 모니터링

✅ 최적화 — 하드웨어 가속 및 멀티스레딩

✅ 패키징 — 모든 것을 표준 파일 형식으로 패키징

핵심 요약:

연속 디스크 기록 — 첫 번째 초부터 데이터가 안전; 충돌 시 최대 몇 초만 손실
압축은 필수 — 없으면 파일이 거대해짐
하드웨어 가속이 도움 — GPU에 작업 오프로드
Flashback은 RAM 버퍼 사용 — 빠른 순환 저장
자동 감지는 패턴 매칭 — 가중치를 가진 다중 신호
코덱이 중요 — H.264는 범용적, H.265는 효율적
DRM은 녹음할 수 없음 — 기술적 및 법적 제한

기술 용어 간소화:

코덱 = 압축 방법
컨테이너 = 파일 형식 상자
프레임 = 비디오의 단일 이미지
샘플 = 오디오 파동의 스냅샷
비트레이트 = 초당 데이터
버퍼 = 임시 메모리 저장
지연 = 동작과 녹음 간의 딜레이

장 체크리스트

넘어가기 전에 다음을 이해해야 합니다:

화면 캡처 작동 방식 (프레임 그래빙)
압축이 필요한 이유 (파일 크기 수학)
연속 디스크 기록이 녹음을 보호하는 방법
Flashback의 순환 버퍼 작동 방식
다섯 가지 자동 감지 신호
컨테이너와 코덱의 차이
하드웨어 가속의 역할
일부 콘텐츠를 녹음할 수 없는 이유

기술 지식 획득! 🔧 이제 SeaMeet 뒤의 마법을 이해합니다.