실시간 전사 - 말하는 동안 화면에 표시되는 단어들
27장: 실시간 전사 — 말하는 동안 화면에 표시되는 단어들
법원 속기사가 세션이 진행되는 동안 타이핑하는 것을 상상해 보세요 — 말하는 순간 모든 단어가 캡처되고, 회의가 끝날 때까지 기다릴 필요 없이. SeaMeet의 실시간 전사가 녹음에 정확히 그것을 해줍니다. 말하는 동안 전사 패널이 실시간으로 채워집니다: 화자 레이블, 타임스탬프, 그리고 실제 단어들이 모두 대화가 진행되는 대로 나타납니다.
기다림 없음. 업로드 단계 없음. 그냥 화면에 단어들만.
장 목표
이 장을 읽고 나면 다음을 할 수 있습니다:
- 실시간 전사가 무엇을 하고 언제 사용할지 이해하기
- 시작하기 전에 전제 조건 설정하기
- 실시간 전사가 활성화된 상태로 녹음 세션 시작하기
- 녹음 중 전사 패널 읽고 해석하기
- 자동 화자 감지가 작동하는 방법 이해하기
- 가장 일반적인 연결 및 표시 문제 해결하기
실시간 전사란 무엇인가요?
실시간 전사는 녹음하는 동안 녹음의 오디오를 텍스트로 변환하여 실시간으로 타임스탬프가 있는 화자 레이블이 붙은 전사본을 생성합니다.
이렇게 생각해 보세요: 모든 회의에서 여러분 옆에 앉아 즉시 말한 모든 것을 받아적는 타이피스트를 상상해 보세요 — 각 사람의 말에 레이블을 붙이고 정확히 언제 말했는지 기록합니다. 그 전사본은 회의가 끝나는 순간 이용 가능합니다. 전사 지연 없음. "오디오를 처리 중입니다" 스피너 없음.
실시간 전사는 녹음 세션과 함께 실행됩니다. 녹음을 시작하는 순간:
- AI 엔진이 듣기 시작합니다
- 말한 지 몇 초 안에 전사 패널에 단어가 나타납니다
- 화자 레이블 ("Speaker 1", "Speaker 2")이 자동으로 할당됩니다
- 타임스탬프가 녹음에서 각 세그먼트가 해당하는 위치를 표시합니다
녹음을 중지하면 완전한 전사본이 오디오/비디오 파일과 함께 자동으로 저장됩니다.
시작하기 전에
실시간 전사를 사용하려면 첫 번째 세션 전에 두 가지를 구성해야 합니다:
1. AI 기능 활성화
- 설정 열기 (오른쪽 상단의 기어 아이콘 ⚙️)
- AI 카테고리로 이동
- AI 기능 토글이 켜짐 (파란색)인지 확인
토글이 회색이거나 AI 카테고리가 없는 경우 계정 관리자에게 문의하세요 — AI 기능에는 활성 구독이 필요할 수 있습니다.
2. API 키 구성
여전히 설정 → AI에서:
- API 키 필드 찾기
- Gemini API 키 입력 (얻는 방법은 31장 참조)
- 저장 클릭
녹색 체크마크는 키가 유효함을 확인합니다. 빨간색 경고는 키가 잘못되었거나 만료되었음을 의미합니다.
참고: 녹음 중 활성 인터넷 연결이 필요합니다. 실시간 전사는 오프라인으로 실행할 수 없습니다.
실시간 전사 세션 시작 방법
실시간 전사를 시작하는 것은 일반 녹음을 시작하는 것과 동일합니다 — 별도의 "전사 모드"를 활성화할 필요가 없습니다. AI 기능이 켜져 있고 API 키가 구성되어 있으면 실시간 전사가 자동으로 활성화됩니다.
단계별:
-
빨간 녹음 버튼 클릭 🔴 (또는 키보드 단축키 사용: Windows에서
Ctrl+Alt+A, macOS에서Cmd+Shift+A)- 보이는 것: 버튼이 빨간색으로 깜박입니다. 녹음 타이머가 증가하기 시작합니다.
-
전사 패널이 나타나는 것 보기
- 보이는 것: 패널이 메인 창의 오른쪽으로 슬라이드됩니다 (또는 레이아웃에 따라 플레이어 아래). "연결 중..."이 잠깐 표시됩니다.
-
평소대로 말하기
- 보이는 것: 2-5초 후 텍스트가 나타나기 시작합니다. 가장 최근 구문은 아직 처리 중인 동안 미묘한 애니메이션을 보여줍니다.
-
평소처럼 회의나 녹음 계속하기
- 보이는 것: 완료된 세그먼트가 시간 순으로 쌓이며, 각각 화자 레이블과 타임스탬프로 태그됩니다.
-
완료되면 녹음 중지
- 보이는 것: 버튼이 유휴 상태로 돌아갑니다. "전사 저장 중..." 알림이 잠깐 번쩍이다 사라집니다. 전사본이 저장됩니다.
녹음 중 보이는 것
전사 패널에는 세 가지 주요 영역이 있습니다:
┌─────────────────────────────────────────────┐
│ Transcript 🟢 Connected │
├─────────────────────────────────────────────┤
│ Speaker 1 0:00:12 │
│ "Good morning everyone, let's get started" │
│ │
│ Speaker 2 0:00:24 │
│ "Thanks for joining on short notice" │
│ │
│ Speaker 1 0:00:31 │
│ "Of course. First item on the agenda…" │
├─────────────────────────────────────────────┤
│ Now Speaking… ████████░░░░ │
│ "…is the Q3 budget review" │
└─────────────────────────────────────────────┘
각 요소의 의미:
| 요소 | 의미 |
|---|---|
| 화자 레이블 | 말하는 사람 — 자동으로 할당됨 ("Speaker 1", "Speaker 2") |
| 타임스탬프 | 녹음에서 이 세그먼트가 시작되는 시간 (시:분:초) |
| 완료된 텍스트 | 최종 확정된 단어 — 변경되지 않음 |
| "Now Speaking…" 미리보기 | 아직 처리 중인 현재 발화 — 약간 변경될 수 있음 |
| 상태 표시기 | 🟢 연결됨 · 🟡 연결 중 · 🔴 오류 |
연결 상태 표시기
패널 오른쪽 상단의 표시기는 AI 엔진에 접근 가능한지 여부를 알려줍니다:
- 🟢 연결됨 — 전사가 정상적으로 실행 중
- 🟡 연결 중 — 연결 설정 중 (시작 시 정상, 2-5초 소요)
- 🔴 오류 — 연결 끊어짐 (아래 문제 해결 참조)
🔴 오류가 표시되면 녹음 자체는 안전하게 계속됩니다 — 실시간 전사만 영향을 받습니다.
자동 화자 감지
AI 엔진은 서로 다른 목소리를 구별하고 각각에 레이블을 할당하려고 합니다.
작동 방식:
Recording timeline:
0:00 ──────────────────────────────────────────────────► time
│ │ │ │
Speaker 1 Speaker 2 Speaker 1 Speaker 2
"Morning" "Hello" "Agenda…" "Agreed"
▼ ▼ ▼ ▼
[Seg. 1] [Seg. 2] [Seg. 3] [Seg. 4]
화자가 변경될 때마다 시스템은 새 세그 먼트를 만듭니다. 같은 화자의 세그먼트는 같은 레이블을 받습니다.
초기 레이블: 처음 말하는 사람은 "Speaker 1", 두 번째 새 목소리는 "Speaker 2" 등입니다. 이것은 임시 표시입니다 — 나중에 이름을 바꿀 수 있습니다 (29장 참조).
화자 세분화: 녹음이 진행됨에 따라 AI는 두 세그먼트가 같은 목소리에 속한다고 확신하면 이전 할당을 세분화할 수 있습니다. 이것은 정상입니다. 텍스트는 변경되지 않습니다 — 과거 세그먼트의 화자 귀속만 변경됩니다.
팁: 가장 정확한 화자 분리를 위해 스피커 대신 헤드폰을 사용하세요. 마이크에 포착된 스피커 출력이 감지기를 혼란스럽게 할 수 있습니다.
녹음 중지 후
중지를 클릭하면:
- "Now Speaking..." 미리보기가 진행 중인 모든 문장을 최종 확정합니다
- 완전한 전사본이 녹음 파일과 함께 자동으로 저장됩니다
- 수동 작업이 필요하지 않습니다
전사본 찾는 곳:
- 녹음 라이브러리에서 녹음 열기
- 세부 패널에서 AI Insights 클릭
- Transcript 탭 선택
전사본은 AI Insights 탭에서 SRT (자막 포맷) 또는 JSON으로 내보내기도 가능합니다. 내보내기 세부 사항은 28장을 참조하세요.
제한 사항
이러한 제한 사항을 이해하면 현실적인 기대를 설정하는 데 도움이 됩니다:
| 제한 사항 | 세부 내용 |
|---|---|
| 인터넷 필요 | 실시간 전사는 오프라인으로 실행할 수 없습니다. 오디오는 네트워크를 통해 AI 엔진에서 처리됩니다. |
| 타임스탬프 정확도 | 타임스탬프는 대략적입니다 (±3초). 법적 문서가 아닌 탐색 용도로만 사용하세요. |
| 녹음 일시 정지 | 녹음을 일시 정지하면 전사도 일시 정지됩니다. 일시 정지된 세그먼트는 전사되지 않습니다. |
| 정확도 차이 | 명확한 음성, 한 번에 한 명의 화자, 좋은 마이크를 사용할 때 정확도가 가장 높습니다. 강한 억양, 배경 소음, 또는 동시 발화는 정확도를 감소시킵니다. |
| 언어 | 전사 언어는 설정 → AI → SeaMeet Integration에서 Auto Detect (권장) 또는 특정 언어로 설정할 수 있습니다. Auto Detect는 다국어 회의를 자동으로 처리합니다. |
| 실시간 편집 없음 | 녹음 중 전사본을 편집할 수 없습니다. 편집은 녹음이 중지된 후에 가능합니다. |
재생 중 캡션 오버레이
라이브 전사본이 있는 녹음을 재생할 때 SeaMeet은 TV의 자 막처럼 비디오에 직접 캡션을 표시할 수 있습니다.
캡션 작동 방식:
- 캡션 텍스트가 프레임 하단에 있는 비디오 미리보기에 오버레이됩니다
- 각 세그먼트는 화자 이름 (화자별 색상 코딩)과 말한 텍스트를 표시합니다
- 캡션은 재생 위치에 동기화됩니다 — 녹음이 재생됨에 따라 전진합니다
- 캡션은 자동으로 세션의 Gemini Live 전사본을 사용합니다
화자 색상: 각 화자는 모든 캡션 및 전사 패널에서 일관된 색상이 할당됩니다. 색상은 자동으로 결정되며 녹음 전체에 걸쳐 일관되게 유지됩니다.
캡션 포맷:
[Speaker 1]: Good morning everyone, let's get started.
캡션은 일치하는 전사 세그먼트가 재생될 때 나타났다 사라집니다.
2열 비디오 레이아웃
라이브 전사본이 있는 비디오 녹화를 볼 때 SeaMeet은 2열 레이아웃을 사용합니다:
┌─────────────────────────────────────────────────────┐
│ Video Preview │ Transcript Panel │
│ │ │
│ [video with captions] │ Speaker 1 0:00:12 │
│ │ "Good morning..." │
│ │ │
│ │ Speaker 2 0:00:24 │
│ │ "Thanks for joining" │
│ │ [⤢ Max] │
└─────────────────────────────────────────────────────┘
- 왼쪽 열: 캡션 오버레이가 있는 고정 폭 비디오
- 오른쪽 열: 재생 위치에 동기화된 스크롤 전사 패널
- 최대화 버튼 (⤢): 긴 녹음을 더 편하게 읽기 위해 전사 패널을 전체 화면 오버레이로 확장
2열 레이아웃은 라이브 전사본이 있는 비디오 녹화에만 나타납니다. 오디오 전용 녹음과 전사본이 없는 녹음은 표준 단일 열 레이아웃을 사용합니다.
전사를 위한 언어 설정
SeaMeet이 실시간 전사 중 기대하는 언어를 구성할 수 있습니다:
- 설정 (⚙️) 열기
- AI → SeaMeet Integration으로 이동
- 회의 언어 선택기 찾기
- 언어 선택:
- Auto Detect (기본값, 권장) — SeaMeet이 자동으로 말하는 언어를 식별합니다. 다국어 회의 또는 언어가 다양할 때 최적.
- 수동 선택 — 영어 (미국/영국), 스페인어, 프랑스어, 독일어, 일본어, 만다린어, 광동어, 한국어 등 20개 이상의 특정 언어 중에서 선택.
팁: 언어를 강제로 지정해야 하는 특별한 이유가 없는 한 Auto Detect로 설정하세요. 자동 감지는 수동 강제 설정보다 억양과 혼합 언어 회의를 더 잘 처리합니다.
문제 해결
"전사 패널이 나타나지 않습니다"
증상: 녹음을 시작했지만 전사 패널이 나타나지 않습니다.
순서대로 확인하세요:
- 설정 → AI로 이동하여 AI 기능 토글이 켜짐인지 확인
- API 키가 유효한지 확인 (설정 → AI에서 녹색 체크마크)
- 인터넷 연결 확인 — 웹 페이지 로드 시도
- SeaMeet을 다시 시작하고 다시 시도
네 단계 모두 후에도 패널이 나타나지 않으면 AI 서비스가 일시적으로 사용 불가능할 수 있습니다. 녹음 자체는 영향을 받지 않습니다 — 나중에 다시 시도하세요.
"녹음 중 연결이 끊어졌습니다"
증상: 녹음 중 상태 표시기가 🔴 빨간색으로 바뀝니다.
발생한 일: AI 엔진과의 연결이 중단되었습니다. 다음으로 인해 발생할 수 있습니다:
- 일시적인 네트워크 중단
- Wi-Fi 액세스 포인트 전환
- AI 서비스가 잠시 오프라인 상태
해야 할 것:
- 녹음을 중지하지 마세요 — 안전하게 계속됩니다
- 인터넷 연결 확인
- 연결은 보통 30초 내에 자동으로 복구됩니다
- 연결 끊김 기간 동안 말한 단어는 복구되지 않습니다 — 라이브 전사본에 유실됩니다 (하지만 오디오는 녹음 파일에 남아 있으므로 나중에 AI 요약을 실행할 수 있습니다 — 28장 참조)
"화자가 올바르게 레이블되지 않았습니다"
증상: 여러 사람이 "Speaker 1"로 레이블되거나 한 사람이 두 개의 다른 화자로 나타납니다.
발생하는 일: 화자 감지는 음성 특성을 사용합니다. 다음 경우에 정확도가 떨어집니다:
- 여러 사람이 동시에 말하는 경우
- 화자의 목소리가 크게 변하는 경우 (웃음, 높아진 목소리, 나쁜 오디오)
- 배경 소음이 방해하는 경우
해야 할 것:
- 녹음 후 화자 패널에서 화자 이름 바꾸기 (29장 참조)
- 같은 사람에게 속하는 두 레이블을 합치는 병합 기능 사용 (29장)
모범 사례
최상의 실시간 전사 결과를 위해 다음 방법을 따르세요:
한 번에 한 명의 화자 동시 발화 (두 사람이 동시에 말하기)는 화자 감지를 혼란스럽게 하고 전사본에 뒤죽박죽된 텍스트를 생성합니다. 참가자들이 순서대로 발언하도록 권장하세요.
조용한 녹음 환경 HVAC 시스템, 타이핑, 도로 소음 등 배경 소음이 마이크에 포착되어 전사 정확도를 낮춥니다. 입 가까이 배치한 헤드셋 마이크가 내장 노트북 마이크보다 훨씬 좋은 결과를 제공합니다.
좋은 마이크 배치 여러 참가자가 있는 대면 회의의 경우 테이블 중앙 근처에 마이크를 배치하거나 각 참가자가 개별 마이크를 사용하세요.
안정적인 인터넷 연결 유선 연결 또는 강한 Wi-Fi 신호를 사용하세요. 핫스팟이나 패킷 손실이 높은 네트워크는 피하세요 — 연결 끊김을 일으킵니다.
즉시 화자 이름 바꾸기 녹음 직후 누가 무슨 말을 했는지 기억하는 동안 바로 화자 이름을 바꾸세요. 지침은 29장을 참조하세요.
빠른 참조
┌────────────────────────────────────────────────────────────┐
│ LIVE TRANSCRIPTION │
│ Quick Reference │
├────────────────────────────────────────────────────────────┤
│ Start │ Record normally — auto-activates │
│ Status: green │ 🟢 Transcription running │
│ Status: yellow │ 🟡 Connecting (wait 5 s) │
│ Status: red │ 🔴 Disconnected — recording safe │
├────────────────────────────────────────────────────────────┤
│ Transcript panel │ Right side of main window │
│ Preview line │ "Now Speaking…" — in progress │
│ Completed lines │ Final — won't change │
├────────────────────────────────────────────────────────────┤
│ After stopping │ Transcript saved automatically │
│ Find it │ Recording → AI Insights → Transcript │
├────────────────────────────────────────────────────────────┤
│ Requires │ Internet + AI Features on + API key │
│ Timestamps │ Approximate ±3 seconds │
│ Pauses │ Not transcribed │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
Published: