实时转录——边说边显示文字
第 27 章:实时转录——边说边显示文字
想象一位法庭记录员在会议进行时打字——每个字在说出的那一刻就被捕获,无需等到会议结束。这正是 SeaMeet 的实时转录为你的录音所做的事情。当你说话时,转录面板实时填充:说话人标签、时间戳以及实际说出的文字,所有内容在对话发生时同步出现。
无需等待。无需上传步骤。文字直接出现在屏幕上。
本章目标
阅读本章后,你将能够:
- 了解实时转录的作用以及何时使用它
- 在开始之前设置好前提条件
- 启动带有实时转录的录制会话
- 在录制时阅读和解读转录面板
- 了解自动说话人检测的工作原理
- 排除最常见的连接和显示问题
什么是实时转录?
实时转录在你录制的同时将录音中的音频转换为文字,实时生成带有时间戳和说话人标签的转录稿。
这样理解: 想象在每次会议中,旁边坐着一位打字员,立即将所有说过的内容写下来——为每个人的话打上标签,并标注他们说话的确切时间。会议结束的那一刻,这份转录稿就已备好。没有转录延迟。没有"正在处理你的音频"的等待界面。
实时转录与你的录制会话同步运行。一旦你开始录制:
- AI 引擎开始监听
- 在语音说出后几秒钟内,文字就出现在转录面板中
- 自动分配说话人标签("说话人 1"、"说话人 2")
- 时间戳标记每个片段在录音中的位置
停止录制后,完整的转录稿会自动与音频/视频文件一起保存。
开始之前
实时转录在首次使用前需要配置两项内容:
1. 启用 AI 功能
- 打开设置(右上角的齿轮图标 ⚙️)
- 导航至 AI 类别
- 确认 AI 功能开关处于开启状态(蓝色)
如果开关是灰色的或 AI 类别不存在,请联系你的账户管理员——AI 功能可能需要有效订阅。
2. 配置 API 密钥
仍在设置 → AI 中:
- 查找 API 密钥字段
- 输入你的 Gemini API 密钥(如何获取请参阅第 31 章)
- 点击保存
绿色复选标记确认密钥有效。红色警告表示密钥不正确或已过期。
注意: 录制过程中需要有效的互联网连接。实时转录无法离线运行。
如何开始实时转录会话
开始实时转录与开始任何录制完全相同——不需要启用单独的"转录模式"。如果 AI 功能已开启且 API 密钥已配置,实时转录会自动激活。
分步说明:
-
点击红色录制按钮 🔴(或使用键盘快捷键:Windows 为
Ctrl+Alt+A,macOS 为Cmd+Shift+A)- 你看到的: 按钮脉冲红色。录制计时器开始计数。
-
观察转录面板出现
- 你看到的: 一个面板滑入主窗口右侧(或播放器下方,取决于你的布局)。短暂显示"连接中……"。
-
正常说话
- 你看到的: 2–5 秒后,文字开始出现。仍在处理中的最新短语会显示一个微妙的动画。
-
正常进行你的会议或录制
- 你看到的: 完成的片段按时间顺序叠加,每个都附有说话人标签和时间戳。
-
完成后停止录制
- 你看 到的: 按钮返回空闲状态。短暂显示"正在保存转录……"通知,然后消失。转录稿已存储。
录制时你看到的内容
转录面板有三个主要区域:
┌─────────────────────────────────────────────┐
│ 转录稿 🟢 已连接 │
├─────────────────────────────────────────────┤
│ 说话人 1 0:00:12 │
│ "早上好各位,让我们开始吧" │
│ │
│ 说话人 2 0:00:24 │
│ "感谢大家临时参加" │
│ │
│ 说话人 1 0:00:31 │
│ "当然。议程第一项……" │
├─────────────────────────────────────────────┤
│ 正在说话…… ████████░░░░ │
│ "……是 Q3 预算审查" │
└─────────────────────────────────────────────┘
每个元素的含义:
| 元素 | 含义 |
|---|---|
| 说话人标签 | 说话的人——自动分配("说话人 1"、"说话人 2") |
| 时间戳 | 此片段在录音中开始的时间(小时:分钟:秒) |
| 已完成的文字 | 已定稿的文字——不会更改 |
| "正在说话……"预览 | 当前仍在处理的语句——可能会稍有变化 |
| 状态指示器 | 🟢 已连接 · 🟡 连接中 · 🔴 错误 |
连接状态指示器
面板右上角的指示器告诉你 AI 引擎是否可访问:
- 🟢 已连接 — 转录正常运行
- 🟡 连接中 — 正在建立连接(启动时正常,需 2–5 秒)
- 🔴 错误 — 连接中断(见下方故障排除)
如果看到 🔴 错误,录制本身会安全继续——只有实时转录受到影响。
自动说话人检测
AI 引擎会尝试区分不同的声音并为每个声音分配标签。
工作原理:
录制时间轴:
0:00 ──────────────────────────────────────────────────► 时间
│ │ │ │
说话人 1 说话人 2 说话人 1 说话人 2
"早上好" "你好" "议程……" "同意"
▼ ▼ ▼ ▼
[片段 1] [片段 2] [片段 3] [片段 4]
每次说话人变换,系统都会创建一个新片段。同一说话人的片段会获得相同的标签。
初始标签: 第一个说话的人是"说话人 1",第二个新声音是"说话人 2",以此类推。这些是占位符——你可以稍后重命名它们(参见第 29 章)。
说话人细化: 随着录制进行,如果 AI 确信两个片段属于同一声音,它可能会细化早期的分配。这是正常的。文字不会更改——只有早期片段上的说话人归属可能改变。
提示: 为了最准确的说话人分离,请使用耳机而不是扬声器。扬声器被麦克风拾取的声音会混淆检测器。
录制停止后
当你点击停止时:
- "正在说话……"预览对正在进行的句子进行最终确认
- 完整的转录稿自动与你的录音文件一起保存
- 无需任何手动操作
在哪里找到转录稿:
- 在 你的录音库中打开录音
- 点击详情面板中的 AI 洞察
- 选择转录选项卡
转录稿也可以从 AI 洞察选项卡导出为 SRT(字幕格式)或 JSON。导出详情参见第 28 章。
局限性
了解这些局限性有助于建立现实的期望:
| 局限性 | 详情 |
|---|---|
| 需要互联网 | 实时转录无法离线运行。音频通过网络由 AI 引擎处理。 |
| 时间戳准确性 | 时间戳是近似值(±3 秒)。用于导航,不用于法律文件。 |
| 录制暂停 | 如果你暂停录制,转录也会暂停。暂停的片段不会被转录。 |
| 准确性因情况而异 | 语音清晰、一次只有一人说话且麦克风质量好时准确性最高。严重口音、背景噪音或交叉谈话会降低准确 性。 |
| 语言 | 转录语言可以设置为自动检测(推荐)或在设置 → AI → SeaMeet 集成中指定特定语言。自动检测会自动处理多语言会议。 |
| 不支持实时编辑 | 录制时无法编辑转录稿。录制停止后可以进行编辑。 |
播放时的字幕叠加
当你播放有实时转录的录音时,SeaMeet 可以将字幕直接显示在视频上——就像电视上的隐藏字幕。
字幕的工作方式:
- 字幕文字叠加在视频预览的底部
- 每个片段显示说话人名称(每位说话人有不同颜色)和说出的文字
- 字幕与播放位置同步——随着录音播放而推进
- 字幕自动使用该会话的 Gemini Live 转录
说话人颜色: 每位说话人在所有字幕和转录面板中都被分配一个一致的颜色 。颜色由系统自动确定,并在整个录音中保持一致。
字幕格式:
[说话人 1]: 早上好各位,让我们开始吧。
字幕随匹配的转录片段播放而出现和消失。
双栏视频布局
观看带有实时转录的视频录音时,SeaMeet 使用双栏布局:
┌─────────────────────────────────────────────────────┐
│ 视频预览 │ 转录面板 │
│ │ │
│ [带字幕的视频] │ 说话人 1 0:00:12 │
│ │ "早上好……" │
│ │ │
│ │ 说话人 2 0:00:24 │
│ │ "感谢参加" │
│ │ [⤢ 最大化] │
└─────────────────────────────────────────────────────┘
- 左栏: 固定宽度的带字幕叠加视频
- 右栏: 与播放位置同步的滚动转录面板
- 最大化按钮(⤢): 将转录面板扩展到全屏叠加,便于在长时间录音时阅读
双栏布局只出现在带有实时转录的视频录音中。纯音频录音和没有转录的录音使用标准单栏布局。
转录的语言设置
你可以配置 SeaMeet 在实时转录期间期望的语言:
- 打开设置(⚙️)
- 导航至 AI → SeaMeet 集成
- 找到会议语言选择器
- 选择你的语言:
- 自动检测(默认,推荐)— SeaMeet 自动识别口语语言。最适合多语言会议或语言变化的情况。
- 手动选择 — 从 20 多种特定语言中选择,包括英语(美国/英国)、西班牙语、法语、德语、日语、普通话、粤语、韩语等。
提示: 除非你有特定原因要强制指定语言,否则请将语言设置为自动检测。自动检测比手动强制设置更能处理口音和混合语言的会议。
故障排除
"转录面板未出现"
症状: 你开始录制但转录面板从未显示。
按顺序检查以下内容:
- 前往设置 → AI,确认 AI 功能开关处于开启状态
- 确认你的 API 密钥有效(设置 → AI 中的绿色复选标记)
- 检查你的互联网连接——尝试加载一个网页
- 重启 SeaMeet 并再试
如果经过所有四个步骤后面板仍未出现,AI 服务可能暂时不可用。录制本身不受影响——稍后再试。
"录制中途连接中断"
症状: 录制期间状态指示器变为 🔴 红色。
发生了什么: 与 AI 引擎的连接被中断。这 可能由以下原因引起:
- 临时网络中断
- Wi-Fi 切换接入点
- AI 服务短暂离线
该怎么办:
- 不要停止录制——它会安全继续
- 检查你的互联网连接
- 连接通常会在 30 秒内自动恢复
- 断线期间说出的内容无法恢复——这些内容在实时转录中丢失(但音频仍保留在录音文件中,因此你可以事后运行 AI 摘要——参见第 28 章)
"说话人标签不正确"
症状: 多人被标记为"说话人 1",或一个人出现为两个不同的说话人。
发生了什么: 说话人检测使用声音特征。在以下情况下准确性会降低:
- 多人同时说话
- 说话人的声音发 生显著变化(笑声、提高声音、音频质量差)
- 背景噪音干扰
该怎么办:
- 录制结束后,在说话人面板中重命名说话人(参见第 29 章)
- 使用合并功能将属于同一人的两个标签合并(第 29 章)
最佳实践
遵循这些实践以获得最佳实时转录效果:
一次只有一人说话 交叉谈话(两人同时说话)会混淆说话人检测,并在转录稿中产生混乱的文字。鼓励参与者轮流发言。
安静的录制环境 背景噪音——暖通空调系统、打字声、街道噪音——会被麦克风拾取并降低转录准确性。靠近嘴巴放置的耳机麦克风比内置笔记本电脑麦克风效果好得多。
良好的麦克风位置 对于有多名参与者的现场会议,将麦克风放在桌子中央,或为每位参与者使用独立的麦克风。
稳定的互联网连接 使用有线连接或强 Wi-Fi 信号。避免热点或高丢包网络——它们会导致连接中断。
及时重命名说话人 在录制结束后立即进行说话人重命名,那时你还记得谁说了什么。操作说明参见第 29 章。
快速参考
┌────────────────────────────────────────────────────────────┐
│ 实时转录 │
│ 快速参考 │
├────────────────────────────────────────────────────────────┤
│ 开始 │ 正常录制——自动激活 │
│ 状态:绿色 │ 🟢 转录正在运行 │
│ 状态:黄色 │ 🟡 连接中(等待 5 秒) │
│ 状态:红色 │ 🔴 已断开——录制安全 │
├────────────────────────────────────────────────────────────┤
│ 转录面板 │ 主窗口右侧 │
│ 预览行 │ "正在说话……"——进行中 │
│ 已完成行 │ 已定稿——不会更改 │
├────────────────────────────────────────────────────────────┤
│ 停止后 │ 转录稿自动保存 │
│ 找到它 │ 录音 → AI 洞察 → 转录 │
├────────────────────────────────────────────────────────────┤
│ 需要 │ 互联网 + AI 功能开启 + API 密钥 │
│ 时间戳 │ 近似值 ±3 秒 │
│ 暂停 │ 不会被转录 │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
Published: