Chương 27: Phiên âm trực tiếp — Chữ hiện ra khi bạn nói

Hãy nghĩ về một người đánh máy tòa án đang gõ khi phiên tòa đang diễn ra—mỗi từ được ghi lại ngay khi được nói, không cần chờ đến khi cuộc họp kết thúc. Đó chính xác là những gì tính năng phiên âm trực tiếp của SeaMeet làm cho các bản ghi của bạn. Trong khi bạn đang nói chuyện, bảng phiên âm hiển thị theo thời gian thực: nhãn người nói, dấu thời gian và các từ thực tế, tất cả xuất hiện khi cuộc trò chuyện đang diễn ra.

Không cần chờ đợi. Không có bước tải lên. Chỉ là những từ trên màn hình.

Mục tiêu chương

Sau khi đọc chương này, bạn sẽ có thể:

Hiểu phiên âm trực tiếp làm gì và khi nào nên sử dụng
Thiết lập các điều kiện tiên quyết trước khi bắt đầu
Bắt đầu phiên ghi với phiên âm trực tiếp đang hoạt động
Đọc và giải thích bảng phiên âm trong khi ghi
Hiểu cách phát hiện người nói tự động hoạt động
Khắc phục các vấn đề kết nối và hiển thị phổ biến nhất

Phiên âm trực tiếp là gì?

Phiên âm trực tiếp chuyển đổi âm thanh từ bản ghi của bạn thành văn bản trong khi bạn ghi, tạo ra phiên âm có dấu thời gian, nhãn người nói theo thời gian thực.

Hãy nghĩ về nó như thế này: Hãy tưởng tượng có một người đánh máy ngồi cạnh bạn trong mỗi cuộc họp, ngay lập tức ghi lại mọi thứ được nói—gắn nhãn từng lời của từng người và ghi chú chính xác thời gian họ nói. Phiên âm đó có sẵn ngay khi cuộc họp kết thúc. Không có độ trễ phiên âm. Không có vòng quay "đang xử lý âm thanh của bạn".

Phiên âm trực tiếp chạy cùng với phiên ghi của bạn. Ngay khi bạn bắt đầu ghi:

Một engine AI bắt đầu lắng nghe
Các từ xuất hiện trong bảng Phiên âm trong vài giây sau khi được nói
Nhãn người nói ("Người nói 1", "Người nói 2") được gán tự động
Dấu thời gian đánh dấu vị trí trong bản ghi mỗi đoạn rơi vào

Khi bạn dừng ghi, phiên âm hoàn chỉnh được lưu tự động cùng với tệp âm thanh/video.

Trước khi bắt đầu

Phiên âm trực tiếp yêu cầu hai điều được cấu hình trước phiên đầu tiên của bạn:

1. Tính năng AI được bật

Mở Cài đặt (biểu tượng bánh răng ⚙️ ở góc trên bên phải)
Điều hướng đến danh mục AI
Xác nhận nút bật/tắt Tính năng AI đang bật (màu xanh)

Nếu nút bật/tắt màu xám hoặc danh mục AI bị thiếu, liên hệ quản trị viên tài khoản của bạn—tính năng AI có thể yêu cầu đăng ký đang hoạt động.

2. Khóa API được cấu hình

Vẫn trong Cài đặt → AI:

Tìm trường Khóa API
Nhập Khóa API Gemini của bạn (xem Chương 31 để biết cách lấy)
Nhấp Lưu

Dấu kiểm xanh xác nhận khóa hợp lệ. Cảnh báo đỏ có nghĩa là khóa không chính xác hoặc đã hết hạn.

Lưu ý: Bạn cần kết nối internet đang hoạt động trong khi ghi. Phiên âm trực tiếp không thể chạy ngoại tuyến.

Cách bắt đầu phiên phiên âm trực tiếp

Bắt đầu phiên âm trực tiếp giống hệt bắt đầu bất kỳ bản ghi nào—không có "chế độ phiên âm" riêng biệt để bật. Nếu Tính năng AI đang bật và Khóa API được cấu hình, phiên âm trực tiếp tự động kích hoạt.

Từng bước:

Nhấp nút ghi màu đỏ 🔴 (hoặc sử dụng phím tắt: Ctrl+Alt+A trên Windows, Cmd+Shift+A trên macOS)
- Những gì bạn thấy: Nút nhấp nháy đỏ. Bộ đếm thời gian ghi bắt đầu đếm lên.
Xem bảng Phiên âm xuất hiện
- Những gì bạn thấy: Một bảng trượt vào ở phía bên phải của cửa sổ chính (hoặc bên dưới trình phát, tùy thuộc bố cục của bạn). Nó hiển thị "Đang kết nối..." ngắn.
Nói bình thường
- Những gì bạn thấy: Sau 2–5 giây, văn bản bắt đầu xuất hiện. Cụm từ gần nhất hiển thị hoạt ảnh tinh tế trong khi vẫn đang được xử lý.
Tiếp tục cuộc họp hoặc bản ghi như bình thường
- Những gì bạn thấy: Các đoạn đã hoàn thành xếp chồng theo thứ tự thời gian, mỗi đoạn được gắn nhãn người nói và dấu thời gian.
Dừng ghi khi xong
- Những gì bạn thấy: Nút trở về trạng thái nghỉ. Thông báo "Đang lưu phiên âm..." nhấp nháy ngắn rồi biến mất. Phiên âm được lưu trữ.

Những gì bạn thấy trong khi ghi

Bảng phiên âm có ba khu vực chính:

┌─────────────────────────────────────────────┐
│  Phiên âm                      🟢 Đã kết nối │
├─────────────────────────────────────────────┤
│  Người nói 1   0:00:12                       │
│  "Good morning everyone, let's get started" │
│                                             │
│  Người nói 2   0:00:24                       │
│  "Thanks for joining on short notice"       │
│                                             │
│  Người nói 1   0:00:31                       │
│  "Of course. First item on the agenda…"    │
├─────────────────────────────────────────────┤
│  Đang nói…  ████████░░░░                    │
│  "…is the Q3 budget review"                 │
└─────────────────────────────────────────────┘

Ý nghĩa của mỗi phần tử:

Phần tử	Ý nghĩa
Nhãn người nói	Ai đang nói — được gán tự động ("Người nói 1", "Người nói 2")
Dấu thời gian	Thời điểm trong bản ghi đoạn này bắt đầu (giờ:phút:giây)
Văn bản đã hoàn thành	Các từ đã được hoàn thiện — những từ này sẽ không thay đổi
Xem trước "Đang nói…"	Phát ngôn hiện tại vẫn đang được xử lý — có thể thay đổi một chút
Chỉ báo trạng thái	🟢 Đã kết nối · 🟡 Đang kết nối · 🔴 Lỗi

Chỉ báo trạng thái kết nối

Chỉ báo ở góc trên bên phải bảng cho bạn biết engine AI có thể tiếp cận không:

🟢 Đã kết nối — Phiên âm đang chạy bình thường
🟡 Đang kết nối — Đang thiết lập kết nối (bình thường khi khởi động, mất 2–5 giây)
🔴 Lỗi — Mất kết nối (xem phần Khắc phục sự cố bên dưới)

Nếu bạn thấy 🔴 Lỗi, bản ghi vẫn tiếp tục an toàn—chỉ phiên âm trực tiếp bị ảnh hưởng.

Phát hiện người nói tự động

Engine AI cố gắng phân biệt giữa các giọng nói khác nhau và gán cho mỗi giọng một nhãn.

Cách hoạt động:

Dòng thời gian ghi:

0:00 ──────────────────────────────────────────────────► thời gian
        │           │           │           │
      Người nói 1   Người nói 2   Người nói 1   Người nói 2
      "Morning"   "Hello"     "Agenda…"   "Agreed"
          ▼           ▼           ▼           ▼
      [Đoạn 1]    [Đoạn 2]    [Đoạn 3]    [Đoạn 4]

Mỗi khi người nói thay đổi, hệ thống tạo một đoạn mới. Các đoạn từ cùng một người nói nhận cùng nhãn.

Nhãn ban đầu: Người nói đầu tiên là "Người nói 1", giọng mới thứ hai là "Người nói 2", v.v. Đây là các chỗ giữ tạm—bạn có thể đổi tên chúng sau (xem Chương 29).

Tinh chỉnh người nói: Khi bản ghi tiến triển, AI có thể tinh chỉnh các phép gán trước đó nếu nó tin tưởng rằng hai đoạn thuộc cùng một giọng. Điều này bình thường. Văn bản không thay đổi—chỉ có gán người nói trên các đoạn trước mới thay đổi.

Mẹo: Để tách người nói chính xác nhất, hãy sử dụng tai nghe thay vì loa. Âm thanh loa được micrô thu có thể làm rối bộ phát hiện.

Sau khi ghi dừng

Khi bạn nhấp dừng:

Xem trước "Đang nói…" hoàn thiện bất kỳ câu đang xử lý nào
Phiên âm hoàn chỉnh được lưu cùng với tệp bản ghi của bạn tự động
Không cần hành động thủ công nào

Nơi tìm phiên âm:

Mở bản ghi trong Thư viện bản ghi của bạn
Nhấp AI Insights trong bảng chi tiết
Chọn tab Phiên âm

Phiên âm cũng có thể xuất dưới dạng SRT (định dạng phụ đề) hoặc JSON từ tab AI Insights. Xem Chương 28 để biết chi tiết xuất.

Giới hạn

Hiểu những giới hạn này giúp đặt kỳ vọng thực tế:

Giới hạn	Chi tiết
Cần internet	Phiên âm trực tiếp không thể chạy ngoại tuyến. Âm thanh được xử lý bởi engine AI qua mạng.
Độ chính xác dấu thời gian	Dấu thời gian là xấp xỉ (±3 giây). Sử dụng chúng để điều hướng, không phải tài liệu pháp lý.
Tạm dừng trong ghi	Nếu bạn tạm dừng ghi, phiên âm cũng tạm dừng. Các đoạn tạm dừng không được phiên âm.
Độ chính xác thay đổi	Độ chính xác cao nhất với lời nói rõ ràng, một người nói tại một thời điểm và micrô tốt. Giọng nặng, tiếng ồn nền hoặc nhiều người nói cùng lúc giảm độ chính xác.
Ngôn ngữ	Ngôn ngữ phiên âm có thể đặt thành Tự động phát hiện (khuyến nghị) hoặc ngôn ngữ cụ thể trong Cài đặt → AI → SeaMeet Integration. Tự động phát hiện xử lý các cuộc họp đa ngôn ngữ tự động.
Không chỉnh sửa theo thời gian thực	Bạn không thể chỉnh sửa phiên âm trong khi ghi. Chỉnh sửa có sẵn sau khi ghi dừng.

Phụ đề trong khi phát lại

Khi bạn phát lại bản ghi có phiên âm trực tiếp, SeaMeet có thể hiển thị phụ đề trực tiếp trên video—giống như phụ đề kín trên TV.

Cách phụ đề hoạt động:

Văn bản phụ đề được chồng lên xem trước video ở dưới cùng của khung hình
Mỗi đoạn hiển thị tên người nói (được mã màu theo người nói) và văn bản đã nói
Phụ đề được đồng bộ với vị trí phát lại—chúng tiến theo khi bản ghi phát
Phụ đề tự động sử dụng phiên âm Gemini Live từ phiên

Màu sắc người nói: Mỗi người nói được gán màu nhất quán trên tất cả phụ đề và bảng phiên âm. Màu sắc được xác định tự động và duy trì nhất quán trong suốt bản ghi.

Định dạng phụ đề:

[Người nói 1]: Good morning everyone, let's get started.

Phụ đề xuất hiện và biến mất khi đoạn phiên âm tương ứng phát.

Bố cục video hai cột

Khi xem bản ghi video với phiên âm trực tiếp có sẵn, SeaMeet sử dụng bố cục hai cột:

┌─────────────────────────────────────────────────────┐
│  Xem trước video           │  Bảng phiên âm          │
│                            │                         │
│  [video với phụ đề]        │  Người nói 1   0:00:12  │
│                            │  "Good morning..."      │
│                            │                         │
│                            │  Người nói 2   0:00:24  │
│                            │  "Thanks for joining"   │
│                            │              [⤢ Tối đa] │
└─────────────────────────────────────────────────────┘

Cột trái: Video có chiều rộng cố định với lớp phụ đề
Cột phải: Bảng phiên âm cuộn, đồng bộ với vị trí phát lại
Nút phóng to (⤢): Mở rộng bảng phiên âm thành lớp phủ toàn màn hình để đọc dễ dàng hơn trong các bản ghi dài

Bố cục hai cột chỉ xuất hiện cho bản ghi video có phiên âm trực tiếp. Bản ghi chỉ âm thanh và bản ghi không có phiên âm sử dụng bố cục một cột chuẩn.

Cài đặt ngôn ngữ cho phiên âm

Bạn có thể cấu hình ngôn ngữ nào SeaMeet mong đợi trong khi phiên âm trực tiếp:

Mở Cài đặt (⚙️)
Điều hướng đến AI → SeaMeet Integration
Tìm bộ chọn Ngôn ngữ cuộc họp
Chọn ngôn ngữ của bạn:
- Tự động phát hiện (mặc định, khuyến nghị) — SeaMeet tự động xác định ngôn ngữ được nói. Tốt nhất cho các cuộc họp đa ngôn ngữ hoặc khi ngôn ngữ thay đổi.
- Chọn thủ công — Chọn từ 20+ ngôn ngữ cụ thể bao gồm tiếng Anh (Mỹ/Anh), tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Nhật, tiếng Quan thoại, tiếng Quảng Đông, tiếng Hàn và nhiều hơn nữa.

Mẹo: Để ngôn ngữ ở Tự động phát hiện trừ khi bạn có lý do cụ thể để buộc một ngôn ngữ. Phát hiện tự động xử lý giọng và các cuộc họp đa ngôn ngữ tốt hơn cài đặt thủ công buộc.

Khắc phục sự cố

"Bảng phiên âm không xuất hiện"

Triệu chứng: Bạn bắt đầu ghi nhưng bảng phiên âm không bao giờ hiển thị.

Kiểm tra theo thứ tự này:

Đi đến Cài đặt → AI và xác nhận nút bật/tắt Tính năng AI đang bật
Xác nhận Khóa API của bạn hợp lệ (dấu kiểm xanh trong Cài đặt → AI)
Kiểm tra kết nối internet của bạn — thử tải trang web
Khởi động lại SeaMeet và thử lại

Nếu bảng vẫn không xuất hiện sau cả bốn bước, dịch vụ AI có thể tạm thời không khả dụng. Bản ghi không bị ảnh hưởng—thử lại sau.

"Kết nối bị ngắt giữa chừng khi ghi"

Triệu chứng: Chỉ báo trạng thái chuyển sang 🔴 đỏ trong khi ghi.

Điều gì đã xảy ra: Kết nối đến engine AI bị gián đoạn. Điều này có thể xảy ra do:

Gián đoạn mạng tạm thời
Wi-Fi chuyển điểm truy cập
Dịch vụ AI bị tắt ngắn

Phải làm gì:

Đừng dừng ghi—nó tiếp tục an toàn
Kiểm tra kết nối internet của bạn
Kết nối thường tự khôi phục trong vòng 30 giây
Các từ được nói trong khoảng thời gian mất kết nối không được khôi phục—chúng bị mất cho phiên âm trực tiếp (nhưng âm thanh vẫn còn trong tệp bản ghi, vì vậy bạn có thể chạy AI Extraction sau—xem Chương 28)

"Người nói không được gắn nhãn đúng"

Triệu chứng: Nhiều người được gắn nhãn là "Người nói 1", hoặc một người xuất hiện là hai người nói khác nhau.

Điều gì đang xảy ra: Phát hiện người nói sử dụng đặc điểm giọng nói. Độ chính xác giảm khi:

Nhiều người nói cùng một lúc
Giọng nói của người nói thay đổi đáng kể (cười, nói to, âm thanh kém)
Tiếng ồn nền cản trở

Phải làm gì:

Sau khi ghi, đổi tên người nói trong bảng Người nói (xem Chương 29)
Sử dụng tính năng Hợp nhất để kết hợp hai nhãn thuộc cùng một người (Chương 29)

Thực hành tốt nhất

Thực hiện các thực hành này để có kết quả phiên âm trực tiếp tốt nhất:

Một người nói tại một thời điểm Nhiều người nói cùng lúc (hai người nói đồng thời) làm rối phát hiện người nói và tạo ra văn bản lộn xộn trong phiên âm. Khuyến khích người tham gia lần lượt phát biểu.

Môi trường ghi yên tĩnh Tiếng ồn nền—hệ thống điều hòa không khí, gõ phím, tiếng ồn đường phố—được micrô thu và giảm độ chính xác phiên âm. Micrô tai nghe đặt gần miệng cho kết quả tốt hơn nhiều so với micrô laptop tích hợp.

Vị trí micrô tốt Đối với các cuộc họp trực tiếp với nhiều người tham gia, đặt micrô gần trung tâm bàn, hoặc sử dụng micrô riêng lẻ cho mỗi người tham gia.

Kết nối internet ổn định Sử dụng kết nối có dây hoặc tín hiệu Wi-Fi mạnh. Tránh điểm phát sóng hoặc mạng có mất gói cao—chúng gây ra ngắt kết nối.

Đổi tên người nói kịp thời Thực hiện đổi tên người nói ngay sau khi ghi trong khi bạn còn nhớ ai đã nói gì. Xem Chương 29 để biết hướng dẫn.

Tham khảo nhanh

┌────────────────────────────────────────────────────────────┐
│                  PHIÊN ÂM TRỰC TIẾP                        │
│                   Tham khảo nhanh                          │
├────────────────────────────────────────────────────────────┤
│  Bắt đầu          │ Ghi bình thường — tự động kích hoạt    │
│  Trạng thái: xanh │ 🟢 Phiên âm đang chạy                  │
│  Trạng thái: vàng │ 🟡 Đang kết nối (chờ 5 giây)           │
│  Trạng thái: đỏ   │ 🔴 Mất kết nối — ghi vẫn an toàn       │
├────────────────────────────────────────────────────────────┤
│  Bảng phiên âm    │ Phía bên phải cửa sổ chính             │
│  Dòng xem trước   │ "Đang nói…" — đang xử lý               │
│  Dòng đã hoàn thành │ Cuối cùng — sẽ không thay đổi        │
├────────────────────────────────────────────────────────────┤
│  Sau khi dừng     │ Phiên âm được lưu tự động              │
│  Tìm ở đây        │ Bản ghi → AI Insights → Phiên âm       │
├────────────────────────────────────────────────────────────┤
│  Yêu cầu          │ Internet + Tính năng AI bật + Khóa API │
│  Dấu thời gian    │ Xấp xỉ ±3 giây                         │
│  Tạm dừng         │ Không được phiên âm                    │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← Chương 26: Bảng thuật ngữ | Chương 28: AI Extraction →

Phiên âm trực tiếp - Chữ hiện ra khi bạn nói