Trích Xuất AI - Để SeaMeet Ghi Chép Thay Bạn
Chương 28: Trích Xuất AI — Để SeaMeet Ghi Chép Thay Bạn
Hãy tưởng tượng thuê một trợ lý tham dự mọi cuộc họp, viết tóm tắt, rút ra các mục hành động, đánh dấu các quyết định quan trọng và ghi lại thời gian cho mọi thay đổi chủ đề — trong khi bạn chỉ tập trung vào cuộc trò chuyện. Đó chính xác là những gì Trích Xuất AI thực hiện. Trỏ nó vào bất kỳ bản ghi âm nào trong thư viện của bạn và nó trả về năm đầu ra có cấu trúc: bản phiên âm đầy đủ, tóm tắt ngắn gọn, mục hành động, quyết định quan trọng và các chương có dấu thời gian.
Không gõ phím. Không tua lại. Không đoán xem điều gì đã được quyết định.
Mục Tiêu Chương
Sau khi đọc chương này, bạn sẽ có thể:
- Hiểu Trích Xuất AI tạo ra gì và khi nào nên sử dụng
- Thiết lập các điều kiện tiên quyết
- Tạo bản trích xuất đầu tiên của bạn
- Điều hướng và sử dụng từng tab trong năm tab đầu ra
- Sử dụng OCR chụp màn hình để tự động trích xuất văn bản và sao chép vào clipboard
- Tái tạo kết quả và hiểu cách các phiên bản trước được lưu giữ
- Xuất kết quả ở nhiều định dạng
- Khắc phục sự cố trích xuất thường gặp
Trích Xuất AI Là Gì?
Trích Xuất AI là quy trình phân tích sau ghi âm. Sau khi bản ghi âm của bạn hoàn tất, bạn kích hoạt nó bằng một cú nhấp chuột. Công cụ AI xử lý âm thanh và trả về năm đầu ra có cấu trúc:
| Tab | Nội dung |
|---|---|
| Transcript | Văn bản từng chữ có dấu thời gian của tất cả những gì đã nói |
| Summary | Tổng quan ngắn gọn về những gì đã thảo luận |
| Actions | Các nhiệm vụ được xác định từ cuộc trò chuyện, cùng người được giao và ngày đến hạn khi được đề cập |
| Decisions | Các lựa chọn quan trọng đã được đưa ra trong cuộc họp |
| Chapters | Các phân đoạn chủ đề được lập chỉ mục theo thời gian — như các chương trong sách |
Hãy nghĩ như thế này: Bản ghi âm là cảnh quay thô. Trích Xuất AI là biên tập viên xem qua và biến nó thành thứ gì đó có cấu trúc và hữu dụng.
Trích Xuất AI hoạt động trên bất kỳ bản ghi âm nào trong thư viện của bạn — bất kể bạn có sử dụng Phiên âm trực tiếp trong quá trình ghi âm hay không. Nếu Phiên âm trực tiếp đã chạy, Trích Xuất vẫn có thể là một lần xem xét thứ hai hữu ích, tạo ra các tóm tắt và đầu ra có cấu trúc mà Phiên âm trực tiếp đơn thuần không cung cấp.
Trước Khi Bắt Đầu
Yêu Cầu
- Tính năng AI đã bật: Cài đặt → AI → bật
- Khóa API đã cấu hình: Cài đặt → AI → trường Khóa API (dấu kiểm màu xanh = hợp lệ)
- Kết nối internet đang hoạt động trong quá trình trích xuất
- Một bản ghi âm trong thư viện của bạn — bất kỳ tệp âm thanh hoặc video nào mà SeaMeet đã ghi âm hoặc nhập
Trích xuất mất bao lâu?
Thời gian xử lý tăng theo độ dài bản ghi âm:
| Độ dài bản ghi âm | Thời gian ước tính |
|---|---|
| Dưới 15 phút | 20–40 giây |
| 15–60 phút | 1–3 phút |
| 1–2 giờ | 3–6 phút |
| Hơn 2 giờ | 5–10 phút |
Đây là ước tính. Thời gian thực tế phụ thuộc vào tải máy chủ và tốc độ internet của bạn.
Tạo Bản Trích Xuất Đầu Tiên
-
Mở một bản ghi âm từ Thư Viện Ghi Âm của bạn
- Bạn thấy gì: Bảng chi tiết bản ghi âm mở ra ở phía bên phải, hiển thị trình phát và thông tin bản ghi âm.
-
Nhấp vào tab "AI Insights" trong bảng chi tiết
- B ạn thấy gì: Bảng AI Insights xuất hiện với lời nhắc "Generate Summary" nếu chưa có bản trích xuất nào được chạy. Biểu tượng ✨ đánh dấu nút.
-
Nhấp vào ✨ "Generate Summary"
- Bạn thấy gì: Nhãn nút thay đổi thành biểu tượng xoay. Thanh tiến trình hoặc thông báo trạng thái ("Analysing audio…", "Generating summary…") cập nhật khi AI xử lý nội dung.
-
Đợi kết quả
- Bạn thấy gì: Khi hoàn tất, năm tab được điền nội dung. Thanh tab ở đầu bảng AI Insights hiển thị: Transcript · Summary · Actions · Decisions · Chapters.
-
Duyệt qua các tab (xem các phần bên dưới để biết cần tìm gì trong mỗi tab)
Hiểu Từng Tab
Transcript (Phiên Âm)
Tab Transcript hiển thị văn bản đầy đủ từng chữ của bản ghi âm, được chia thành các phân đoạn với dấu thời gian và nhãn người nói.
┌──────────────────────────────────────────────────────────┐
│ Transcript │ Summary │ Actions │ Decisions │ Chapters │
├──────────────────────────────────────────────────────────┤
│ Người nói 1 ► 0:00:08 │
│ "Chào buổi sáng mọi người. Hãy bắt đầu với │
│ đánh giá ngân sách Q3." │
│ │
│ Người nói 2 ► 0:00:21 │
│ "Cảm ơn. Tôi đã chuẩn bị các slide. Chúng ta bắt đầu │
│ với doanh thu hay chi phí?" │
│ │
│ Người nói 1 ► 0:00:30 │
│ "Doanh thu trước. Alice, bạn có thể trình bày không?" │
└──────────────────────────────────────────────────────────┘
Nhấp vào dấu thời gian (liên kết ► 0:00:08 bên cạnh mỗi phân đoạn) sẽ chuyển trình phát âm thanh/video đến thời điểm chính xác đó. Điều này giúp nhanh chóng xác minh một trích dẫn hoặc tìm một cuộc thảo luận cụ thể mà không cần tua thủ công.
Nhãn người nói mặc định là "Speaker 1", "Speaker 2", v.v. Bạn có thể đổi tên — xem Chương 29.
Summary (Tóm Tắt)
Tab Summary chứa tổng quan ngắn gọn về những gì đã xảy ra trong bản ghi âm. Đây không phải là danh sách gạch đầu dòng của các từ được phiên âm — đây là tổng quan tổng hợp nắm bắt các điểm chính được thảo luận.
Ví dụ (cho cuộc họp ngân sách 45 phút):
Nhóm đã xem xét hiệu suất doanh thu Q3, vượt 8% so với dự báo. Chi tiêu vượt mức trong ngân sách tiếp thị được xác định là mối lo ngại chính khi bước vào Q4. Alice đề xuất giảm 15% chi tiêu quảng cáo trả phí, được chấp thuận chờ phê duyệt cuối cùng từ bộ phận tài chính. Nhóm đồng ý họp lại vào thứ Ba tuần sau để xem xét các dự báo đã sửa đổi.
Tóm tắt được thiết kế để có thể chia sẻ — bạn có thể sao chép nó vào email, công cụ quản lý dự án hoặc tài liệu mà không cần chỉnh sửa.
Actions (Hành Động)
Tab Actions liệt kê các nhiệm vụ đã được giao một cách rõ ràng hoặc ngầm định trong bản ghi âm.
┌──────────────────────────────────────────────────────────┐
│ Hành Động │
├──────────────────────────────────────────────────────────┤
│ □ Giảm chi tiêu quảng cáo trả phí 15% │
│ Giao cho: Alice · Hạn: Trước cuộc họp thứ Ba │
│ ► 0:32:14 (trong bản ghi âm) │
│ │
│ □ Gửi dự báo Q4 đã sửa đổi cho nhóm │
│ Giao cho: Nhóm tài chính · Hạn: Thứ Sáu │
│ ► 0:41:08 (trong bản ghi âm) │
│ │
│ □ Lên lịch cuộc họp tiếp theo vào thứ Ba │
│ Giao cho: (chưa xác định) · Không có hạn chót │
│ ► 0:43:55 (trong bản ghi âm) │
└──────────────────────────────────────────────────────────┘
Mỗi hành động bao gồm:
- Nhiệm vụ — cần làm gì
- Người được giao — ai được yêu cầu làm (nếu được đề cập)
- Ngày đến hạn — khi nào cần (nếu được đề cập)
- Liên kết dấu thời gian — chuyển đến nơi điều này được thảo luận trong bản ghi âm
Lưu ý: AI trích xuất hành động từ những gì đã được nói. Nếu điều gì đó được thảo luận nhưng không có sự phân công rõ ràng, nó có thể hoặc không xuất hiện ở đây. Luôn xác minh với bản ghi âm hoặc phiên âm.
Decisions (Quyết Định)
Tab Decisions liệt kê các lựa chọn và thỏa thuận quan trọng đạt được trong bản ghi âm.
┌──────────────────────────────────────────────────────────┐
│ Quyết Định │
├──────────────────────────────────────────────────────────┤
│ ✓ Đã phê duyệt giảm 15% chi tiêu quảng cáo trả phí Q4│
│ ► 0:32:14 │
│ │
│ ✓ Hiệu suất doanh thu Q3 được chấp nhận là cuối cùng │
│ (không kiểm tra lại) │
│ ► 0:12:45 │
│ │
│ ✓ Cuộc họp tiếp theo thứ Ba đã được xác nhận │
│ ► 0:43:55 │
└──────────────────────────────────────────────────────────┘
Quyết định khác với hành động: quyết định là điều gì đã được thống nhất, trong khi hành động là điều ai đó phải làm do kết quả đó.
Chapters (Chương)
Tab Chapters chia bản ghi âm thành các phân đoạn chủ đề được lập chỉ mục theo thời gian, như các chương trong sách hoặc các chương trên DVD.
┌──────────────────────────────────────────────────────────┐
│ Chương │
├──────────────────────────────────────────────────────────┤
│ ► 0:00:00 Giới thiệu & sự vụ đầu buổi 3 phút │
│ ► 0:03:10 Đánh Giá Doanh Thu Q3 12 phút │
│ ► 0:15:22 Phân tích chi phí — Tiếp thị 10 phút │
│ ► 0:25:41 Đề Xuất Ngân Sách Q4 18 phút │
│ ► 0:43:30 Kết thúc & bước tiếp theo 4 phút │
└──────────────────────────────────────────────────────────┘
Nhấp vào bất kỳ chương nào sẽ chuyển trình phát đến thời gian bắt đầu của chủ đề đó. Nếu bạn muốn nghe lại chỉ cuộc thảo luận về đề xuất ngân sách, hãy nhấp vào ► 0:25:41.
Các chương đặc biệt hữu ích cho các bản ghi âm dài nơi bạn muốn tìm nhanh một chủ đề cụ thể.
Đề Xuất Đổi Tên Tệp Bởi AI
Sau khi Trích Xuất AI hoàn tất, AI có thể đề xuất tên tệp mô tả hơn cho bản ghi âm của bạn dựa trên nội dung cuộc họp. Một banner xuất hiện ở đầu bảng AI Insights:
┌──────────────────────────────────────── ──────────────────────┐
│ Tên tệp mới: Đánh Giá Ngân Sách Q3 — Cuộc Họp Nhóm 15 Oct │
│ [ Rename ] │
└──────────────────────────────────────────────────────────────┘
Để áp dụng tên được đề xuất:
- Nhấp vào Rename — tệp ghi âm và mục thư viện của nó được đổi tên ngay lập tức.
- Banner đề xuất biến mất sau khi đổi tên.
Để giữ tên gốc của bạn:
- Bỏ qua banner — nó không tự động áp dụng và biến mất nếu bạn điều hướng đi nơi khác.
Lưu ý: Đề xuất dựa trên nội dung cuộc họp. Đối với bản ghi âm chung chung hoặc ngắn, tên được đề xuất có thể tương tự tên gốc của bạn. Bạn luôn có quyền quyết định cuối cùng.
Chọn Mô Hình Gemini
SeaMeet tìm nạp các mô hình Gemini có sẵn từ API của Google một cách động — danh sách mô hình luôn cập nhật khi Google phát hành các phiên bản mới.
Mô hình nào được sử dụng:
- SeaMeet tự động lọc các mô hình hỗ trợ văn bản, hình ảnh và âm thanh (cần thiết cho phân tích cuộc họp)
- Chỉ các mô hình có khả năng và hiện tại được hiển thị — các mô hình cũ hơn hoặc bị giới hạn bị loại trừ
- Danh sách được sắp xếp với các mô hình mới nhất/có khả năng nhất ở đầu
Bạn có thể xem và thay đổi mô hình đang hoạt động trong Cài đặt → AI → Mô hình. Mặc định là mô hình có khả năng nhất hiện có. Hiếm khi có lý do để thay đổi điều này trừ khi bạn cần giảm chi phí hoặc giải quyết giới hạn cụ thể của một mô hình.
OCR Chụp Màn hình — Tự Động Trích Xuất Văn Bản và Sao Chép vào Clipboard
Trích Xuất AI không chỉ giới hạn ở bản ghi âm. Khi bạn chụp màn hình với tùy chọn "Extract text (OCR) and copy to clipboard" được bật, SeaMeet tự động chạy OCR trên hình ảnh đã chụp và sao chép văn bản trích xuất vào clipboard.
Cách hoạt động
- Trước khi chụp: Đánh dấu ô "Extract text (OCR) and copy to clipboard" trong Capture Hub hoặc lớp phủ Bộ Chọn Vùng
- Chụp màn hình (Full Screen hoặc Area Capture)
- Đợi ~15–30 giây — pipeline AI xử lý hình ảnh trong nền
- Văn bản được sao chép vào clipboard — thông báo xác nhận "Extracted text copied to clipboard"
- Dán bất cứ đâu — Cmd+V / Ctrl+V dán văn bản đã trích xuất
Pipeline OCR chạy hoàn toàn trong nền. Bạn có thể tiếp tục sử dụng SeaMeet hoặc chuyển sang ứng dụng khác trong khi xử lý. Clipboard được cập nhật tự động khi trích xuất hoàn tất.
Tìm cài đặt ở đâu
Tùy chọn tự động sao chép OCR xuất hiện ở ba nơi:
| Vị trí | Điều khiển |
|---|---|
| Capture Hub (bảng Chụp Màn hình) | Bật/tắt theo lần chụp — ô đánh dấu bên dưới bộ chọn chế độ chụp |
| Lớp phủ Bộ Chọn Vùng | Bật/tắt theo lần chụp — ô đánh dấu gần "Capture Screen or Press Enter" |
| Cài đặt → Trích Xuất & Tóm Tắt AI | Mặc định bật/tắt — nút "Tự động trích xuất văn bản (OCR) khi chụp màn hình" |
Cả ba vị trí luôn đồng bộ. Bật/tắt ở bất kỳ vị trí nào sẽ cập nhật các vị trí khác.
Yêu cầu
- Khóa API Gemini đã cấu hình (hoặc đăng ký đang hoạt động với khóa được quản lý)
- Tính năng AI đã bật trong Cài đặt
Nếu không có Khóa API, ô đánh dấu sẽ bị xám và hiển thị "(API key required, subscribe here)" với liên kết đến cổng đăng ký.
Những gì được trích xuất
Pipeline OCR trích xuất tất cả văn bản hiển thị từ ảnh chụp màn hình — bao gồm:
- Nhãn giao diện, menu và nút
- Nội dung tài liệu và trang web
- Thông báo lỗi và văn bản hộp thoại
- Mã nguồn và đầu ra terminal
- Văn bản viết tay (nếu đọc được)
Văn bản trích xuất cũng được lưu trong bảng Trích Xuất AI của ảnh chụp màn hình dưới tab Text (OCR), để bạn có thể xem lại hoặc sao chép lại sau.
Tái Tạo
Nếu bạn không hài lòng với kết quả, hoặc nếu bạn muốn phân tích mới sau khi đổi tên người nói, bạn có thể tái tạo.
-
Nhấp vào nút ⟳ (tái tạo) trong thanh tab
- B ạn thấy gì: Nút quay. Thông báo ngắn "Processing…" thay thế nội dung.
-
Đợi (cùng thời gian như lần tạo ban đầu)
- Bạn thấy gì: Tất cả năm tab được làm mới với kết quả mới.
-
Xem xét kết quả mới
Quan trọng: Trước khi ghi đè kết quả của bạn, SeaMeet tự động lưu trữ bản trích xuất trước như một ảnh chụp phiên bản. Không có gì bị mất. Bạn có thể duyệt qua các phiên bản trước bất kỳ lúc nào — xem Chương 29, Phần B.
Xuất Kết Quả
Thanh tab bao gồm các nút xuất cho phép bạn đưa kết quả ra ngoài SeaMeet:
[Transcript] [Summary] [Actions] [Decisions] [Chapters] · [MD] [SRT] [JSON] [⟳]
| Nút | Định dạng | Tốt nhất cho |
|---|---|---|
| MD | Markdown | Ứng dụng ghi chú (Notion, Obsidian), tài liệu |
| SRT | Phụ đề SubRip | Thêm phụ đề vào tệp video (iMovie, Premiere, YouTube) |
| JSON | Dữ liệu JSON | Nhà phát triển, nhập vào công cụ khác |
Tab nào đang hoạt động xác định những gì được xuất:
- Trên tab Summary → MD xuất văn bản tóm tắt
- Trên tab Transcript → SRT xuất bản phiên âm có dấu thời gian dưới dạng phụ đề
- Trên tab Actions → MD hoặc JSON xuất danh sách mục hành động
Mẹo: Xuất trước khi tái tạo nếu bạn muốn bản sao độc lập của kết quả hiện tại — mặc dù điều này không nhất thiết cần thiết vì lịch sử phiên bản tự động lưu giữ kết quả trước (xem Chương 29).
Khắc Phục Sự Cố
"Trích xuất thất bại"
Triệu chứng: Biểu tượng xoay dừng lại và thông báo lỗi xuất hiện: "Extraction failed" hoặc "Something went wrong."
Thử theo thứ tự này:
- Kiểm tra kết nối internet — thử tải một trang web
- Xác minh Khóa API của bạn vẫn hợp lệ (Cài đặt → AI → tìm dấu kiểm màu xanh)
- Đợi 2–3 phút và thử lại — dịch vụ AI có thể tạm thời bị quá tải
- Nếu bản ghi âm rất dài (2+ giờ), hãy thử chia nhỏ hoặc cho phép thêm thời gian xử lý
"Tóm tắt có vẻ chưa đầy đủ"
Triệu chứng: Tóm tắt ngắn, bỏ lỡ các chủ đề quan trọng, hoặc có vẻ chung chung.
Nguyên nhân có thể:
- Chất lượng âm thanh kém — lỗi phiên âm dẫn đến lỗi trích xuất. Kiểm tra tab Transcript để tìm các phân đoạn bị lỗi.
- Bản ghi âm chứa ít giọng nói — nếu âm thanh hệ thống chiếm ưu thế (nhạc, phát video), AI có thể có ít lời nói để làm việc
- Bản ghi âm rất ngắn — các bản ghi âm dưới 2 phút tạo ra tóm tắt hạn chế
Nên thử:
- Chạy lại trích xuất với ⟳ sau khi đổi tên người nói và xem lại bản phiên âm
- Cải thiện vị trí micrô cho các bản ghi âm trong tương lai
"Các mục hành động trống"
Triệu chứng: Tab Actions trống ngay cả sau cuộc họp rõ ràng có các nhiệm vụ được giao.
Điều đang xảy ra: AI trích xuất hành động từ ngôn ngữ rõ ràng ("Can you…", "I'll handle…", "Let's make sure…"). Các cam kết ngầm định hoặc không chính thức có thể bị bỏ qua.
Nên thử:
- Kiểm tra tab Transcript — nếu cuộc trò chuyện không chính thức, AI có thể không xác định được ngôn ngữ hành động rõ ràng
- Đây là hành vi dự kiến cho các cuộc trò chuyện thông thường, khám phá hơn là cuộc họp có cấu trúc
Thực Hành Tốt Nhất
Âm thanh chất lượng cao hơn → kết quả tốt hơn Mỗi bước trích xuất phụ thuộc vào độ chính xác của phiên âm. Bản ghi âm được thực hiện với micrô chất lượng trong phòng yên tĩnh sẽ cho kết quả tốt hơn đáng kể so với bản có tiếng ồn nền và tiếng vang. Hãy đầu tư vào tai nghe micrô tốt cho các bản ghi âm cuộc họp thường xuyên.
Ghi âm cả micrô và âm thanh hệ thống Nếu bạn đang ghi âm cuộc họp ảo (Zoom, Teams, Google Meet), hãy sử dụng chế độ âm thanh "Both" để âm thanh hệ thống (những người tham gia khác) được thu lại cùng với micrô của bạn. Trích xuất từ cuộc trò chuyện một chiều cho kết quả một chiều.
Đổi tên người nói trước khi tái tạo Tên người nói xuất hiện trong các tab Summary và Actions. Đổi tên "Speaker 1" thành "Alice" trước khi nhấp vào ⟳ tạo ra tóm tắt dễ đọc hơn nhiều. Xem Chương 29 để biết cách đổi tên người nói.
Bản ghi âm dài hơn tạo ra tóm tắt phong phú hơn Cuộc họp 5 phút sẽ tạo ra tóm tắt ngắn. Cuộc thảo luận chiến lược 45 phút sẽ tạo ra tóm tắt chi tiết, có cấu trúc với các phần rõ ràng. Trích Xuất AI có giá trị nhất cho các bản ghi âm thực chất.
Sử dụng Chapters để điều hướng Đối với các bản ghi âm trên 20 phút, luôn kiểm tra tab Chapters trước. Nó cung cấp bản đồ của cuộc thảo luận, giúp nhảy đến phần bạn quan tâm nhanh hơn nhiều.
Tham Khảo Nhanh
┌────────────────────────────────────────────────────────────┐
│ TRÍCH XUẤT AI │
│ Tham Khảo Nhanh │
├────────────────────────────────────────────────────────────┤
│ Kích hoạt │ Tab AI Insights → ✨ Generate Summary │
│ Tái tạo │ Nút ⟳ trong thanh tab │
│ Kết quả trước │ Được lưu trữ an toàn — xem Chương 29 │
├────────────────────────────────────────────────────────────┤
│ Phiên âm │ Văn bản đầy đủ + timestamps, nhấp │
│ Tóm tắt │ Tổng quan tường thuật về thảo luận │
│ Hành động │ Nhiệm vụ + người giao + ngày hạn │
│ Quyết định │ Thỏa thuận và lựa chọn đã thực hiện │
│ Chương │ Bản đồ chủ đề theo thời gian, nhấp │
├────────────────────────────────────────────────────────────┤
│ Xuất: MD │ Markdown — cho ứng dụng ghi chú │
│ Xuất: SRT │ Phụ đề — cho trình chỉnh sửa video │
│ Xuất: JSON │ Dữ liệu có cấu trúc — cho nhà phát triển│
├────────────────────────────────────────────────────────────┤
│ OCR màn hình │ Tự trích xuất văn bản + sao clipboard │
│ Cài đặt OCR │ Ô Capture Hub hoặc Cài đặt → AI │
├────────────────────────────────────────────────────────────┤
│ Yêu cầu │ Internet + Tính năng AI + Khóa API │
│ Hoạt động trên │ Bất kỳ ghi âm hoặc ảnh chụp màn hình │
└────────────────────────────────────────────────────────────┘
Cập nhật lần cuối: 2026-03-27
← Chương 27: Phiên Âm Trực Tiếp | Chương 29: Chỉnh Sửa Kết Quả AI →
Published: