การถอดความสด — คำพูดบนหน้าจอขณะที่คุณพูด
บทที่ 27: การถอดความสด — คำพูดบนหน้าจอขณะที่คุณพูด
ลองนึกถึงนักจดบันทึกในศาลที่พิมพ์ขณะเซสชันดำเนินไป ทุกคำถูกบันทึกในทันทีที่พูด ไม่ต้องรอให้การประชุมสิ้นสุด นั่นคือสิ่งที่การถอดความสดของ SeaMeet ทำให้กับการบันทึกของคุณ ขณะที่คุณพูด แผงถอดความจะเติมขึ้นแบบ real time: ป้ายชื่อผู้พูด การประทับเวลา และคำพูดจริงๆ ปรากฏขึ้นทั้งหมดขณะที่การสนทนาเกิดขึ้น
ไม่ต้องรอ ไม่มีขั้นตอนอัปโหลด แค่คำพูดบนหน้าจอ
วัตถุประสงค์บท
หลังจ ากอ่านบทนี้ คุณจะสามารถ:
- เข้าใจว่าการถอดความสดทำอะไรและเมื่อใดควรใช้
- ตั้งค่าข้อกำหนดเบื้องต้นก่อนเริ่ม
- เริ่มเซสชันการบันทึกที่เปิดใช้การถอดความสด
- อ่านและตีความแผงถอดความขณะบันทึก
- เข้าใจว่าการตรวจจับผู้พูดอัตโนมัติทำงานอย่างไร
- แก้ไขปัญหาการเชื่อมต่อและการแสดงผลที่พบบ่อยที่สุด
การถอดความสดคืออะไร?
การถอดความสดแปลงเสียงจากการบันทึกเป็นข้อความ ขณะที่คุณบันทึก สร้างถอดความที่มีการป ระทับเวลาและป้ายชื่อผู้พูดแบบ real time
คิดแบบนี้: ลองนึกถึงพนักงานพิมพ์ดีดที่นั่งอยู่ข้างๆ คุณในทุกการประชุม เขียนทุกอย่างที่พูดทันที ระบุคำพูดของแต่ละคนและจดเวลาที่แน่ชัดที่พูด ถอดความนั้นพร้อมใช้งานทันทีที่การประชุมสิ้นสุด ไม่มีการหน่วงเวลาถอดความ ไม่มี spinner "กำลังประมวลผลเสียงของคุณ"
การถอดความสดทำงานควบคู่กับเซสชันการบันทึกของคุณ ในทันทีที่คุณเริ่มบันทึก:
- เอนจิน AI เริ่มฟัง
- คำพูดปรากฏในแผงถอดความภายในไม่กี่วินาทีหลังจากพูด
- ป้ายชื่อผู้พูด ("Speaker 1", "Speaker 2") ถูกกำหนดโดยอัตโนมัติ
- การประทับเวลาระบุว่าในการบันทึกแต่ละส่วนอยู่ที่ตำแหน่งใด
เมื่อคุณหยุดบันทึก ถอดความที่สมบูรณ์จะถูกบันทึกโด ยอัตโนมัติควบคู่กับไฟล์เสียง/วิดีโอ
ก่อนเริ่มต้น
การถอดความสดต้องการการกำหนดค่าสองอย่างก่อนเซสชันแรก:
1. เปิดใช้ฟีเจอร์ AI
- เปิด ตั้งค่า (ไอคอนฟันเฟือง ⚙️ ที่มุมขวาบน)
- ไปที่หมวด AI
- ยืนยันว ่าสวิตช์ ฟีเจอร์ AI เปิด ON (สีน้ำเงิน)
ถ้าสวิตช์เป็นสีเทาหรือหมวด AI หายไป ให้ติดต่อผู้ดูแลระบบบัญชีของคุณ ฟีเจอร์ AI อาจต้องการการสมัครสมาชิกที่ใช้งานอยู่
2. กำหนดค่าคีย์ API
ยังอยู่ใน ตั้งค่า → AI:
- มองหาฟิลด์ คีย์ API
- ป้อนคีย์ API Gemini ของคุณ (ดูบทที่ 31 สำหรับวิธีรับ)
- คลิก บันทึก
เครื่องหมายถูกสีเขียวยืนยันว่าคีย์ถูกต้อง คำเตือนสีแดงหมายความว่าคีย์ไม่ถ ูกต้องหรือหมดอายุ
หมายเหตุ: คุณต้องการการเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้ระหว่างการบันทึก การถอดความสดไม่สามารถทำงานออฟไลน์ได้
วิธีเริ่มเซสชันการถอดความสด
การเริ่มการถอดความสดเหมือนกับการเริ่มการบันทึกใดๆ ไม่มี "โหมดถอดความ" แยกต่างหากที่ต้องเปิดใช้ ถ้าเปิดใช้ฟีเจอร์ AI และกำหนดค่าคีย์ API แล้ว การถอดความสดจะทำงานโดยอัตโนมัติ
ทีละขั้นตอน:
-
คลิกปุ่มบันทึกสีแดง 🔴 (หรือใช้แป้นพิมพ์ลัด:
Ctrl+Alt+Aบน Windows,Cmd+Shift+Aบน macOS)- สิ่งที่คุณเห็น: ปุ่มกะพริบสีแดง ตัวจับเวลาการบันทึกเริ่มนับขึ้น
-
ดูแผงถอดความปรากฏ
- สิ่งที่คุณเห็น: แผงเลื่อนเข้ามาที่ด้านขวาของหน้าต่างหลัก (หรือด้านล่างเครื่องเล่น ขึ้นอยู่กับเค้าโครงของคุณ) มันแสดง "กำลังเชื่อมต่อ..." สั้นๆ
-
พูดตามปกติ
- สิ่งที่คุณเห็น: หลัง 2–5 วินาที ข้อความเริ่มปรากฏ วลีล่าสุดแสดงแอนิเมชันที่ละเอียดอ่อนขณะยังประมวลผลอยู่
-
ดำเนินการประชุมหรือบันทึกต่อตามปกติ
- สิ่งที่คุณเห็น: ส่วนที่เสร็จสมบูรณ์เรียงซ้อนกันตามลำดับเวลา แต่ละส่วนมีป้ายชื่อผู้พูดและการประทับเวลา
-
หยุดบันทึกเมื่อเสร็จ
- สิ่งที่คุณเห็น: ปุ่มกลับสู่สถานะไม่ทำงาน การแจ้งเตือน "กำลังบันทึกถอดความ..." ปรากฏสั้นๆ แล้วหายไป ถอดความถูกจัดเก็บแล้ว
สิ่งที่คุณเห็นขณะบันทึก
แผงถอดความมีสามพื้นที่หลัก:
┌─────────────────────────────────────────────┐
│ ถอดความ 🟢 เชื่อมต่อแล้ว │
├─────────────────────────────────────────────┤
│ Speaker 1 0:00:12 │
│ "Good morning everyone, let's get started" │
│ │
│ Speaker 2 0:00:24 │
│ "Thanks for joining on short notice" │
│ │
│ Speaker 1 0:00:31 │
│ "Of course. First item on the agenda…" │
├─────────────────────────────────────────────┤
│ กำลังพูดอยู่… ████████░░░░ │
│ "…is the Q3 budget review" │
└─────────────────────────────────────────────┘
ความหมายของแต่ละองค์ประกอบ:
| องค์ประกอบ | ความหมาย |
|---|---|
| ป้ายชื่อผู้พูด | ใครกำลังพูด — กำหนดโดยอัตโนมัติ ("Speaker 1", "Speaker 2") |
| การประทับเวลา | เวลาในการบันทึกที่ส่วนนี้เริ่มต้น (ชั่วโมง:นาที:วินาที) |
| ข้อความที่เสร็จสมบูรณ์ | คำที่ตัดสินใจแล้ว — ไม่เปลี่ยนแปลง |
| ตัวอย่าง "กำลังพูดอยู่..." | คำพูดปัจจุบันที่ยังประมวลผล — อาจเปลี่ยนเล็กน้อย |
| ตัวบ่งชี้สถานะ | 🟢 เชื่อมต่อแล้ว · 🟡 กำลังเชื่อมต่อ · 🔴 ข้อผิดพลาด |
ตัวบ่งชี้สถานะการเชื่อมต่อ
ตัวบ่งชี้ที่มุมขวาบนของแผงบอกว่าเอนจิน AI เข้าถึงได้หรือไม่:
- 🟢 เชื่อมต่อแล้ว — การถอดความทำงานตามปกติ
- 🟡 กำลังเชื่อมต่อ — กำลังสร้างการเชื่อมต่อ (ปกติขณะเริ่ม ใช้เวลา 2–5 วินาที)
- 🔴 ข้อผิดพลาด — การเชื่อมต่อหาย (ดูการแก้ไขปัญหาด้านล่าง)
ถ้าคุณเห็น 🔴 ข้อผิดพลาด การบันทึกเองยังคงดำเนินต่อไปอย่างปลอดภัย เฉพาะการถอดความสดเท่านั้นที่ได้รับผลกระทบ
การตรวจจับผู้พูดอัตโนมัติ
เอนจิน AI พยายามแยกแยะระหว่างเสียงต่างๆ และกำหนดป้ายชื่อให้แต่ละคน
วิธีทำงาน:
ไทม์ไลน์การบันทึก:
0:00 ──────────────────────────────────────────────────► เวลา
│ │ │ │
Speaker 1 Speaker 2 Speaker 1 Speaker 2
"Morning" "Hello" "Agenda…" "Agreed"
▼ ▼ ▼ ▼
[ส่วน 1] [ส่วน 2] [ส่วน 3] [ส่วน 4]
ทุกครั้งที่ผู้พูดเปลี่ยน ระบบจะสร้างส่วนใหม่ ส่วนจากผู้พูดคนเดียวกันได้รับป้ายชื่อเดียวกัน
ป้ายชื่อเริ่มต้น: ผู้พูดคนแรกคือ "Speaker 1" เสียงใหม่คนที่สองคือ "Speaker 2" และต่อไปเรื่อยๆ สิ่งเหล่านี้เป็นตัวยึดตำแหน่ง คุณสามารถเปลี่ยนชื่อในภายหลัง (ดูบทที่ 29)
การปรับแต่งผู้พูด: ขณะที่การบันทึกดำเนินไป AI อาจปรับแต่งการกำหนดก่อนหน้าถ้ามั่นใจว่าสองส่วนเป็นเสียงเดียวกัน นี่เป็นเรื่องปกติ ข้อความไม่เปลี่ยน เฉพาะการระบุผู้พูดในส่วนก่อนหน้าเท่านั้น
เคล็ดลับ: เพื่อการแยกผู้พูดที่แม่นยำที่สุด ให้ใช้หูฟังแทนลำโพง เสียงลำโพงที่ถูกรับโดยไมโครโฟนสามารถทำให้ตัวตรวจจับสับสนได้
หลังจากการบันทึกหยุด
เมื่อคุณคลิกหยุด:
- ตัวอย่าง "กำลังพูดอยู่..." ตัดสินใจประโยคที่กำลังดำเนินอยู่
- ถอดความที่สมบูรณ์ถูกบันทึกควบคู่กับไฟล์บันทึกของคุณโดยอัตโนมัติ
- ไม่จำเป็นต้องดำเนินการด้วยตนเอง
ที่ค้นหาถอดความ:
- เปิดการบันทึกใน ไลบรารีการบันทึก ของคุณ
- คลิก AI Insights ในแผงรายละเอียด
- เลือกแท็บ ถอดความ
ถอดความยังพร้อมสำหรับส่งออกเป็น SRT (รูปแบบคำบรรยาย) หรือ JSON จากแท็บ AI Insights ดูบทที่ 28 สำหรับรายละเอียดการส่งออก
ข้อจำกัด
การเข้าใจข้อจำกัดเหล่านี้ช่วยตั้งความคาดหวังที่สมจริง:
| ข้อจำกัด | รายละเอียด |
|---|---|
| ต้องการอินเทอร์เน็ต | การถอดความสดไม่สามารถทำงานออฟไลน์ได้ เสียงถูกประมวลผลโดยเอนจิน AI ผ่านเครือข่าย |
| ความแม่นยำของการประทับเวลา | การประทับเวลาเป็นค่าประมาณ (±3 วินาที) ใช้สำหรับการนำทาง ไม่ใช่เอกสารทางกฎหมาย |
| การหยุดชั่วคราวในการบันทึก | ถ้าคุณหยุดชั่วคราวการบันทึก การถอดความก็หยุดชั่วคราวด้วย ส่วนที่หยุดชั่วคราวไม่ถูกถอดความ |
| ความแม่นยำแตกต่างกัน | ความแม่นยำสูงสุดด้วยคำพูดที่ชัดเจน ผู้พูดหนึ่งคนในเวลาเดียว และไมโครโฟนที่ดี สำเนียงหนัก เสียงรบกวนพื้นหลัง หรือการพูดพร้อมกันลดความแม่นยำ |
| ภาษา | ภาษาถอดความสามารถตั้งเป็น Auto Detect (แนะนำ) หรือภาษาเฉพาะใน ตั้งค่า → AI → SeaMeet Integration Auto Detect จัดการการประชุมหลายภาษาโดยอัตโนมัติ |
| ไม่มีการแก้ไขแบบ real time | คุณไม่สามารถแก้ไขถอดความขณะบันทึก การแก้ไขพร้อมใช้งานหลังจากหยุดบันทึก |
คำบรรยายระหว่างการเล่น
เมื่อคุณเล่นการบันทึกที่มีถอดความสด SeaMeet สามารถแสดงคำบรรยายโดยตรงบนวิดีโอ เหมือน closed captions บนทีวี
วิธีทำงานของคำบรรยาย:
- ข้อความคำบรรยายซ้อนทับบนตัวอย่างวิดีโอที่ด้านล่างของเฟรม
- แต่ละส่วนแสดงชื่อผู้พูด (ระบายสีต่อผู้พูด) และข้อความที่พูด
- คำบรรยายซิงค์กับตำแหน่งการเล่น เลื่อนไปขณะที่การบันทึกเล่น
- คำบรรยายใช้ถอดความ Gemini Live จากเซสชันโดยอัตโนมัติ
สีของผู้พูด: แต่ละผู้พูดได้รับสีที่สม่ำเสมอตลอดทั้งคำบรรยายและแผงถอดความ สีถูกกำหนดโดยอัตโนมัติและสม่ำเสมอตลอดการบันทึก
รูปแบบคำบรรยาย:
[Speaker 1]: Good morning everyone, let's get started.
คำบรรยายปรากฏและหายไปตามที่ส่วนถอดความที่ตรงกันเล่น
เค้าโครงวิดีโอสองคอลัมน์
เมื่อดูการบันทึกวิดีโอที่มีถอดความสด SeaMeet ใช้เค้าโครงสองคอลัมน์:
┌─────────────────────────────────────────────────────┐
│ ตัวอย่างวิดีโอ │ แผงถอดความ │
│ │ │
│ [วิดีโอพร้อมคำบรรยาย] │ Speaker 1 0:00:12 │
│ │ "Good morning..." │
│ │ │
│ │ Speaker 2 0:00:24 │
│ │ "Thanks for joining" │
│ │ [⤢ Max] │
└─────────────────────────────────────────────────────┘
- คอลัมน์ซ้าย: วิดีโอความกว้างคงที่พร้อมคำบรรยายซ้อนทับ
- คอลัมน์ขวา: แผงถอดความที่เลื่อนได้ ซิงค์กับตำแหน่งการเล่น
- ปุ่มขยาย (⤢): ขยายแผงถอดความเป็น overlay เต็มหน้าจอสำหรับการอ่านที่ง่ายขึ้นระหว่างการบันทึกยาว
เค้าโครงสองคอลัมน์ปรากฏเฉพาะสำหรับ การบันทึกวิดีโอที่มีถอดความสด การบันทึกเสียงเท่านั้นและการบันทึกที่ไม่มีถอดความใช้เค้าโครงคอลัมน์เดียวมาตรฐาน
การตั้งค่าภาษาสำหรับการถอดความ
คุณสามารถกำหนดค่า ว่า SeaMeet คาดหวังภาษาใดระหว่างการถอดความสด:
- เปิด ตั้งค่า (⚙️)
- ไปที่ AI → SeaMeet Integration
- ค้นหาตัวเลือก ภาษาการประชุม
- เลือกภาษาของคุณ:
- Auto Detect (ค่าเริ่มต้น แนะนำ) — SeaMeet ระบุภาษาที่พูดโดยอัตโนมัติ ดีที่สุดสำหรับการประชุมหลายภาษาหรือเมื่อภาษาแตกต่างกัน
- การเลือกด้วยตนเอง — เลือกจากภาษาเฉพาะกว่า 20 ภาษา รวมถึงภาษาอังกฤษ (US/UK) สเปน ฝรั่งเศส เยอรมัน ญี่ปุ่น จีนกลาง กวางตุ้ง เกาหลี และอื่นๆ
เคล็ดลับ: ปล่อยภาษาไว้ที่ Auto Detect เว้นแต่คุณมีเหตุผลเฉพาะในการบังคับภาษา การตรวจจับอัตโนมัติจัดการสำเนียงและการประ ชุมหลายภาษาได้ดีกว่าการตั้งค่าบังคับด้วยตนเอง
การแก้ไขปัญหา
"แผงถอดความไม่ปรากฏ"
อาการ: คุณเริ่มบันทึกแต่แผงถอดความไม่แสดงเลย
ตรวจสอบตามลำดับนี้:
- ไปที่ ตั้งค่า → AI และยืนยันว ่าสวิตช์ฟีเจอร์ AI เปิด ON
- ยืนยันว่าคีย์ API ของคุณถูกต้อง (เครื่องหมายถูกสีเขียวใน ตั้งค่า → AI)
- ตรวจสอบการเชื่อมต่ออินเทอร์เน็ต ลองโหลดหน้าเว็บ
- รีสตาร์ท SeaMeet และลองอีกครั้ง
ถ้าแผงยังไม่ปรากฏหลังจากสี่ขั้นตอน บริการ AI อาจไม่พร้อมใช้งานชั่วคราว การบันทึกเองไม่ได้รับผลกระทบ ลองอีกครั้งในภายหลัง
"การเชื่อมต่อหลุดระหว่างบันทึก"
อาการ: ตัวบ่งชี้สถานะเปลี่ยนเป็น 🔴 แดงระหว่างการบันทึก
สิ่งที่เกิดขึ้น: การเชื่อมต่อกับเอนจิน AI ถูกขัดจังหวะ อาจเกิดขึ้นเนื่องจาก:
- การขัดจังหวะเครือข่ายชั่วคราว
- Wi-Fi สลับ access point
- บริการ AI หยุดทำงานชั่วคราว
สิ่งที่ควรทำ:
- อย่าหยุดบันทึก มันยังคงดำเนินต่อไปอย่างปลอดภัย
- ตรวจสอบการเชื่อมต่ออินเทอร์เน็ต
- การเชื่อมต่อมักกู้คืนโดยอัตโนมัติภายใน 30 วินาที
- คำพูดระหว่างช่วงที่ขาดการเชื่อมต่อ ไม่ได้รับการกู้คืน จะสูญหายสำหรับถอดความสด (แต่เสียงยังคงอยู่ในไฟล์บันทึก ดังนั้นคุณสามารถเรียกใช้ AI Extraction ภายหลังได้ ดูบทที่ 28)
"ผู้พูดไม่ได้รับการระบุอย่างถูกต้อง"
อาการ: หลายคนถูกระบุเป็น "Speaker 1" หรือคนเดียวปรากฏเป็นผู้พูดสองคนต่างกัน
สิ่งที่เกิดขึ้น: การตรวจจับผู้พูดใช้ลักษณะเสียง ความแม่นยำลดลงเมื่อ:
- หลายคนพูดพร้อมกัน
- เสียงของผู้พูดเปลี่ยนแปลงมาก (หัวเราะ เสียงดัง เสียงไม่ดี)
- เสียงรบกวนพื้นหลังรบกวน
สิ่งที่ควรทำ:
- หลังการบันทึก เปลี่ยนชื่อผู้พูดในแผงผู้พูด (ดูบทที่ 29)
- ใช้ฟีเจอร์รวมเพื่อรวมป้ายชื่อสองอันที่เป็นของคนเดียวกัน (บทที่ 29)
แนวทางปฏิบัติที่ดีที่สุด
ปฏิบัติตามแนวทางเหล่านี้เพื่อผลการถอดความสดที่ดีที่สุด:
ผู้พูดทีละคน การพูดพร้อมกัน (สองคนพูดในเวลาเดียวกัน) ทำให้การตรวจจับผู้พูดสับสนและสร้างข้อความที่ยุ่งเหยิงในถอดความ สนับสนุนให้ผู้เข้าร่วมผลัดกันพูด
สภาพแวดล้อมการบันทึกที่เงียบ เสียงรบกวนพื้นหลัง ระบบ HVAC การพิมพ์ เสียงจากถนน ถูกรับโดยไมโครโฟนและลดความแม่นยำในการถอดความ ไมโครโฟนชุดหูฟังที่วางใกล้ปากให้ผลลัพธ์ที่ดีกว่าไมโครโฟนในตัวของแล็ปท็อปมาก
การวางไมโครโฟนที่ดี สำหรับการประชุมแบบตัวต่อตัวที่มีผู้เข้าร่วมหลายคน ให้วางไมโครโฟนใกล้กลางโต๊ะ หรือใช้ไมโครโฟนแยกสำหรับแต่ละผู้เข้าร่วม
การเชื่อมต่ออินเทอร์เน็ตที่เสถียร ใช้การเชื่อมต่อแบบสายหรือสัญญาณ Wi-Fi ที่แรง หลีกเลี่ยง hotspot หรือเครือข่ายที่มี packet loss สูง สิ่งเหล่านี้ทำให้การเชื่อมต่อหลุด
เปลี่ยนชื่อผู้พูดทันที ทำการเปลี่ยนชื่อผู้พูดทันทีหลังการบันทึกขณะที่คุณยังจำว่าใครพูดอะไร ดูบทที่ 29 สำหรับคำแนะนำ
อ้างอิงอย่างรวดเร็ว
┌────────────────────────────────────────────────────────────┐
│ การถอดความสด │
│ อ้างอิงอย่างรวดเร็ว │
├────────────────────────────────────────────────────────────┤
│ เริ่ม │ บันทึกตามปกติ — ทำงานอัตโนมัติ │
│ สถานะ: เขียว │ 🟢 การถอดความทำงาน │
│ สถานะ: เหลือง │ 🟡 กำลังเชื่อมต่อ (รอ 5 วินาที) │
│ สถานะ: แดง │ 🔴 ขาดการเชื่อมต่อ — การบันทึกปลอดภัย │
├────────────────────────────────────────────────────────────┤
│ แผงถอดความ │ ด้านขวาของหน้าต่างหลัก │
│ บรรทัดตัวอย่าง │ "กำลังพูดอยู่..." — กำลังดำเนินการ │
│ บรรทัดสมบูรณ์ │ ตัดสินใจแล้ว — ไม่เปลี่ยนแปลง │
├────────────────────────────────────────────────────────────┤
│ หลังหยุด │ ถอดความบันทึกโดยอัตโนมัติ │
│ ค้นหา │ การบันทึก → AI Insights → ถอดความ │
├────────────────────────────────────────────────────────────┤
│ ต้องการ │ อินเทอร์เน็ต + เปิดฟีเจอร์ AI + คีย์ API │
│ การประทับเวลา │ ประมาณ ±3 วินาที │
│ การหยุดชั่วคราว│ ไม่ถูกถอดความ │
└────────────────────────────────────────────────────────────┘
Last updated: 2026-03-20
Published: