บทที่ 27: การถอดความสด — คำพูดบนหน้าจอขณะที่คุณพูด

ลองนึกถึงนักจดบันทึกในศาลที่พิมพ์ขณะเซสชันดำเนินไป ทุกคำถูกบันทึกในทันทีที่พูด ไม่ต้องรอให้การประชุมสิ้นสุด นั่นคือสิ่งที่การถอดความสดของ SeaMeet ทำให้กับการบันทึกของคุณ ขณะที่คุณพูด แผงถอดความจะเติมขึ้นแบบ real time: ป้ายชื่อผู้พูด การประทับเวลา และคำพูดจริงๆ ปรากฏขึ้นทั้งหมดขณะที่การสนทนาเกิดขึ้น

ไม่ต้องรอ ไม่มีขั้นตอนอัปโหลด แค่คำพูดบนหน้าจอ

วัตถุประสงค์บท

หลังจากอ่านบทนี้ คุณจะสามารถ:

เข้าใจว่าการถอดความสดทำอะไรและเมื่อใดควรใช้
ตั้งค่าข้อกำหนดเบื้องต้นก่อนเริ่ม
เริ่มเซสชันการบันทึกที่เปิดใช้การถอดความสด
อ่านและตีความแผงถอดความขณะบันทึก
เข้าใจว่าการตรวจจับผู้พูดอัตโนมัติทำงานอย่างไร
แก้ไขปัญหาการเชื่อมต่อและการแสดงผลที่พบบ่อยที่สุด

การถอดความสดคืออะไร?

การถอดความสดแปลงเสียงจากการบันทึกเป็นข้อความ ขณะที่คุณบันทึก สร้างถอดความที่มีการประทับเวลาและป้ายชื่อผู้พูดแบบ real time

คิดแบบนี้: ลองนึกถึงพนักงานพิมพ์ดีดที่นั่งอยู่ข้างๆ คุณในทุกการประชุม เขียนทุกอย่างที่พูดทันที ระบุคำพูดของแต่ละคนและจดเวลาที่แน่ชัดที่พูด ถอดความนั้นพร้อมใช้งานทันทีที่การประชุมสิ้นสุด ไม่มีการหน่วงเวลาถอดความ ไม่มี spinner "กำลังประมวลผลเสียงของคุณ"

การถอดความสดทำงานควบคู่กับเซสชันการบันทึกของคุณ ในทันทีที่คุณเริ่มบันทึก:

เอนจิน AI เริ่มฟัง
คำพูดปรากฏในแผงถอดความภายในไม่กี่วินาทีหลังจากพูด
ป้ายชื่อผู้พูด ("Speaker 1", "Speaker 2") ถูกกำหนดโดยอัตโนมัติ
การประทับเวลาระบุว่าในการบันทึกแต่ละส่วนอยู่ที่ตำแหน่งใด

เมื่อคุณหยุดบันทึก ถอดความที่สมบูรณ์จะถูกบันทึกโดยอัตโนมัติควบคู่กับไฟล์เสียง/วิดีโอ

ก่อนเริ่มต้น

การถอดความสดต้องการการกำหนดค่าสองอย่างก่อนเซสชันแรก:

1. เปิดใช้ฟีเจอร์ AI

เปิด ตั้งค่า (ไอคอนฟันเฟือง ⚙️ ที่มุมขวาบน)
ไปที่หมวด AI
ยืนยันว่าสวิตช์ ฟีเจอร์ AI เปิด ON (สีน้ำเงิน)

ถ้าสวิตช์เป็นสีเทาหรือหมวด AI หายไป ให้ติดต่อผู้ดูแลระบบบัญชีของคุณ ฟีเจอร์ AI อาจต้องการการสมัครสมาชิกที่ใช้งานอยู่

2. กำหนดค่าคีย์ API

ยังอยู่ใน ตั้งค่า → AI:

มองหาฟิลด์ คีย์ API
ป้อนคีย์ API Gemini ของคุณ (ดูบทที่ 31 สำหรับวิธีรับ)
คลิก บันทึก

เครื่องหมายถูกสีเขียวยืนยันว่าคีย์ถูกต้อง คำเตือนสีแดงหมายความว่าคีย์ไม่ถูกต้องหรือหมดอายุ

หมายเหตุ: คุณต้องการการเชื่อมต่ออินเทอร์เน็ตที่ใช้งานได้ระหว่างการบันทึก การถอดความสดไม่สามารถทำงานออฟไลน์ได้

วิธีเริ่มเซสชันการถอดความสด

การเริ่มการถอดความสดเหมือนกับการเริ่มการบันทึกใดๆ ไม่มี "โหมดถอดความ" แยกต่างหากที่ต้องเปิดใช้ ถ้าเปิดใช้ฟีเจอร์ AI และกำหนดค่าคีย์ API แล้ว การถอดความสดจะทำงานโดยอัตโนมัติ

ทีละขั้นตอน:

คลิกปุ่มบันทึกสีแดง 🔴 (หรือใช้แป้นพิมพ์ลัด: Ctrl+Alt+A บน Windows, Cmd+Shift+A บน macOS)
- สิ่งที่คุณเห็น: ปุ่มกะพริบสีแดง ตัวจับเวลาการบันทึกเริ่มนับขึ้น
ดูแผงถอดความปรากฏ
- สิ่งที่คุณเห็น: แผงเลื่อนเข้ามาที่ด้านขวาของหน้าต่างหลัก (หรือด้านล่างเครื่องเล่น ขึ้นอยู่กับเค้าโครงของคุณ) มันแสดง "กำลังเชื่อมต่อ..." สั้นๆ
พูดตามปกติ
- สิ่งที่คุณเห็น: หลัง 2–5 วินาที ข้อความเริ่มปรากฏ วลีล่าสุดแสดงแอนิเมชันที่ละเอียดอ่อนขณะยังประมวลผลอยู่
ดำเนินการประชุมหรือบันทึกต่อตามปกติ
- สิ่งที่คุณเห็น: ส่วนที่เสร็จสมบูรณ์เรียงซ้อนกันตามลำดับเวลา แต่ละส่วนมีป้ายชื่อผู้พูดและการประทับเวลา
หยุดบันทึกเมื่อเสร็จ
- สิ่งที่คุณเห็น: ปุ่มกลับสู่สถานะไม่ทำงาน การแจ้งเตือน "กำลังบันทึกถอดความ..." ปรากฏสั้นๆ แล้วหายไป ถอดความถูกจัดเก็บแล้ว

สิ่งที่คุณเห็นขณะบันทึก

แผงถอดความมีสามพื้นที่หลัก:

┌─────────────────────────────────────────────┐
│  ถอดความ                    🟢 เชื่อมต่อแล้ว │
├─────────────────────────────────────────────┤
│  Speaker 1   0:00:12                        │
│  "Good morning everyone, let's get started" │
│                                             │
│  Speaker 2   0:00:24                        │
│  "Thanks for joining on short notice"       │
│                                             │
│  Speaker 1   0:00:31                        │
│  "Of course. First item on the agenda…"    │
├─────────────────────────────────────────────┤
│  กำลังพูดอยู่…  ████████░░░░               │
│  "…is the Q3 budget review"                 │
└─────────────────────────────────────────────┘

ความหมายของแต่ละองค์ประกอบ:

องค์ประกอบ	ความหมาย
ป้ายชื่อผู้พูด	ใครกำลังพูด — กำหนดโดยอัตโนมัติ ("Speaker 1", "Speaker 2")
การประทับเวลา	เวลาในการบันทึกที่ส่วนนี้เริ่มต้น (ชั่วโมง:นาที:วินาที)
ข้อความที่เสร็จสมบูรณ์	คำที่ตัดสินใจแล้ว — ไม่เปลี่ยนแปลง
ตัวอย่าง "กำลังพูดอยู่..."	คำพูดปัจจุบันที่ยังประมวลผล — อาจเปลี่ยนเล็กน้อย
ตัวบ่งชี้สถานะ	🟢 เชื่อมต่อแล้ว · 🟡 กำลังเชื่อมต่อ · 🔴 ข้อผิดพลาด

ตัวบ่งชี้สถานะการเชื่อมต่อ

ตัวบ่งชี้ที่มุมขวาบนของแผงบอกว่าเอนจิน AI เข้าถึงได้หรือไม่:

🟢 เชื่อมต่อแล้ว — การถอดความทำงานตามปกติ
🟡 กำลังเชื่อมต่อ — กำลังสร้างการเชื่อมต่อ (ปกติขณะเริ่ม ใช้เวลา 2–5 วินาที)
🔴 ข้อผิดพลาด — การเชื่อมต่อหาย (ดูการแก้ไขปัญหาด้านล่าง)

ถ้าคุณเห็น 🔴 ข้อผิดพลาด การบันทึกเองยังคงดำเนินต่อไปอย่างปลอดภัย เฉพาะการถอดความสดเท่านั้นที่ได้รับผลกระทบ

การตรวจจับผู้พูดอัตโนมัติ

เอนจิน AI พยายามแยกแยะระหว่างเสียงต่างๆ และกำหนดป้ายชื่อให้แต่ละคน

วิธีทำงาน:

ไทม์ไลน์การบันทึก:

0:00 ──────────────────────────────────────────────────► เวลา
        │           │           │           │
      Speaker 1   Speaker 2   Speaker 1   Speaker 2
      "Morning"   "Hello"     "Agenda…"   "Agreed"
          ▼           ▼           ▼           ▼
      [ส่วน 1]    [ส่วน 2]    [ส่วน 3]    [ส่วน 4]

ทุกครั้งที่ผู้พูดเปลี่ยน ระบบจะสร้างส่วนใหม่ ส่วนจากผู้พูดคนเดียวกันได้รับป้ายชื่อเดียวกัน

ป้ายชื่อเริ่มต้น: ผู้พูดคนแรกคือ "Speaker 1" เสียงใหม่คนที่สองคือ "Speaker 2" และต่อไปเรื่อยๆ สิ่งเหล่านี้เป็นตัวยึดตำแหน่ง คุณสามารถเปลี่ยนชื่อในภายหลัง (ดูบทที่ 29)

การปรับแต่งผู้พูด: ขณะที่การบันทึกดำเนินไป AI อาจปรับแต่งการกำหนดก่อนหน้าถ้ามั่นใจว่าสองส่วนเป็นเสียงเดียวกัน นี่เป็นเรื่องปกติ ข้อความไม่เปลี่ยน เฉพาะการระบุผู้พูดในส่วนก่อนหน้าเท่านั้น

เคล็ดลับ: เพื่อการแยกผู้พูดที่แม่นยำที่สุด ให้ใช้หูฟังแทนลำโพง เสียงลำโพงที่ถูกรับโดยไมโครโฟนสามารถทำให้ตัวตรวจจับสับสนได้

หลังจากการบันทึกหยุด

เมื่อคุณคลิกหยุด:

ตัวอย่าง "กำลังพูดอยู่..." ตัดสินใจประโยคที่กำลังดำเนินอยู่
ถอดความที่สมบูรณ์ถูกบันทึกควบคู่กับไฟล์บันทึกของคุณโดยอัตโนมัติ
ไม่จำเป็นต้องดำเนินการด้วยตนเอง

ที่ค้นหาถอดความ:

เปิดการบันทึกใน ไลบรารีการบันทึก ของคุณ
คลิก AI Insights ในแผงรายละเอียด
เลือกแท็บ ถอดความ

ถอดความยังพร้อมสำหรับส่งออกเป็น SRT (รูปแบบคำบรรยาย) หรือ JSON จากแท็บ AI Insights ดูบทที่ 28 สำหรับรายละเอียดการส่งออก

ข้อจำกัด

การเข้าใจข้อจำกัดเหล่านี้ช่วยตั้งความคาดหวังที่สมจริง:

ข้อจำกัด	รายละเอียด
ต้องการอินเทอร์เน็ต	การถอดความสดไม่สามารถทำงานออฟไลน์ได้ เสียงถูกประมวลผลโดยเอนจิน AI ผ่านเครือข่าย
ความแม่นยำของการประทับเวลา	การประทับเวลาเป็นค่าประมาณ (±3 วินาที) ใช้สำหรับการนำทาง ไม่ใช่เอกสารทางกฎหมาย
การหยุดชั่วคราวในการบันทึก	ถ้าคุณหยุดชั่วคราวการบันทึก การถอดความก็หยุดชั่วคราวด้วย ส่วนที่หยุดชั่วคราวไม่ถูกถอดความ
ความแม่นยำแตกต่างกัน	ความแม่นยำสูงสุดด้วยคำพูดที่ชัดเจน ผู้พูดหนึ่งคนในเวลาเดียว และไมโครโฟนที่ดี สำเนียงหนัก เสียงรบกวนพื้นหลัง หรือการพูดพร้อมกันลดความแม่นยำ
ภาษา	ภาษาถอดความสามารถตั้งเป็น Auto Detect (แนะนำ) หรือภาษาเฉพาะใน ตั้งค่า → AI → SeaMeet Integration Auto Detect จัดการการประชุมหลายภาษาโดยอัตโนมัติ
ไม่มีการแก้ไขแบบ real time	คุณไม่สามารถแก้ไขถอดความขณะบันทึก การแก้ไขพร้อมใช้งานหลังจากหยุดบันทึก

คำบรรยายระหว่างการเล่น

เมื่อคุณเล่นการบันทึกที่มีถอดความสด SeaMeet สามารถแสดงคำบรรยายโดยตรงบนวิดีโอ เหมือน closed captions บนทีวี

วิธีทำงานของคำบรรยาย:

ข้อความคำบรรยายซ้อนทับบนตัวอย่างวิดีโอที่ด้านล่างของเฟรม
แต่ละส่วนแสดงชื่อผู้พูด (ระบายสีต่อผู้พูด) และข้อความที่พูด
คำบรรยายซิงค์กับตำแหน่งการเล่น เลื่อนไปขณะที่การบันทึกเล่น
คำบรรยายใช้ถอดความ Gemini Live จากเซสชันโดยอัตโนมัติ

สีของผู้พูด: แต่ละผู้พูดได้รับสีที่สม่ำเสมอตลอดทั้งคำบรรยายและแผงถอดความ สีถูกกำหนดโดยอัตโนมัติและสม่ำเสมอตลอดการบันทึก

รูปแบบคำบรรยาย:

[Speaker 1]: Good morning everyone, let's get started.

คำบรรยายปรากฏและหายไปตามที่ส่วนถอดความที่ตรงกันเล่น

เค้าโครงวิดีโอสองคอลัมน์

เมื่อดูการบันทึกวิดีโอที่มีถอดความสด SeaMeet ใช้เค้าโครงสองคอลัมน์:

┌─────────────────────────────────────────────────────┐
│  ตัวอย่างวิดีโอ            │  แผงถอดความ             │
│                            │                         │
│  [วิดีโอพร้อมคำบรรยาย]     │  Speaker 1   0:00:12   │
│                            │  "Good morning..."     │
│                            │                         │
│                            │  Speaker 2   0:00:24   │
│                            │  "Thanks for joining"  │
│                            │              [⤢ Max]   │
└─────────────────────────────────────────────────────┘

คอลัมน์ซ้าย: วิดีโอความกว้างคงที่พร้อมคำบรรยายซ้อนทับ
คอลัมน์ขวา: แผงถอดความที่เลื่อนได้ ซิงค์กับตำแหน่งการเล่น
ปุ่มขยาย (⤢): ขยายแผงถอดความเป็น overlay เต็มหน้าจอสำหรับการอ่านที่ง่ายขึ้นระหว่างการบันทึกยาว

เค้าโครงสองคอลัมน์ปรากฏเฉพาะสำหรับ การบันทึกวิดีโอที่มีถอดความสด การบันทึกเสียงเท่านั้นและการบันทึกที่ไม่มีถอดความใช้เค้าโครงคอลัมน์เดียวมาตรฐาน

การตั้งค่าภาษาสำหรับการถอดความ

คุณสามารถกำหนดค่าว่า SeaMeet คาดหวังภาษาใดระหว่างการถอดความสด:

เปิด ตั้งค่า (⚙️)
ไปที่ AI → SeaMeet Integration
ค้นหาตัวเลือก ภาษาการประชุม
เลือกภาษาของคุณ:
- Auto Detect (ค่าเริ่มต้น แนะนำ) — SeaMeet ระบุภาษาที่พูดโดยอัตโนมัติ ดีที่สุดสำหรับการประชุมหลายภาษาหรือเมื่อภาษาแตกต่างกัน
- การเลือกด้วยตนเอง — เลือกจากภาษาเฉพาะกว่า 20 ภาษา รวมถึงภาษาอังกฤษ (US/UK) สเปน ฝรั่งเศส เยอรมัน ญี่ปุ่น จีนกลาง กวางตุ้ง เกาหลี และอื่นๆ

เคล็ดลับ: ปล่อยภาษาไว้ที่ Auto Detect เว้นแต่คุณมีเหตุผลเฉพาะในการบังคับภาษา การตรวจจับอัตโนมัติจัดการสำเนียงและการประชุมหลายภาษาได้ดีกว่าการตั้งค่าบังคับด้วยตนเอง

การแก้ไขปัญหา

"แผงถอดความไม่ปรากฏ"

อาการ: คุณเริ่มบันทึกแต่แผงถอดความไม่แสดงเลย

ตรวจสอบตามลำดับนี้:

ไปที่ ตั้งค่า → AI และยืนยันว่าสวิตช์ฟีเจอร์ AI เปิด ON
ยืนยันว่าคีย์ API ของคุณถูกต้อง (เครื่องหมายถูกสีเขียวใน ตั้งค่า → AI)
ตรวจสอบการเชื่อมต่ออินเทอร์เน็ต ลองโหลดหน้าเว็บ
รีสตาร์ท SeaMeet และลองอีกครั้ง

ถ้าแผงยังไม่ปรากฏหลังจากสี่ขั้นตอน บริการ AI อาจไม่พร้อมใช้งานชั่วคราว การบันทึกเองไม่ได้รับผลกระทบ ลองอีกครั้งในภายหลัง

"การเชื่อมต่อหลุดระหว่างบันทึก"

อาการ: ตัวบ่งชี้สถานะเปลี่ยนเป็น 🔴 แดงระหว่างการบันทึก

สิ่งที่เกิดขึ้น: การเชื่อมต่อกับเอนจิน AI ถูกขัดจังหวะ อาจเกิดขึ้นเนื่องจาก:

การขัดจังหวะเครือข่ายชั่วคราว
Wi-Fi สลับ access point
บริการ AI หยุดทำงานชั่วคราว

สิ่งที่ควรทำ:

อย่าหยุดบันทึก มันยังคงดำเนินต่อไปอย่างปลอดภัย
ตรวจสอบการเชื่อมต่ออินเทอร์เน็ต
การเชื่อมต่อมักกู้คืนโดยอัตโนมัติภายใน 30 วินาที
คำพูดระหว่างช่วงที่ขาดการเชื่อมต่อ ไม่ได้รับการกู้คืน จะสูญหายสำหรับถอดความสด (แต่เสียงยังคงอยู่ในไฟล์บันทึก ดังนั้นคุณสามารถเรียกใช้ AI Extraction ภายหลังได้ ดูบทที่ 28)

"ผู้พูดไม่ได้รับการระบุอย่างถูกต้อง"

อาการ: หลายคนถูกระบุเป็น "Speaker 1" หรือคนเดียวปรากฏเป็นผู้พูดสองคนต่างกัน

สิ่งที่เกิดขึ้น: การตรวจจับผู้พูดใช้ลักษณะเสียง ความแม่นยำลดลงเมื่อ:

หลายคนพูดพร้อมกัน
เสียงของผู้พูดเปลี่ยนแปลงมาก (หัวเราะ เสียงดัง เสียงไม่ดี)
เสียงรบกวนพื้นหลังรบกวน

สิ่งที่ควรทำ:

หลังการบันทึก เปลี่ยนชื่อผู้พูดในแผงผู้พูด (ดูบทที่ 29)
ใช้ฟีเจอร์รวมเพื่อรวมป้ายชื่อสองอันที่เป็นของคนเดียวกัน (บทที่ 29)

แนวทางปฏิบัติที่ดีที่สุด

ปฏิบัติตามแนวทางเหล่านี้เพื่อผลการถอดความสดที่ดีที่สุด:

ผู้พูดทีละคน การพูดพร้อมกัน (สองคนพูดในเวลาเดียวกัน) ทำให้การตรวจจับผู้พูดสับสนและสร้างข้อความที่ยุ่งเหยิงในถอดความ สนับสนุนให้ผู้เข้าร่วมผลัดกันพูด

สภาพแวดล้อมการบันทึกที่เงียบ เสียงรบกวนพื้นหลัง ระบบ HVAC การพิมพ์ เสียงจากถนน ถูกรับโดยไมโครโฟนและลดความแม่นยำในการถอดความ ไมโครโฟนชุดหูฟังที่วางใกล้ปากให้ผลลัพธ์ที่ดีกว่าไมโครโฟนในตัวของแล็ปท็อปมาก

การวางไมโครโฟนที่ดี สำหรับการประชุมแบบตัวต่อตัวที่มีผู้เข้าร่วมหลายคน ให้วางไมโครโฟนใกล้กลางโต๊ะ หรือใช้ไมโครโฟนแยกสำหรับแต่ละผู้เข้าร่วม

การเชื่อมต่ออินเทอร์เน็ตที่เสถียร ใช้การเชื่อมต่อแบบสายหรือสัญญาณ Wi-Fi ที่แรง หลีกเลี่ยง hotspot หรือเครือข่ายที่มี packet loss สูง สิ่งเหล่านี้ทำให้การเชื่อมต่อหลุด

เปลี่ยนชื่อผู้พูดทันที ทำการเปลี่ยนชื่อผู้พูดทันทีหลังการบันทึกขณะที่คุณยังจำว่าใครพูดอะไร ดูบทที่ 29 สำหรับคำแนะนำ

อ้างอิงอย่างรวดเร็ว

┌────────────────────────────────────────────────────────────┐
│               การถอดความสด                                 │
│               อ้างอิงอย่างรวดเร็ว                          │
├────────────────────────────────────────────────────────────┤
│  เริ่ม          │ บันทึกตามปกติ — ทำงานอัตโนมัติ           │
│  สถานะ: เขียว   │ 🟢 การถอดความทำงาน                      │
│  สถานะ: เหลือง  │ 🟡 กำลังเชื่อมต่อ (รอ 5 วินาที)         │
│  สถานะ: แดง     │ 🔴 ขาดการเชื่อมต่อ — การบันทึกปลอดภัย  │
├────────────────────────────────────────────────────────────┤
│  แผงถอดความ    │ ด้านขวาของหน้าต่างหลัก                  │
│  บรรทัดตัวอย่าง │ "กำลังพูดอยู่..." — กำลังดำเนินการ      │
│  บรรทัดสมบูรณ์ │ ตัดสินใจแล้ว — ไม่เปลี่ยนแปลง           │
├────────────────────────────────────────────────────────────┤
│  หลังหยุด      │ ถอดความบันทึกโดยอัตโนมัติ               │
│  ค้นหา         │ การบันทึก → AI Insights → ถอดความ        │
├────────────────────────────────────────────────────────────┤
│  ต้องการ       │ อินเทอร์เน็ต + เปิดฟีเจอร์ AI + คีย์ API │
│  การประทับเวลา │ ประมาณ ±3 วินาที                         │
│  การหยุดชั่วคราว│ ไม่ถูกถอดความ                           │
└────────────────────────────────────────────────────────────┘

Last updated: 2026-03-20

← บทที่ 26: คำศัพท์ | บทที่ 28: AI Extraction →