วิธีเสกเสียง AI ให้มีอารมณ์เหมือนมนุษย์ด้วย Gemini 3.1 Flash TTS (ใส่เสียงหัวเราะ-กระซิบได้!) | HowTum
หมดยุค เสียงพากย์ AI แข็งเป็นหุ่นยนต์อ่านหนังสือให้ฟังแล้วครับ! วันนี้ HowTum จะพามาเจาะลึกวิธีทำเสียง AI ให้เหมือนคน ด้วยโมเดลล่าสุด Gemini 3.1 Flash TTS โมเดลสร้างเสียงพูดตัวใหม่ล่าสุดจาก Google ที่จะเปลี่ยนข้อความธรรมดา ให้กลายเป็นเสียงพูดที่มีชีวิตชีวา สามารถทำได้ทั้งเสียงพูดคนเดียว (Single speaker) หรือจะจำลองการจัดพอดแคสต์แบบมีผู้ดำเนินรายการหลายคน (Multi-speaker) ก็ทำได้
ความลับของการทำเสียงให้สมจริงคือสิ่งที่เรียกว่า "Audio Tags" ครับ ซึ่งในเวอร์ชันนี้มีมาให้เราเลือกเล่นมากกว่า 200 รูปแบบ!
สูตรลับกำกับ เสียง AI ด้วย Audio Tags (The Formula)
ปกติเราแค่พิมพ์ข้อความให้ AI อ่าน แต่สำหรับ Gemini TTS เราสามารถสวมบทบาทเป็นผู้กำกับได้เลย โดยใช้สูตรนี้ครับ:
[pacing tag (จังหวะความเร็ว)] + ข้อความที่พูด + [expressive tag (อารมณ์)] + ข้อความที่พูด + [pause tag (การเว้นจังหวะ)] + ข้อความที่พูด
ตัวอย่างเช่น การพิมพ์ Tag ไว้ในวงเล็บก้ามปูแทรกเข้าไปในประโยค โมเดลนี้รองรับกว่า 70 ภาษาทั่วโลก โดยกฎเหล็กคือ Tag ต้องพิมพ์เป็นภาษาอังกฤษเท่านั้น แต่เราสามารถนำมาใช้ร่วมกับประโยคพูดภาษาไทย (หรือภาษาอื่นๆ) ได้อย่างเนียนตา
3 ตัวอย่าง Audio Tags ที่ช่วยเพิ่มความสมจริง:
ใส่เสียงเอฟเฟกต์ธรรมชาติ (Non-verbal sounds): เช่น [sighs] (เสียงถอนหายใจ), [laughs] (เสียงหัวเราะ) หรือ [gasp] (เสียงสูดหายใจด้วยความตกใจ)
ปรับอารมณ์ของประโยค (Style modifiers): เช่น [whispering] (เสียงกระซิบ), [shouting] (ตะโกน) หรือ [extremely fast] (พูดเร็วปร๋อ เหมาะกับเสียงอ่านคำเตือนท้ายโฆษณา)
ควบคุมความเงียบและการเว้นวรรค (Pacing and pauses): เช่น [short pause] สำหรับเว้นจังหวะสั้นๆ เหมือนจุลภาค หรือ [long pause] เพื่อสร้างความลุ้นระทึก
ตัวอย่างการสร้างเสียง AI ธรรมชาติ สำหรับงานวิดีโอ:
สมมติว่าคุณกำลังทำคลิปเล่าเรื่องผี คุณสามารถพิมพ์สคริปต์แบบนี้ได้เลย:
"[whispers] ทุกคนครับ... ผมได้ยินเสียงแปลกๆ มาจากชั้นบน [short pause] [gasp] เสียงมันใกล้เข้ามาแล้ว! [panic] เราต้องรีบออกไปจากที่นี่!"
(อ้างอิงจากหลักการแทรก Tag ในภาษาอื่น)
เพียงเท่านี้คุณก็จะได้ เสียงพากย์ AI ที่มีจังหวะหายใจและอารมณ์ร่วม ช่วยให้คลิปวิดีโอของคุณดูเป็นมืออาชีพมากขึ้นโดยไม่ต้องง้อไมโครโฟนเลยครับ
เพื่อนๆ คิดว่าจะเอาเทคโนโลยีเสียง AI ที่กำกับอารมณ์ได้เป๊ะขนาดนี้ ไปสร้างคอนเทนต์หรือแก้ปัญหาอะไรในการทำงานบ้างครับ? พิมพ์ไอเดียมาแชร์กันในคอมเมนต์ด้านล่างได้เลย!
…………………………………..

