วิธีเสกเสียง AI ให้มีอารมณ์เหมือนมนุษย์ด้วย Gemini 3.1 Flash TTS (ใส่เสียงหัวเราะ-กระซิบได้!) | HowTum

เจาะลึกเทคนิคใช้ Gemini 3.1 Flash TTS โมเดลใหม่จาก Google เปลี่ยนเสียง AI ให้มีชีวิตชีวาด้วย Audio Tags กว่า 200 รูปแบบ พร้อมสูตรลับกำกับอารมณ์เสียงส



หมดยุค เสียงพากย์ AI แข็งเป็นหุ่นยนต์อ่านหนังสือให้ฟังแล้วครับ! วันนี้ HowTum จะพามาเจาะลึกวิธีทำเสียง AI ให้เหมือนคน ด้วยโมเดลล่าสุด Gemini 3.1 Flash TTS โมเดลสร้างเสียงพูดตัวใหม่ล่าสุดจาก Google ที่จะเปลี่ยนข้อความธรรมดา ให้กลายเป็นเสียงพูดที่มีชีวิตชีวา สามารถทำได้ทั้งเสียงพูดคนเดียว (Single speaker) หรือจะจำลองการจัดพอดแคสต์แบบมีผู้ดำเนินรายการหลายคน (Multi-speaker) ก็ทำได้

ความลับของการทำเสียงให้สมจริงคือสิ่งที่เรียกว่า "Audio Tags" ครับ ซึ่งในเวอร์ชันนี้มีมาให้เราเลือกเล่นมากกว่า 200 รูปแบบ!


สูตรลับกำกับ เสียง AI ด้วย Audio Tags (The Formula)

สูตรลับกำกับ เสียง AI ด้วย Audio Tags (The Formula)

ปกติเราแค่พิมพ์ข้อความให้ AI อ่าน แต่สำหรับ Gemini TTS เราสามารถสวมบทบาทเป็นผู้กำกับได้เลย โดยใช้สูตรนี้ครับ:


[pacing tag (จังหวะความเร็ว)] + ข้อความที่พูด + [expressive tag (อารมณ์)] + ข้อความที่พูด + [pause tag (การเว้นจังหวะ)] + ข้อความที่พูด


ตัวอย่างเช่น การพิมพ์ Tag ไว้ในวงเล็บก้ามปูแทรกเข้าไปในประโยค โมเดลนี้รองรับกว่า 70 ภาษาทั่วโลก โดยกฎเหล็กคือ Tag ต้องพิมพ์เป็นภาษาอังกฤษเท่านั้น แต่เราสามารถนำมาใช้ร่วมกับประโยคพูดภาษาไทย (หรือภาษาอื่นๆ) ได้อย่างเนียนตา

3 ตัวอย่าง Audio Tags ที่ช่วยเพิ่มความสมจริง:

  1. ใส่เสียงเอฟเฟกต์ธรรมชาติ (Non-verbal sounds): เช่น [sighs] (เสียงถอนหายใจ), [laughs] (เสียงหัวเราะ) หรือ [gasp] (เสียงสูดหายใจด้วยความตกใจ)

  2. ปรับอารมณ์ของประโยค (Style modifiers): เช่น [whispering] (เสียงกระซิบ), [shouting] (ตะโกน) หรือ [extremely fast] (พูดเร็วปร๋อ เหมาะกับเสียงอ่านคำเตือนท้ายโฆษณา)

  3. ควบคุมความเงียบและการเว้นวรรค (Pacing and pauses): เช่น [short pause] สำหรับเว้นจังหวะสั้นๆ เหมือนจุลภาค หรือ [long pause] เพื่อสร้างความลุ้นระทึก


ตัวอย่างการสร้างเสียง AI ธรรมชาติ สำหรับงานวิดีโอ:

สมมติว่าคุณกำลังทำคลิปเล่าเรื่องผี คุณสามารถพิมพ์สคริปต์แบบนี้ได้เลย:

"[whispers] ทุกคนครับ... ผมได้ยินเสียงแปลกๆ มาจากชั้นบน [short pause] [gasp] เสียงมันใกล้เข้ามาแล้ว! [panic] เราต้องรีบออกไปจากที่นี่!" 

(อ้างอิงจากหลักการแทรก Tag ในภาษาอื่น)

เพียงเท่านี้คุณก็จะได้ เสียงพากย์ AI ที่มีจังหวะหายใจและอารมณ์ร่วม ช่วยให้คลิปวิดีโอของคุณดูเป็นมืออาชีพมากขึ้นโดยไม่ต้องง้อไมโครโฟนเลยครับ




เพื่อนๆ คิดว่าจะเอาเทคโนโลยีเสียง AI ที่กำกับอารมณ์ได้เป๊ะขนาดนี้ ไปสร้างคอนเทนต์หรือแก้ปัญหาอะไรในการทำงานบ้างครับ? พิมพ์ไอเดียมาแชร์กันในคอมเมนต์ด้านล่างได้เลย!

…………………………………..


NextGen Digital... Welcome to WhatsApp chat
Howdy! How can we help you today?
Type here...