วิธีเสกเสียง AI ให้มีอารมณ์เหมือนมนุษย์ด้วย Gemini 3.1 Flash TTS (ใส่เสียงหัวเราะ-กระซิบได้!) | HowTum

เจาะลึกเทคนิคใช้ Gemini 3.1 Flash TTS โมเดลใหม่จาก Google เปลี่ยนเสียง AI ให้มีชีวิตชีวาด้วย Audio Tags กว่า 200 รูปแบบ พร้อมสูตรลับกำกับอารมณ์เสียงส

หมดยุค เสียงพากย์ AI แข็งเป็นหุ่นยนต์อ่านหนังสือให้ฟังแล้วครับ! วันนี้ HowTum จะพามาเจาะลึกวิธีทำเสียง AI ให้เหมือนคน ด้วยโมเดลล่าสุด Gemini 3.1 Flash TTS โมเดลสร้างเสียงพูดตัวใหม่ล่าสุดจาก Google ที่จะเปลี่ยนข้อความธรรมดา ให้กลายเป็นเสียงพูดที่มีชีวิตชีวา สามารถทำได้ทั้งเสียงพูดคนเดียว (Single speaker) หรือจะจำลองการจัดพอดแคสต์แบบมีผู้ดำเนินรายการหลายคน (Multi-speaker) ก็ทำได้

ความลับของการทำเสียงให้สมจริงคือสิ่งที่เรียกว่า "Audio Tags" ครับ ซึ่งในเวอร์ชันนี้มีมาให้เราเลือกเล่นมากกว่า 200 รูปแบบ!

สูตรลับกำกับ เสียง AI ด้วย Audio Tags (The Formula)

ปกติเราแค่พิมพ์ข้อความให้ AI อ่าน แต่สำหรับ Gemini TTS เราสามารถสวมบทบาทเป็นผู้กำกับได้เลย โดยใช้สูตรนี้ครับ:

[pacing tag (จังหวะความเร็ว)] + ข้อความที่พูด + [expressive tag (อารมณ์)] + ข้อความที่พูด + [pause tag (การเว้นจังหวะ)] + ข้อความที่พูด

ตัวอย่างเช่น การพิมพ์ Tag ไว้ในวงเล็บก้ามปูแทรกเข้าไปในประโยค โมเดลนี้รองรับกว่า 70 ภาษาทั่วโลก โดยกฎเหล็กคือ Tag ต้องพิมพ์เป็นภาษาอังกฤษเท่านั้น แต่เราสามารถนำมาใช้ร่วมกับประโยคพูดภาษาไทย (หรือภาษาอื่นๆ) ได้อย่างเนียนตา

3 ตัวอย่าง Audio Tags ที่ช่วยเพิ่มความสมจริง:

ใส่เสียงเอฟเฟกต์ธรรมชาติ (Non-verbal sounds): เช่น [sighs] (เสียงถอนหายใจ), [laughs] (เสียงหัวเราะ) หรือ [gasp] (เสียงสูดหายใจด้วยความตกใจ)
ปรับอารมณ์ของประโยค (Style modifiers): เช่น [whispering] (เสียงกระซิบ), [shouting] (ตะโกน) หรือ [extremely fast] (พูดเร็วปร๋อ เหมาะกับเสียงอ่านคำเตือนท้ายโฆษณา)
ควบคุมความเงียบและการเว้นวรรค (Pacing and pauses): เช่น [short pause] สำหรับเว้นจังหวะสั้นๆ เหมือนจุลภาค หรือ [long pause] เพื่อสร้างความลุ้นระทึก

ตัวอย่างการสร้างเสียง AI ธรรมชาติ สำหรับงานวิดีโอ:

สมมติว่าคุณกำลังทำคลิปเล่าเรื่องผี คุณสามารถพิมพ์สคริปต์แบบนี้ได้เลย:

"[whispers] ทุกคนครับ... ผมได้ยินเสียงแปลกๆ มาจากชั้นบน [short pause] [gasp] เสียงมันใกล้เข้ามาแล้ว! [panic] เราต้องรีบออกไปจากที่นี่!"

(อ้างอิงจากหลักการแทรก Tag ในภาษาอื่น)

เพียงเท่านี้คุณก็จะได้ เสียงพากย์ AI ที่มีจังหวะหายใจและอารมณ์ร่วม ช่วยให้คลิปวิดีโอของคุณดูเป็นมืออาชีพมากขึ้นโดยไม่ต้องง้อไมโครโฟนเลยครับ

เพื่อนๆ คิดว่าจะเอาเทคโนโลยีเสียง AI ที่กำกับอารมณ์ได้เป๊ะขนาดนี้ ไปสร้างคอนเทนต์หรือแก้ปัญหาอะไรในการทำงานบ้างครับ? พิมพ์ไอเดียมาแชร์กันในคอมเมนต์ด้านล่างได้เลย!

ที่มา: Google Cloud Blog

…………………………………..

HowTum | ทำไง

วิธีเสกเสียง AI ให้มีอารมณ์เหมือนมนุษย์ด้วย Gemini 3.1 Flash TTS (ใส่เสียงหัวเราะ-กระซิบได้!) | HowTum

สูตรลับกำกับ เสียง AI ด้วย Audio Tags (The Formula)

3 ตัวอย่าง Audio Tags ที่ช่วยเพิ่มความสมจริง:

ตัวอย่างการสร้างเสียง AI ธรรมชาติ สำหรับงานวิดีโอ:

เจาะลึกระบบ: "บาร์โค้ด" บนบัตรเลือกตั้ง... เทคโนโลยีกันโกง หรือ รูรั่วของความลับ? (ฉบับ Technical Audit)

ปฏิวัติวงการครีเอเตอร์! YouTube เปิดตัวชุดเครื่องมือ Gen AI สุดล้ำ เปลี่ยนการสร้าง Shorts ให้ง่ายแค่ปลายนิ้ว

เจาะลึก 5 ความลับเบื้องหลัง Google Maps: เมื่อโลกไม่ใช่แผนที่แบนๆ และเทคโนโลยีที่ทำงานได้แม้ไม่มีเน็ต

5 เคล็ดลับ (ที่หลายคนเข้าใจผิด) ตั้งค่า Samsung One UI ให้แบตอึดข้ามวันแบบไม่ต้องง้อ AI

เจาะลึกความลับหลังพวงมาลัย: 5 เรื่องจริงที่ทำให้ Google Maps รู้ใจ (และรู้ล่วงหน้า) ว่ารถจะติด!