Typhoon Isan: Open-Source ASR and a Language Technology Suite for Thailand’s Largest Dialect
SCB 10X พัฒนา Typhoon Isan ซึ่งเป็น AI แบบโอเพนซอร์สตัวแรกของประเทศไทยที่สามารถเข้าใจภาษาอีสาน โดยผสานชุดข้อมูลที่มีประโยชน์ มาตรฐานการถอดเสียงที่ชัดเจน และโมเดลแปลงเสียงเป็นข้อความ (Speech-to-Text) ที่รองรับทั้งการประมวลผลแบบเรียลไทม์และความแม่นยำสูงเข้าด้วยกัน

ไต้ฝุ่นอีสาน (Typhoon Isan) คือเทคโนโลยี AI แบบโอเพนซอร์ส (เปิดให้ใช้งานฟรี) ที่ถูกสร้างขึ้นมาโดยเฉพาะเพื่อให้เข้าใจและสามารถพิมพ์ตามเสียงพูดภาษาอีสาน ซึ่งเป็นภาษาที่มีคนใช้งานในชีวิตประจำวันมากกว่า 20 ล้านคนในประเทศไทย ในอดีตระบบสั่งงานด้วยเสียงทั่วไปมักจะมีปัญหาในการฟังภาษาถิ่น เพราะภาษาอีสานเป็นภาษาพูดที่ไม่มีมาตรฐานการเขียนและการสะกดคำที่ตายตัว เพื่อแก้ปัญหานี้ ทีมพัฒนาจึงได้ร่วมมือกับคนในพื้นที่และผู้เชี่ยวชาญด้านภาษาศาสตร์ เพื่อสร้าง AI ตัวแรกที่พร้อมใช้งานจริงและสามารถประมวลผลเสียงภาษาอีสานได้อย่างแม่นยำ
ข้อมูลเชิงลึกที่สำคัญ (Key Insights)
- รากฐานทางภาษาที่ครบวงจร: ทีมงานไม่ได้แค่ปล่อยตัว AI ออกมาเท่านั้น แต่ยังสร้าง “ชุดเครื่องมือทางภาษา” ที่ครบถ้วน ไม่ว่าจะเป็นมาตรฐานการสะกดคำ กฎการถอดเสียง พจนานุกรมการออกเสียง และคลังข้อมูลเสียงบันทึกขนาดใหญ่ เพื่อเป็นข้อมูลให้ AI ได้เรียนรู้
- โมเดล AI 2 รูปแบบที่ตอบโจทย์เฉพาะทาง: โครงการนี้ได้เปิดตัว AI 2 เวอร์ชัน เพื่อการใช้งานที่ต่างกัน:
- Typhoon Isan ASR Real-time: เป็นโมเดลที่ทำงานได้รวดเร็ว เหมาะสำหรับการถอดเสียงแบบสดๆ (เช่น ในการประชุมออนไลน์) และสามารถทำงานได้ดีบนคอมพิวเตอร์หรืออุปกรณ์ทั่วไป
- Typhoon Isan ASR Whisper: เป็นโมเดลที่เน้นความแม่นยำสูง ออกแบบมาสำหรับไฟล์เสียงที่บันทึกไว้แล้ว และเก่งมากในการฟังคนที่พูดสลับภาษา (เช่น พูดอีสานคำ ไทยคำ หรืออังกฤษคำ)
- เทียบชั้นบริษัทเทคโนโลยียักษ์ใหญ่: ผลการทดสอบแสดงให้เห็นว่าเทคโนโลยีของไต้ฝุ่นอีสานมีความแม่นยำสูงมาก โดยสามารถทำงานได้เทียบเท่าหรือดีกว่า AI เชิงพาณิชย์ของบริษัทระดับโลกอย่าง Gemini ในด้านการเข้าใจภาษาอีสาน
ประโยชน์ที่จับต้องได้สำหรับผู้ใช้งานทั่วไป (Practical Benefits for Consumers)
- ลดความเหลื่อมล้ำทางเทคโนโลยีสำหรับคนในภูมิภาค: เทคโนโลยีนี้จะช่วยให้คนหลายล้านคนไม่ถูกทิ้งไว้ข้างหลังในยุคดิจิทัล โดยเปิดโอกาสให้พวกเขาสามารถใช้งาน AI และเทคโนโลยีต่างๆ ด้วยภาษาถิ่นของตัวเองได้
- ความสะดวกสบายในชีวิตประจำวัน: ในอนาคต ผู้บริโภคจะได้เห็นเทคโนโลยีนี้เข้าไปอยู่ในระบบคอลเซ็นเตอร์ของท้องถิ่น บริการของภาครัฐ (Smart City) หรือระบบผู้ช่วยอัจฉริยะ ที่สามารถเข้าใจพวกเขาได้เวลาพูดคุยอย่างเป็นธรรมชาติ
- ซับไตเติ้ลและสื่อที่ดีขึ้น: AI สามารถสร้างคำบรรยายใต้ภาพ (ซับไตเติ้ล) แบบอัตโนมัติที่มีความแม่นยำสูงสำหรับวิดีโอ พอดแคสต์ และการสัมภาษณ์คนในชุมชน ทำให้สื่อต่างๆ เข้าถึงได้ง่ายและแพร่หลายมากขึ้น
- ลดต้นทุนสำหรับธุรกิจและองค์กรท้องถิ่น: เนื่องจากเทคโนโลยีนี้เปิดให้ใช้งานฟรี (Open-source) และทำงานได้โดยไม่ต้องใช้คอมพิวเตอร์ราคาแพง โรงเรียน ธุรกิจท้องถิ่น และหน่วยงานรัฐ จึงสามารถนำระบบนี้ไปใช้ได้โดยไม่ต้องจ่ายเงินแพงๆ เพื่อซื้อบริการจากต่างประเทศ


