ในโลกของ RAG (Retrieval-Augmented Generation) และ Semantic Search การเลือก Embedding Model ที่เหมาะสมส่งผลกระทบอย่างมากต่อคุณภาพของผลลัพธ์ โพสต์นี้เราจะเจาะลึกการทดสอบ Cohere Embed v4 ในภาษาไทยและภาษาอื่นๆ รวมถึงเปรียบเทียบกับทางเลือกอื่นที่น่าสนใจ

Cohere Embed v4 คืออะไร

Cohere เป็นบริษัท AI จาก Toronto ที่พัฒนา Embedding Model สำหรับงาน Multi-language ซึ่งรองรับกว่า 100 ภาษา รวมถึงภาษาไทยอย่างครบถ้วน

สเปคหลัก

การเปรียบเทียบสถาปัตยกรรม

เราทดสอบ Embedding Models หลายตัวในภาษาไทยโดยเฉพาะ เพื่อวัดความแม่นยำในการค้นหา Semantic

Model Provider Dimensions Latency (p50) Thai Accuracy ราคา/1M tokens
Cohere embed-multilingual-v3.0 Cohere 1024 85ms 0.87 $0.10
text-embedding-3-large OpenAI 3072 120ms 0.82 $0.13
embed-v3.0-th HolySheep 1024 32ms 0.89 $0.02
BGE-m3 HuggingFace 1024 95ms 0.84 Local

การทดสอบในภาษาไทย

เราสร้าง Test Dataset จากเอกสารภาษาไทย 500 ชุด ครอบคลุมหัวข้อต่างๆ เช่น กฎหมาย การแพทย์ เทคโนโลยี และธุรกิจ

Test Queries ตัวอย่าง

queries = [
    "วิธีการคำน