Large Language Model

Tags:
Node Thumbnail

Alibaba เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นล่าสุด Qwen3โดยบอกว่ามีผลการทดสอบในบางหัวข้อดีกว่า DeepSeek-R1, o1, o3-mini, Grok-3 และ Gemini-2.5-Pro

Qwen3 ออกโมเดลสองรุ่นย่อยคือ Qwen3-235B-A22B ขนาดพารามิเตอร์รวม 235B และพารามิเตอร์ที่ทำงาน 22B และโมเดลรุ่นเล็ก Qwen3-30B-A3B ขนาดพารามิเตอร์รวม 30B และพารามิเตอร์ที่ทำงาน 3B และมีโมเดลแบบ open-weighted อีก 6 ขนาดตั้งแต่ 0.6B ถึง 32B

Tags:
Node Thumbnail

Baidu เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่ในงานสัมมนาสำหรับนักพัฒนา Baidu Create 2025 ได้แก่ ERNIE X1 Turbo และ ERNIE 4.5 Turbo ซึ่งเป็นรุ่นถัดจาก สองโมเดลที่เปิดตัวเมื่อเดือนมีนาคม โดยบอกว่าทำงานเร็วขึ้น ด้วยต้นทุนที่ถูกลง

ERNIE X1 Turbo เป็นโมเดลคิดเป็นขั้นตอน ระบุว่าประสิทธิภาพและต้นทุนดีกว่า DeepSeek R1 V3 ตัวล่าสุด คิดราคาอินพุท 1 หยวนต่อ 1M โทเค็น และเอาท์พุท 4 หยวนต่อ 1M โทเค็น ซึ่งคิดเป็น 25% ของราคาใช้งาน DeepSeek R1

Tags:
Node Thumbnail

OpenAI ประกาศว่าเครื่องมือสำหรับค้นหาวิเคราะห์ข้อมูลเชิงลึก Deep Research ซึ่งตอนนี้ ผู้ใช้งานแบบเสียเงินทุกกลุ่ม สามารถใช้งานได้แบบจำกัดจำนวน ได้รับการตอบรับที่ดีมากจากผู้ใช้งาน OpenAI จึงหาแนวทางให้ทุกคนสามารถใช้งาน Deep Research ได้มากขึ้นด้วยการออกเวอร์ชันใหม่มาเสริม

OpenAI เรียก Deep Research เวอร์ชันใหม่นี้ว่า lightweight ทำงานบนโมเดล o4-mini สามารถค้นหาข้อมูลได้แบบ Deep Research เวอร์ชันปกติ แต่ใช้ต้นทุนที่ต่ำลง เพราะคำตอบจะมีขนาดสั้นลง ผลทดสอบความแม่นยำได้คะแนนน้อยกว่า Deep Research เวอร์ชันเต็มไม่มากนัก

Tags:
Node Thumbnail

Character.AI เปิดตัวโมเดล AI สร้างวิดีโอใหม่ชื่อ AvatarFXให้ผู้ใช้งานสร้างวิดีโอที่สามารถพูด ร้องเพลง แสดงออกทางอารมณ์ ได้จากอินพุทรูปภาพ ซึ่งผลลัพธ์ทำได้ทั้งรูปภาพบุคคลจริง ไปจนถึงคาแรกเตอร์การ์ตูนอนิเมชัน

การสร้างวิดีโอให้รูปภาพขยับปากหรือเคลื่อนไหวได้อาจไม่ใช่เรื่องใหม่ Character.AI ได้อธิบายจุดเด่นของ AvatarFX ว่ารองรับอินพุทหลากหลาย ทั้งรูป 2D, 3D ไปจนถึงใบหน้าสัตว์ ส่วนใบหน้าถูกปรับให้คงที่ไม่เพี้ยน และรองรับการทำวิดีโอขนาดยาว

Tags:
Node Thumbnail

หลังจาก กูเกิลประกาศรองรับโปรโตคอล Model Context Protocol (MCP) ซึ่งเป็นโปรโตคอลที่เชื่อมต่อแหล่งข้อมูลภายนอกกับโมเดล LLM ที่เริ่มพัฒนาโดย Anthropic แต่ก็ถูกยอมรับกันแพร่หลายในวงการ

ล่าสุดกูเกิลทยอยปล่อยของที่เกี่ยวกับ MCP อย่างรวดเร็ว คือ MCP Toolbox for Databasesหรือเรียกสั้นๆ ว่า Toolbox เป็นเซิร์ฟเวอร์ MCP ที่อยู่ตรงกลางระหว่างโมเดล LLM กับฐานข้อมูลประเภทต่างๆ ทั้งฐานข้อมูล on-premise แบบดั้งเดิม MySQL, PostgreSQL, Neo4j, Dgraph และฐานข้อมูลบนคลาวด์ เช่น Cloud SQL, Spanner , AlloyDB

Tags:
Node Thumbnail

เรื่องมีอยู่ว่า Chungin Lee นักศึกษา Columbia University เปิดเผย ว่าเขาถูกสั่งพักการศึกษา 1 ปี หลังจากพัฒนาเครื่องมือชื่อว่า Interview Coderซึ่งเป็น AI ช่วยทำข้อสอบเขียนโค้ดบนแพลตฟอร์ม LeetCode ที่หลายองค์กรใช้เป็นขั้นตอนแรกก่อนเรียกสัมภาษณ์งาน โดยไม่ถูกจับได้ แต่เมื่อองค์กรบางแห่งทราบเรื่องนี้ เพราะ Lee ลองใช้งานจนผ่านขั้นตอนทดสอบ ได้ทำหนังสือเตือนมาทางมหาวิทยาลัย จึงทำให้ Columbia University สั่งพักการศึกษา Lee

Tags:
Topics: 
Node Thumbnail

OpenAI เพิ่มโหมดการประมวลผลแบบ flex processing เป็นตัวเลือกตรงกลางระหว่างการเรียก API ตามปกติ และการสั่งงานแบบ batch processing ที่อาจจะต้องรอนานถึง 24 ชั่วโมง แถมยังใช้ API เหมือนการเรียก Chat Completions API และ Responses API ตามปกติ

เมื่อเราเรียก flex processing จะสามารถกำหนดช่วงเวลารอคอยเพิ่มเติม หรือหากไม่กำหนดจะระบุไว้ที่ 10 นาที การเชื่อมต่อจะเชื่อมต่อรอการประมวลผลเสร็จ ทำให้การใช้งานจริงแก้โค้ดจากการเรียก API เดิมๆ เพียงเล็กน้อยเท่านั้น แต่หากทาง OpenAI ไม่มีเซิร์ฟเวอร์ว่างภายในเวลาที่กำหนดก็จะได้ 429 Resource Unavailable มาแทน

Tags:
Topics: 
Node Thumbnail

ทีมวิจัย Microsoft Research เปิดตัวโมเดลภาษา BitNet ที่ขนาดเล็กพอจนสามารถรันในซีพียูได้

วงการโมเดลภาษา LLM รุ่นเล็กมีโมเดลหลายค่าย เช่น Llama ขนาดพารามิเตอร์ 1B และ 3B กรณีของ BitNet มีขนาดพารามิเตอร์ 2B และเทรนด้วยข้อมูลขนาด 4T (trillion tokens) แล้วถูกลดขนาดน้ำหนักข้อมูล (quantized) เพื่อให้ขนาดของโมเดลเล็กลง

จุดเด่นของ BitNet คือใช้เทคนิค quantization แบบ 1-bit (มีได้ 3 สถานะคือ -1, 0, 1) ตั้งแต่ตอนเทรนโมเดลเลย งานวิจัยนี้ต้องการพิสูจน์ว่าโมเดล 1-bit LLM ถ้าเทรนด้วยวิธีการที่ดีพอ ก็สามารถให้ผลลัพธ์ที่ดีไม่แพ้กับโมเดลที่ไม่ถูก quantized น้ำหนักได้

Tags:
Node Thumbnail

กูเกิลเผยสถิติการปราบปรามโฆษณาผิดกฎหมาย-ประสงค์ร้ายตลอดทั้งปี 2024 สามารถลบโฆษณาออกไปได้ 5.1 พันล้านชิ้น, จำกัดการมองเห็นอีก 9.1 พันล้านชิ้น และปิดบัญชีโฆษณาที่ละเมิดกฎไปได้ 39.2 ล้านบัญชี

เทคนิคที่กูเกิลใช้งานคือนำ LLM มาช่วยตรวจโฆษณา ถึงแม้ไม่ได้เปิดเผยรายละเอียดมากนัก แต่กูเกิลบอกว่าเพิ่มฟีเจอร์ให้โมเดล LLM กว่า 50 อย่างในปี 2024 ช่วยให้ตรวจสอบโฆษณาที่ซับซ้อนได้ดีขึ้น สามารถดักจับผู้ประสงค์ร้ายได้ตั้งแต่ตอนเริ่มเปิดบัญชี

ฝั่งของโฆษณาแบบ scam ก็ปรับนโยบายใหม่ให้เข้มงวดกว่าเดิม สามารถปิดบัญชีโฆษณา scam ลงได้ 700,000 บัญชี และลดโฆษณาแบบ scam ลงได้ 90%

ที่มา - Google

Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวโมเดล AI ที่คิดเป็นขั้นตอนก่อนตอบรุ่นล่าสุด o3 และ o4-mini ที่ระบุว่ามีประสิทธิภาพสูง ทำคะแนนจากผลการทดสอบได้ดี อย่างไรก็ตามโมเดลนี้ยังมีปัญหาที่กำลังแก้ไขอยู่

OpenAI เผยแพร่ข้อมูลใน System Card เกี่ยวกับโมเดล o3 และ o4-mini นี้ พูดถึงอาการหลอนหรือ Hallucination ในชุดทดสอบ PersonQA พบอัตราการหลอนของทั้ง 2 โมเดลนี้ สูงกว่าโมเดลคิดเป็นขั้นตอนรุ่นเก่าอย่าง o1

Tags:
Topics: 
Node Thumbnail

กูเกิลปล่อยโมเดลปัญญาประดิษฐ์ Gemma 3 รุ่นย่อแบบ Quantization Aware Training (QAT) เป็นโมเดลที่ถูกฝึกระหว่างการย่อโมเดลเหลือ Q4_O เล็กพอที่จะรัน Gemma 3 27B ในการ์ดจอแรม 14.1GB

โมเดล QAT อาศัยโมเดลเต็มแบบ BF16 เป็นต้นแบบแล้วฝึกโมเดลที่กำลังย่อให้จำลองตัวเองว่าถูกย่อไปแล้ว แต่ให้หาทางสร้างคำตอบให้ใกล้เคียงโมเดลเต็มให้ได้ การฝึกนี้ทำซ้ำประมาณ 5,000 รอบ กระบวนการนี้ทำให้เมื่อได้โมเดลสุดท้ายและย่อฟอร์แมตพารามิเตอร์ออกมาแล้วคุณภาพตกลงไปจากโมเดลต้นแบบไม่มาก

Gemma 3 QAT รองรับทั้ง Ollama, LM Studio, MLX, Gemma.cpp, และ llama.cpp โมเดลมี 4 รุ่นเท่ากับ Gemma 3 ตัวเต็ม ทำให้รุ่นเล็กที่สุดขนาดเพียง 0.5GB รันในโทรศัพท์มือถือได้

Tags:
Node Thumbnail

AMD เปิดตัว Amuse 3.0 แพลตฟอร์มที่ AMD พัฒนาร่วมกับ TensorStack AI สำหรับสร้างรูปภาพหรือวิดีโอสั้นด้วย AI แบบโลคอลบนฮาร์ดแวร์ของ AMD ด้วยโมเดลสร้างรูปภาพแบบปรับแต่งของ Stability AI ผู้พัฒนาโมเดล Stable Diffusion

Amuse 3.0 ที่ปรับแต่งบนฮาร์ดแวร์ของ AMD ทำให้ขั้นตอน Inference ทำได้เร็วขึ้นสูงสุด 4.3 เท่า บน AMD Radeon RX 9070 XT ด้วยโมเดล Stable Diffusion 1.5 และ 3.3 เท่าบน Stable Diffusion 3.5 Large

ดูรายละเอียดโมเดลทั้งหมดที่ปรับแต่งสำหรับจีพียู AMD ได้ที่ Hugging Face

Tags:
Topics: 
Node Thumbnail

หลังจาก กูเกิลเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กของซีรีส์ 2.5 ในงาน Google Cloud Next '25 ได้ประมาณหนึ่งสัปดาห์กว่าๆ ก็เริ่มให้บริการผ่าน Google AI Studio และ Vertex AI พร้อมเปิดเผยราคาและความสามารถแล้ว

กูเกิลตั้งราคาของ Gemini 2.5 Flash แพงกว่าโมเดลรุ่นก่อนหน้า Gemini 2.0 Flash เล็กน้อย (แต่ 2.5 มี Thinking ในขณะที่ 2.0 ไม่มี) โดยค่าอินพุตอยู่ที่ 0.15 ดอลลาร์ต่อ 1M token, ค่าเอาท์พุตอยู่ที่ 0.30 ดอลลาร์ต่อ 1M token และ 0.60 ดอลลาร์หากใช้ฟีเจอร์ reasoning ด้วย เทียบกับราคาของ 2.0 Flash ที่คิดอินพุต 0.10 ดอลลาร์และเอาท์พุต 0.40 ดอลลาร์ตามลำดับ

Tags:
Node Thumbnail

ไมโครซอฟท์ร่วมมือกับ OpenAI เปิดให้องค์กรธุรกิจใช้งาน OpenAI o3 และ o4-mini ใน Azure AI Foundry แล้ว รวมถึง GitHub Copilot ใน VS Code และ GitHub Models สำหรับนักพัฒนา

o3 และ o4-mini เป็น Reasoning Model ที่สามารถใช้เครื่องมือทั้งหมดภายใน ChatGPT ได้เป็นครั้งแรก ซึ่งได้แก่การค้นหาบนเว็บ, Python, การวิเคราะห์รูปภาพ, การตีความไฟล์ และการสร้างรูปภาพ โดย OpenAI เพิ่ง ประกาศเปิดตัว วันนี้

Tags:
Node Thumbnail

OpenAI เปิดตัวเครื่องมือใหม่ Codex CLIพร้อมกับการเปิดตัวสอง โมเดลใหม่ o3 และ o4-mini ซึ่งเป็น Agent ผู้ช่วยเขียนโค้ดที่รันโลคอลผ่าน Terminal บนคอมพิวเตอร์ของผู้ใช้งาน

Codex CLI เป็น Agent ขนาดเล็ก รองรับอินพุทในแบบข้อมูลผสมผสาน ทั้งการแปะภาพจับหน้าจอเพื่อให้อ่าน command line, ภาพร่าง ไปจนถึงการอ่านโค้ดที่รันอยู่บนอุปกรณ์ ซึ่ง OpenAI บอกว่าเครื่องมือนี้ออกแบบมาเพื่อเรียกใช้ประสิทธิภาพของ o3 และ o4-mini สูงสุด และจะรองรับโมเดล GPT-4.1 ผ่าน API ด้วย

Codex CLI เป็นโปรแกรมโอเพนซอร์ส สามารถ ดูรายละเอียดเพิ่มเติมได้ที่ GitHub

Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวโมเดลปัญญาประดิษฐ์ LLM คู่ใหม่ ได้แก่ o3 โมเดลประสิทธิภาพสูง ทำคะแนนได้ดีทั้งด้านการเขียนโปรแกรมและการวิเคราะห์ภาพ และ o4-mini โมเดลเล็กลงมาเพื่อความเร็วที่ดีขึ้น แต่ยังได้ประสิทธิภาพที่ดีอยู่

ความพิเศษของทั้งสองโมเดลคือฝึกมาเพื่อให้ "คิดขณะมองภาพ" โมเดลจะมองภาพและคิดไปด้วยได้ เช่นหากพบภาพกลับหัว ก็สามารถซูมแล้วกลับหัวภาพเพื่ออ่านข้อความได้อัตโนมัติ หรือการแก้ปัญหาเขาวงกตก็สามารถเขียนโปรแกรมวาดภาพแล้วกลับมามองภาพอีกทีว่าวาดเส้นทางถูกต้องหรือไม่

อีกความสามารถหนึ่งคือการฝึกโมเดลให้ใช้เครื่องมือโดยเฉพาะ เช่น การเขียนโค้ด, ค้นหาเว็บ, ซูมภาพทีละส่วน โดยกระบวนการฝึกโมเดลมีการฝึกให้ใช้เครื่องมือเหล่านี้แบบ reinforcement learning เพื่อให้ได้ผลที่ดีที่สุด

Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป

Tags:
Node Thumbnail

Grok แชทบอต AI จากบริษัท xAI ของ Elon Musk ออกเครื่องมือใหม่ Grok Studioเป็นพื้นที่สำหรับแก้ไขปรับแต่งผลลัพธ์จาก AI แบบต่อเนื่อง ในรูปแบบ canvas เหมือน กับ เครื่องมือ ที่เคยเห็นจาก ค่ายอื่น

Grok Studio ทำงานโดยเรียกหน้าต่างแยกออกมา เพื่อจัดการเนื้อหาและผลลัพธ์โดยเฉพาะ ความสามารถที่นำเสนอคือ Code Execution สามารถสร้างโค้ด ดูพรีวิวผลลัพธ์ ตอนนี้รองรับ HTML, Python, C++, Javascript, Typescript และ bash นอกจากนี้ยังใช้งานด้านอื่น เช่น การแก้ไขเนื้อหาเฉพาะส่วน ปรับแต่งข้อมูลตามที่ไฮไลท์ เป็นต้น

Tags:
Topics: 
Node Thumbnail

อัปเดตสั้น ๆ จาก OpenAI เกี่ยวกับฟีเจอร์ใน ChatGPT หลังประสบความสำเร็จจากฟีเจอร์ Image Generation จนทำให้ผู้ใช้งานต่าง prompt คำสั่งสร้างรูปภาพด้วย AI กันเป็นจำนวนมาก ตอนนี้เลยเจอปัญหารูปเยอะ หาย้อนหลังลำบาก

ChatGPT เลยเพิ่มฟังก์ชัน Image Library ซึ่งการทำงานก็ตรงตามชื่อ ผู้ใช้งานสามารถเรียกดูคลังรูปภาพที่เคยสร้างไว้รวมในอัลบั้มเดียว

Image Library รองรับผู้ใช้งาน ChatGPT ทุกประเภททั้งแบบฟรีและเสียเงิน

ที่มา: OpenAI

Tags:
Node Thumbnail

ผู้ใช้ Cursor จำนวนหนึ่งประสบปัญหาถูกตัดออกจากบริการเมื่อล็อกอินพร้อมกันหลายเครื่อง ปัญหานี้เป็นปัญหาที่เกิดขึ้นได้แต่เมื่อผู้ใช้อีเมลไปถามซัพพอร์ต AI ซัพพอร์ตกลับยืนยันว่าเป็นเป็นตามนโยบายการล็อกอิน

เมื่อผู้ใช้ Cursor ได้รับการยืนยันว่าหลังจากนี้จะบังคับล็อกอินทีละเครื่องทำให้ลูกค้าจำนวนมากไม่พอใจ หลายคนประกาศว่าจะเลิกใช้บริการ แต่ภายหลัง mntruell ผู้ร่วมก่อตั้ง Cursor ก็ออกมายืนยันว่าบริษัทไม่ได้มีนโยบายห้ามล็อกอินหลายเครื่อง พร้อมกับบอกว่าหน้า UI ของ Cursor เองถึงกับมีส่วนที่บอกว่าล็อกอินไว้ที่ไหนบ้างด้วยซ้ำ โดยปัญหาที่ผู้ใช้ถูกเตะออกจากระบบเมื่อล็อกอินหลายเครื่องเกิดจากการอัพเดตความปลอดภัยหลังบ้าน

Tags:
Node Thumbnail

DeepSeek ประกาศแนวทางการพัฒนาซอฟต์แวร์รันโมเดลปัญญาประดิษฐ์ (inference engine) หลังจากก่อนหน้านี้บริษัทใช้ vLLM รุ่นพิเศษที่แก้ไขภายในเพื่อให้บริการ มาเป็นการทำงานร่วมกับโครงการโอเพนซอร์ส

ก่อนหน้านี้ DeepSeek เปิดซอฟต์แวร์ที่เกี่ยวข้องกับระบบรันปัญญาประดิษฐ์จำนวนมาก โดยซอฟต์แวร์มักเป็นการออปติไมซ์ประสิทธิภาพการรันปัญญาประดิษฐ์บนชิป NVIDIA Hopper ทาง DeepSeek ระบุว่าเคยพิจารณาว่าจะเปิดเอนจินออกมาทั้งชุด แต่พบปัญหา 3 ประการ

Tags:
Node Thumbnail

OpenAI เปิดเผยว่า GPT-4.5 โมเดล AI ขนาดใหญ่ที่เปิดตัวเมื่อเดือนกุมภาพันธ์ที่ผ่านมา จะปิดการเข้าถึงใช้งาน API สำหรับนักพัฒนา ตั้งแต่ 14 กรกฎาคมเป็นต้นไป หลังจาก OpenAI เปิดตัว โมเดลใหม่ GPT-4.1 เมื่อคืนนี้

OpenAI บอกว่า GPT-4.1 มีความสามารถการทำงานที่ใกล้เคียงหรือดีกว่า GPT-4.5 ในหลายด้าน ด้วยต้นทุนการใช้งานที่ต่ำกว่า ดังนั้นบริษัทจะปิดการใช้งานโมเดลนี้ เพื่อนำทรัพยากรไปโฟกัสที่การพัฒนาโมเดลใหม่ในอนาคตแทน

ปัจจุบันโมเดล GPT-4.5 เปิดให้ใช้งานในสถานะพรีวิวงานวิจัยโดยยังใช้งานได้ต่อไปผ่าน ChatGPT

Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวโมเดล GPT-4.1 เป็นชุดโมเดล LLM สามขนาดปรับปรุงความสามารถจาก GPT-4o ทำให้รองรับอินพุตถึง 1 ล้านโทเค็น และเพิ่มความสามารถด้านการเขียนโปรแกรมจนสูงกว่าโมเดล OpenAI o3-mini ที่ราคาแพงกว่ามาก

ทาง OpenAI โชว์ผลทดสอบของ GPT-4.1 ด้วยการทดสอบ SWE Bench Verified ได้คะแนนถึง 55% (เหลือ 52% ถ้านับข้อที่มีปัญหาระหว่างทดสอบ) สามารถตอบเป็น diff เพื่อการแก้ไขไฟล์ได้ค่อนข้างแม่นยำ ความเปลี่ยนแปลงสำคัญคือการขยายอินพุตเป็น 1 ล้านโทเค็น ผลทดสอบ needle in haystack สามารถหาข้อมูลได้ทุกจุด

Tags:
Node Thumbnail

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาขนาดใหญ่ตัวใหม่ ซึ่งจากชื่อก็พอเดากันได้ว่ามันคือโมเดลภาษาโลมา!

โลมาเป็นสิ่งมีชีวิตที่มีความฉลาดสูง มีภาษาของตัวเองที่สื่อสารระหว่างกันได้ แต่ก็เป็นความยากของมนุษย์ในการทำความเข้าใจภาษาของโลมา เมื่อมีเทคโนโลยีแบบ LLM เข้ามาช่วยเรียนรู้แพทเทิร์นของภาษาโลมา

DolphinGemma เป็นความร่วมมือของกูเกิลกับทีมนักวิจัยจากมหาวิทยาลัย Georgia Tech และโครงการวิจัยโลมา Wild Dolphin Project (WDP) โดยใช้คลังเสียงและฟุตเตจวิดีโอของ WDP ที่สะสมมาตั้งแต่ปี 1985 ร่วมกับโมเดลฐานคือ Gemma ของกูเกิล ตัวโมเดล DolphinGemma ที่เทรนได้มีขนาด 400M พารามิเตอร์ ตอนเทรนใช้เทคนิค SoundStream ของกูเกิลมาแปลงคลื่นเสียงโลมาเป็น token

Tags:
Node Thumbnail

กูเกิลเปิดตัวโมเดลแต่งเพลงชื่อ Lyria สามารถสั่งสร้างเพลงได้จากพร็อมต์ข้อความได้เลย ตัวโมเดลจะเปิดใช้งานบน Vertex AI ในระยะถัดไป

ในแง่ความสามารถของ Lyria คงไม่ต่างจากโมเดลแต่งเพลงอื่นๆ นัก (คงต้องให้ผู้เชี่ยวชาญลองพิสูจน์กัน) แต่จุดขายของกูเกิลคือมีโมเดลสร้างสื่อครบทุกอย่างแล้ว ตั้งแต่ Gemini (ข้อความ), Imagen 3 (ภาพ), Veo 2 (วิดีโอ), Chirp 3 (เสียงพูด) และล่าสุดคือ Lyria (เสียงเพลง)

Pages