Stability AI เปิดตัวโมเดลปัญญาประดิษฐ์สร้างรูปภาพรุ่นล่าสุด Stable Diffusion 3.5โดยบอกว่ามีจุดเด่นคือผู้ใช้งานสามารถคัสตอมได้มากขึ้น รองรับการรันบนฮาร์ดแวร์โลคอล มีรุ่นย่อย 3 รุ่นได้แก่
- Stable Diffusion 3.5 Large8B พารามิเตอร์ รองรับการสร้างรูปภาพความละเอียด 1 เมกะพิกเซล
- Stable Diffusion 3.5 Large Turboรุ่นปรับแต่งจาก Large เน้นการทำงานที่เร็วขึ้น โดยได้ผลลัพธ์ความละเอียดที่ใกล้เคียง
- Stable Diffusion 3.5 Medium2.5B พารามิเตอร์ ปรับปรุงการเทรนโมเดล ให้สามารถรันได้บนอุปกรณ์ผู้ใช้งาน ความละเอียดภาพอยู่ในช่วง 0.25 ถึง 2 เมกะพิกเซล
Linux Foundation รับกลุ่มพัฒนาโมเดลปัญญาประดิษฐ์แบบเปิด Open Model Initiative (OMI) เข้ามาเป็นโครงการในสังกัด หวังแก้ปัญหาโมเดลสร้างภาพและวิดีโอรุ่นใหม่ๆ ใช้สัญญาอนุญาตที่จำกัดมากขึ้นเรื่อยๆ
OMI ก่อตั้งโดยหน่วยงานเล็กๆ 3 ราย ได้แก่ Invoke บริษัทแพลตฟอร์มสร้างภาพด้วย AI สำหรับงานโปรดักชันมืออาชีพ, ComfyOrg ทีมพัฒนา ComfyUI ระบบ GUI สำหรับโมเดล Stable Diffusion, Civitai แพลตฟอร์มแลกเปลี่ยนภาพ AI ของเหล่าครีเอเตอร์
Stability AI เปิดตัว Stable Fast 3D(SF3D) เทคโนโลยีการสร้างวัตถุสามมิติจากรูปภาพเพียงหนึ่งรูป โดยมีจุดขายตามชื่อ นั่นคือการสร้างวัตถุสามมิติได้ในเวลาเพียง 0.5 วินาที
ก่อนหน้านี้ เคยออกโมเดลสร้างวัตถุสามมิติจากรูปภาพ Stable Video 3D แต่โมเดลนั้นใช้เวลาระดับ 10 นาที ในการสร้างผลลัพธ์ออกมา โมเดล Stable Fast 3D จึงรวดเร็วกว่ามาก
Stability AI เผยแพร่โมเดลใหม่เรียกชื่อว่า Stable Video 4Dโดยตอนนี้ยังมีสถานะเป็นงานวิจัย ระบุว่าเป็นการก้าวไปอีกขั้นของการสร้างหลายวิดีโอด้วย AI แบบหลายมุมมอง
การทำงานของ Stable Video 4D ผู้ใช้งานจะอัปโหลดวิดีโอสั้น แล้วได้ผลลัพธ์ออกมาเป็นวิดีโอที่มีมุมมองแตกต่างกัน 8 มุมมอง จึงเป็นการเพิ่มความสามารถที่เดิมเป็นการสร้างวิดีโอ มาสู่การสร้างวิดีโอแบบ 3D ให้มุมมองครอบคลุม
Stable Video 4D ตอนนี้สามารถสร้างวิดีโอ 5 เฟรม ใน 8 มุมมอง ความยาวรวม 40 วินาที กระบวนการสร้าง 4D ใช้เวลาประมาณ 20-25 นาที ผลลัพธ์วิดีโอนี้สามารถนำไปใช้งานได้ทั้งการพัฒนาเกม การตัดต่อวิดีโอ ไปจนถึงคอนเทนต์ VR เพิ่มความสมจริงให้กับผลิตภัณฑ์
Stability AI บริษัทปัญญาประดิษฐ์เจ้าของโมเดล Stable Diffusion ประกาศว่าบริษัทได้รับเงินลงทุนรอบใหม่ จากกลุ่มนักลงทุนได้แก่ Greycroft, Coatue, Sound Ventures, Lightspeed, O'Shaughnessy Ventures และกลุ่มนักลงทุนบุคคลได้แก่ Sean Parker, Eric Schmidt, Robert Nelsen และ Prem Akkaraju
ก่อนหน้านี้มีรายงานข่าวเกี่ยวกับ ปัญหาทางการเงินของ Stability AI จนทำให้บริษัท พิจารณาทางเลือกขายกิจการ ด้วย อย่างไรก็ตามเงินลงทุนรอบนี้ Stability AI ไม่ได้ประกาศจำนวนอย่างเป็นทางการ บอกเพียงเป็นจำนวนเงินที่สูงมากอย่างมีนัยยะสำคัญ
The Information อ้างแหล่งข่าวที่เกี่ยวข้อง ระบุว่า Stability AI ได้ซีอีโอคนใหม่แล้ว โดยแต่งตั้ง Prem Akkaraju อดีตซีอีโอ Weta Digital บริษัทด้านวิชวลเอฟเฟกต์ มาเป็นซีอีโอคนใหม่
ก่อนหน้านี้ Stability AI บริษัทปัญญาประดิษฐ์เจ้าของโมเดล Stable Diffusion ได้ประกาศว่า Emad Mostaque ลาออกจากตำแหน่งซีอีโอ จากนั้นจึงมีข่าวเรื่อง ปัญหาทางการเงิน ของบริษัท ที่ทำให้อยู่ขั้นตอน เจรจาหาคนซื้อกิจการ
Stability AI เปิดตัวโมเดลสร้างรูปภาพจากข้อความ Stable Diffusion 3 Mediumที่ปรับปรุงจาก Stable Diffusion 3 มีขนาด 2B พารามิเตอร์ ด้วยจุดเด่นคือขนาดที่เล็กลง
การทำขนาดให้เล็กลงนั้นเพื่อให้ Stable Diffusion 3 Medium สามารถนำไปรันได้บนคอมพิวเตอร์ที่มีจีพียูเกรด Consumer (ขั้นต่ำมี จีพียู VRAM 5GB) รองรับความต้องการของผู้ใช้งานแบบบุคคลและองค์กร ที่มีข้อจำกัดด้านทรัพยากร โดยได้ผลลัพธ์คุณภาพสูง
Stability AI เปิดตัวโมเดล Stable Audio Open เป็นโมเดลสร้างเสียงจากข้อความ (text-to-audio) แบบโอเพนซอร์ส เวอร์ชันตัดทอนความสามารถลงจาก Stable Audio เวอร์ชันใช้งานเชิงพาณิชย์
ความแตกต่างสำคัญของ Stable Audio Open กับ Stable Audio ตัวเต็มคือเวอร์ชัน Open สามารถสร้างเสียงได้ 47 วินาที เทียบกับตัวเต็ม 3 นาที โดยทาง Stability AI ระบุว่าโมเดล Open ออกแบบมาสำหรับเพื่อสร้างเสียงตัวอย่างและซาวน์เอฟเฟคต์ มากกว่าเป็นการสร้างเพลงแบบเต็มเพลง ตัวอย่างเสียงสามารถฟังได้จากที่มา
มีรายงานว่า Stability AI บริษัทปัญญาประดิษฐ์จากอังกฤษ เจ้าของโมเดล Stable Diffusion ซึ่งก่อนหน้านี้มีข่าวว่าบริษัท กำลังประสบปัญหาการเงิน ได้เริ่มเจรจาหาคนมาซื้อกิจการแล้ว โดยตอนนี้มีหนึ่งรายที่มีโอกาสปิดดีลได้สำเร็จ
รายงานบอกว่า Stability AI มีผลประกอบการในไตรมาสแรกของปี 2024 มีรายได้ น้อยกว่า5 ล้านดอลลาร์ และขาดทุนมากกว่า 30 ล้านดอลลาร์ รายการหนี้สินระยะสั้นสะสมมีมากกว่า 100 ล้านดอลลาร์ ซึ่งรวมทั้งค่าเช่าคลาวด์และรายการค่าใช้จ่ายอื่น
ก่อนหน้านี้ซีอีโอของ Stability AI คือ Emad Mostaque ได้ ลาออกจากตำแหน่ง พร้อมกับข่าวการปลดพนักงานจำนวนหนึ่ง
Stability AI บริษัทปัญญาประดิษฐ์สัญชาติอังกฤษ เจ้าของโมเดล Stable Diffusion ที่ เพิ่งประกาศเปลี่ยนตัวซีอีโอ เริ่มมีข่าวไม่ดีออกมาต่อเนื่อง โดยข่าวล่าสุดบอกว่าบริษัทมีปัญหาการเงิน และขาดแคลนเงินทุนที่ใช้เช่าจีพียูราคาแพง
ข้อมูลนี้มาจาก Forbes ที่อ้างว่าได้เอกสารภายในของ Stability AI ระบุว่าบริษัทมีต้นทุนค่าเช่าจีพียูบนคลาวด์ราว 99 ล้านดอลลาร์ต่อปี (เช่าจาก AWS, Google Cloud, CodeWeaver) บวกกับต้นทุนค่าใช้จ่ายอื่นๆ เช่น เงินเดือนพนักงาน ค่าดำเนินการ อีกราว 54 ล้านดอลลาร์ต่อปี ในขณะที่บริษัทมีรายได้ในปี 2023 เพียง 11 ล้านดอลลาร์เท่านั้น
Stability.ai เปิดตัวโมเดล Stable Audio 2.0 ที่เป็น AI สร้างเพลงเวอร์ชันล่าสุด โดยสิ่งที่พัฒนาจาก เวอร์ชันแรก สามารถสร้างเพลงได้ยาวขึ้นเป็น 3 นาที (เวอร์ชันแรก 95 วินาที) คุณภาพเสียง 44.1 kHz
ตัวโมเดลยังเพิ่มความสามารถจากอินพุทข้อความ text-to-audio โดยเพิ่มการรองรับ audio-to-audio ด้วย ผู้ใช้งานอัปโหลดไฟล์เสียงเป็นตัวอย่างตั้งต้น และใช้ prompt เพื่อปรับให้ได้เสียงเพลงในรูปแบบที่ต้องการ
Stability AI บริษัทเจ้าของโมเดลสร้างรูปภาพ Stable Diffusion ประกาศการเปลี่ยนแปลงของซีอีโอ มีรายละเอียดดังนี้
- Emad Mostaque ลาออกจากตำแหน่งซีอีโอ และกรรมการบอร์ดบริษัท
- Shan Shan Wong ซีโอโอ และ Christian Laforte ซีทีโอ จะเป็นซีอีโอชั่วคราวร่วม
Mostaque ให้เหตุผลของการลาออกว่าเพื่อเปลี่ยนไปทำงานด้าน AI แบบกระจายศูนย์ (Decentralized AI) โดยบอร์ดบริษัท Stability AI จะทำการสรรหาซีอีโอคนใหม่ต่อไป
Stability AI เผยแพร่เครื่องมือใหม่ Stable Video 3Dโมเดลสร้างวิดีโอวัตถุ 3D ที่พัฒนาต่อยอดจาก Stable Video Diffusion จึงได้ผลลัพธ์ที่มีความคมชัดและรองรับมุมมองที่หลากหลายมากกว่าโมเดลเดิม Stable Zero123
Stable Video 3D มีสองรูปแบบการใช้งานคือ SV3D_u ใช้อินพุทรูปภาพ ไม่ต้องใช้ข้อมูลมุมกล้อง และ SV3D_p ที่ใช้อินพุทรูปภาพและมุมมองรอบวัตถุ ทำให้ได้ผลลัพธ์ที่รองรับมุมมองต่าง ๆ สามารถนำไปใช้งานต่อได้หลากหลายความต้องการ
ทีมงาน Stability.AI รายงานถึงผลทดสอบประสิทธิภาพของชิปฝึกโมเดลปัญญาประดิษฐ์ โดยเทียบระหว่างชิป Intel Gaudi 2 , NVIDIA H100, และ NVIDIA A100 พบว่าชิปฝั่งอินเทลนั้นประสิทธิภาพดีกว่ามาก เมื่อรันที่พารามิเตอร์การฝึกใกล้เคียงกัน Gaudi 2 ฝึกภาพได้ถึง 927 ภาพต่อวินาที เทียบกับ H100 ที่ได้ 595 ภาพต่อวินาที คิดเป็น 1.5 เท่าตัว แถมแรมใน Gaudi 2 ยังสูงกว่าอยู่ที่ 96GB ทำให้ปรับพารามิเตอร์เพื่อเร่งความเร็วขึ้นไปอีกได้
Stability.AI รายงานผลทดสอบ Stable Diffusion 3 (SD3) ปัญญาประดิษฐ์วาดภาพที่ เปิดตัวไปก่อนหน้านี้ โดยรอบนี้เปิดเผยสถาปัตยกรรมภายในเพิ่มเติมพร้อมกับรายงานผลทดสอบเทียบกับโมเดลอื่นๆ ในท้องตลาด
ผลทดสอบโดยอาศัยมนุษย์เป็นกรรมการตัดสินในสามหัวข้อ ได้แก่ ความสวยงาม, การทำตามคำสั่ง, และตัวอักษรในภาพ พบว่า SD3 ชนะโมเดลอื่นๆ แทบทั้งหมด ยกเว้นกรณีเดียวคือการเทียบความสวยงามกับ โมเดล Ideogram 1.0
Stability AI เปิดตัวเครื่องมือสร้างรูปภาพจากข้อความด้วย AI เวอร์ชันล่าสุด Stable Diffusion 3ตอนนี้อยู่ในสถานะพรีวิวขั้นต้น จึงยังไม่เปิดให้ใช้งานทั่วไปในวงกว้าง แต่ผู้ใช้งานสามารถเข้าร่วมใน waitlist เพื่อ ทดสอบได้ที่นี่
Stable Diffusion 3 เป็นโมเดลที่มีพารามิเตอร์ตั้งแต่ 800M ถึง 8B พารามิเตอร์ จึงรองรับตัวเลือกและคุณภาพของผลลัพธ์ที่มากยิ่งขึ้น
ในตอนนี้ Stability AI ยังไม่ได้เปิดเผยรายละเอียดของ Stable Diffusion 3 มากนัก มีเพียงการนำเสนอภาพที่สร้างขึ้นมาจำนวนหนึ่ง แต่บอกว่าจะเผยแพร่รายละเอียดทางเทคนิคในภายหลัง ขณะนี้อยู่ในขั้นตอนนี้ตรวจสอบด้านความปลอดภัยของ AI ก่อนเผยแพร่ในวงกว้างกับสาธารณะต่อไป
Stability AI เปิดตัวโมเดลสร้างรูปภาพจากข้อความ Stable Cascadeที่สถานะตอนนี้ยังเป็นงานวิจัย สามารถนำไปใช้งานได้ในงานที่ไม่ใช่เชิงพาณิชย์ สามารถดูรายละเอียดเพิ่มเติมได้ที่ GitHub
Stable Cascade เป็นโมเดลสร้างรูปภาพที่มีขั้นตอนการทำงานต่างไปจาก Stable Diffusion ที่เป็นเครื่องมือสร้างรูปภาพหลักของ Stability AI โดยประกอบด้วย 3 โมเดลย่อยบนสถาปัตยกรรม Würstchen ขั้นตอนแรกเรียกว่า Stage C เป็นการสร้างรายละเอียดย่อยในภาพ (Latent Generator) แล้วส่งต่อไป Stage B และ Stage A เพื่อปรับแต่งความละเอียดรูปภาพให้ออกมาคมชัด ผลลัพธ์ที่ได้นอกจากภาพที่ละเอียดมากกว่า ยังใช้เวลาในการสร้างรูปภาพที่สั้นกว่าโมเดลเดิมด้วย
Stability AI บริษัทเจ้าของโมเดลสร้างภาพ Stable Diffusion เปิดตัวโมเดลภาษาเวอร์ชันใหม่ Stable LM 2 ซึ่งเป็นเวอร์ชันปรับปรุงจาก Stable LM เวอร์ชันแรกที่เปิดตัวในเดือนเมษายน 2023
ความน่าสนใจของ Stable LM 2 คือตัวโมเดลมีขนาดเล็กลงเหลือเพียง 1.6 พันล้านพารามิเตอร์ (เวอร์ชันแรกเริ่มต้น 3 ล้านพารามิเตอร์) ถือเป็นโมเดลภาษาขนาดเล็ก small language model (SLM) ที่นำไปรันบนฮาร์ดแวร์สเปกต่ำได้กว้างขวางกว่าโมเดลภาษาขนาดใหญ่ (LLM)
Stability AI เปิดตัว Stable Video Diffusionโมเดล AI สำหรับสร้างวิดีโอที่อิงพื้นฐานจากโมเดลสร้างรูปภาพ Stable Diffusion ที่สร้างรูปภาพขึ้นจากตัวหนังสือ โดยสถานะตอนนี้เป็นพรีวิวงานวิจัย ทำให้ผู้นำไปใช้งานต่อต้องยอมรับเงื่อนไขก่อน
Stable Video Diffusion ตอนนี้มี 2 โมเดลย่อย สำหรับการสร้างวิดีโอขึ้นจากรูปภาพ (image-to-video) คือ SVD สร้างวิดีโอที่ 14 เฟรม และ SVD-XT ที่ 25 เฟรม สามารถปรับแต่งเฟรมเรตได้ที่ 3-30 เฟรมต่อวินาที
ดูตัวอย่างวิดีโอที่สร้างขึ้นด้วย Stable Video Diffusion ได้ท้ายข่าว
ที่มา: Stability AI
ผู้พิพากษา William H. Orrick จากศาลเหนือยกคำร้องคดีที่ นักวาด Sarah Anderson, Kelly McKernan, และ Karla Ortiz ยื่นฟ้องแบบกลุ่มกับ Stability AI, Midjourney, และ DeviantArt ที่สร้างโมเดลปัญญาประดิษฐ์สร้างภาพมาให้บริการ
ประเด็นที่ Orrick ระบุว่าคำฟ้องมีปัญหา คือ ภาพที่ผู้พัฒนาปัญญาประดิษฐ์ใช้ฝึกนั้นไม่ได้เป็นภาพติดลิขสิทธิ์ไปทั้งหมด ขณะที่ภาพที่ได้นั้นจะถือว่าละเมิดลิขสิทธิ์ได้ก็ต้องดูว่ามีความคล้ายกับภาพต้นฉบับในระดับที่มากพอ
คำพิพากษายังเปิดช่องให้ผู้ฟ้องสามารถยื่นฟ้องใหม่โดยบีบคำฟ้องให้แคบลงให้เหลือเฉพาะภาพที่ติดลิขสิทธิ์เท่านั้น และคำฟ้องที่ระบุว่า Stability AI นำภาพไปใช้งานโดยไม่ได้รับความยินยอมก็ยังดำเนินคดีต่อไปได้
Stability.ai โชว์โมเดล Stable Audio ปัญญาประดิษฐ์สร้างเพลง ชูจุดเด่นที่สามารถสร้างเพลงที่ขึ้นต้นและลงท้ายได้ขึ้น พร้อมกับการทำงานที่เร็ว โมเดลรันบน NVIDIA A100 ใบเดียวสามารถสร้างเพลงยาว 95 วินาทีได้ใน 1 วินาทีเท่านั้น
สถาปัตยกรรมของ Stable Audio รวมเอาข้อมูลเวลาของเสียงที่กำลังสร้างเข้าไปด้วย ทำให้ควบคุมความยาวของเพลงโดยรวมได้ ตัวโมเดล diffusion หลักมีขนาด 907 ล้านพารามิเตอร์ ฝึกกับไฟล์เสียง 800,000 ไฟล์ รวมกว่า 19,500 ชั่วโมง
Stability.AI บริษัทปัญญาประดิษฐ์โอเพนซอร์สเปิดตัว StableCode ปัญญาประดิษฐ์ช่วยเขียนโค้ด สามารถดาวน์โหลดมาใช้งานได้ในเครื่องตัวเอง
StableCode มีสามเวอร์ชั่น ได้แก่
ทีมวิจัย MedARC ประกาศผลการพัฒนาปัญญาประดิษฐ์ MindEye ที่สามารถหาว่ามนุษย์มองภาพอะไรอยู่ จากจข้อมูล fMRI ที่ดูการทำงานของสมองระหว่างมองภาพ และใช้ปัญญาประดิษฐ์สร้างภาพขึ้นมาจนคล้ายภาพที่มนุษย์มองเห็นได้จริงๆ
MindEye รับข้อมูลจาก fMRI เป็นข้อมูล 15,000 voxel แล้วแปลงเป็น embedding สามารถเลือกภาพจากภาพตัวอย่างที่ให้มนุษย์มอง 982 ภาพได้ความแม่นยำ 93.2% และเมื่อหาภาพจากฐานข้อมูล LAION-5B จำนวนกว่า 5 พันล้านภาพก็ยังได้ภาพที่ใกล้เคียงกันมาก ทีมงานนำเอาท์พุตจาก MindEye ไปใส่ปัญญาประดิษฐ์สร้างภาพเพื่อสร้างภาพที่ได้ค่า embedding ใกล้เคียงกันก็ทำให้ได้ภาพที่คล้ายกับภาพที่มนุษย์กำลังมองอยู่ยิ่งขึ้น
CNBC รายงานว่า Emad Mostaque ผู้ร่วมก่อตั้งและซีอีโอของบริษัท Stability AI ได้ให้สัมภาษณ์กับนักวิเคราะห์จาก UBS ว่าปัญญาประดิษฐ์อาจเป็นฟองสบู่ที่ใหญ่ที่สุดตลอดกาล แต่ตอนนี้ยังอยู่ในช่วงเริ่มต้น
Stability AI เป็นบริษัทที่อยู่เบื้องหลัง Stable Diffusion AI สร้างภาพจากการป้อนข้อความ มีผู้ใช้งานมากกว่าหนึ่งล้านคนและได้รับเงินลงทุนเกิน 100 ล้านเหรียญดอลลาร์ จากนักลงทุนรวมถึง Coatue และ Lightspeed Venture Partners ถือว่าเป็น AI ที่ได้รับความนิยมพอๆ กับ OpenAI ผู้ให้บริการ ChatGPT
Stability AI บริษัทเจ้าของอัลกอริทึมสร้างภาพ Stable Diffusion (ที่ใช้ในบริการ Midjourney) เปิดตัว StableStudio ชุดเครื่องมือ UI สร้างแบบ generative AI แบบโอเพนซอร์ส
Stability AI มีตัวเครื่องมือ UI สำหรับสร้างภาพ AI ชื่อ DreamStudio อยู่ก่อนแล้ว (เป็นเว็บแอพที่รันบนเซิร์ฟเวอร์ของ Stability AI) ตัว StableStudio เป็นเวอร์ชันโอเพนซอร์สของ DreamStudio ที่เปิดให้นำไปรันบนเครื่องตัวเองได้ ความแตกต่างมีเพียงแค่เรื่องแบรนด์, การเปลี่ยนระบบ API เป็นระบบปลั๊กอิน, ตัดฟีเจอร์พวกคิดเงินและจัดการ API key ออกไปเท่านั้น