Google DeepMind
DeepMind เปิดตัวโมเดล Genie 2 โมเดลที่ต้องการเพียงภาพนิ่งภาพเดียวก็สามารถสร้างเกมที่สามารถควบคุมด้วยคีย์บอร์ดและเมาส์ได้ทันที
ก่อนหน้านี้ DeepMind เคย เปิดโมเดล GameNGen สำหรับการสร้างเกม และ Genie ที่สร้างเกมได้จำกัดมาก่อนแล้ว
ความพิเศษของ Genie 2 คือ เมื่อใส่ภาพเข้าไปแล้วรันโมเดลโดยใส่อินพุตควบคุมตัวละคร Genie 2 จะรับรู้ว่าตัวละครหลักที่ต้องควบคุมคือตัวใด เช่น หากมีหุ่นยนต์ในป่าก็จะควบคุมหุ่นยนต์ไม่ใช่ต้นไม้ ตัวโมเดลมีความสามารถในการจำสภาพแวดล้อมที่เคยสร้างเอาไว้ประมาณหนึ่งนาที และยังสามารถจำลองฟิสิกส์ เช่น ลูกโป่งระเบิด, ควันไฟ, หรือแรงโน้มถ่วง
DeepMind เปิดตัวโมเดลพยากรณ์อากาศตัวใหม่ชื่อ GenCast ซึ่งพัฒนาขึ้นจาก โมเดล GraphCast ของปี 2023
GenCast เป็นโมเดลตระกูล generative ตามชื่อโมเดล ใช้อัลกอริทึมแบบ diffusion ที่เราคุ้นเคยกันในโมเดลสร้างภาพ-เสียง-วิดีโอ สามารถพยากรณ์อากาศระดับละเอียด (0.25° ของละติจูดและลองจิจูด ประมาณ 28x28 ตารางกิโลเมตร) ได้ล่วงหน้า 15 วัน (GraphCast ได้ 10 วัน) ได้แม่นยำกว่าโมเดล ENS ของศูนย์พยากรณ์อากาศยุโรป (European Centre for Medium-Range Weather Forecasts หรือ ECMWF) ซึ่งเป็นโมเดลที่ดีที่สุดในปัจจุบัน
แผนกวิจัยของ DeepMind ขึ้นชื่อเรื่องการนำโมเดล machine learning ไปใช้กับงานวิจัยแขนงต่างๆ ตัวอย่างที่ชัดเจนคือ AlphaFold ใช้ช่วยงานวิจัยโปรตีนจนได้รับรางวัลโนเบลสาขาเคมี
ล่าสุด DeepMind เผยแพร่ งานวิจัย AlphaQubit ในวารสาร Nature เป็นการนำเทคนิค machine learning ของ DeepMind ไปช่วยงานวิจัยด้านควอนตัมคอมพิวเตอร์ของทีม Google Quantum AI
DeepMind ปล่อยโมเดลและโค้่ดสำหรับรัน AlphaFold 3 ปัญญาประดิษฐ์ทำนายโครงสร้างโปรตีนรุ่นล่าสุดที่ทำให้ ทีมวิจัยได้รับรางวัลโนเบล
โค้ดสำหรับรันนั้นเป็นเปิดซอร์สแบบ CC-BY-NC-SA ห้ามใช้เพื่อการค้า สำหรับตัวโมเดลนั้นต้องส่งข้อมูลให้ทีมงานพิจารณา 2-3 วันทำการก่อนจึงดาวน์โหลดมาใช้งานได้ นอกจากตัวซอฟต์แวร์ที่สามารถนำไปรันได้เองแล้ว DeepMind ยังเปิดบริการ AlphaFold Server สำหรับการรันผ่านคลาวด์
นักวิจัยสามารถใช้งานเพื่อตีพิมพ์รายงานวิจัยจาก AlphaFold ได้ แต่ห้ามนำผลไปฝึกปัญญาประดิษฐ์อื่นๆ ต่อหรือใช้เพื่อการค้าอื่น
Google DeepMind เปิดซอร์สโค้ด SynthID Text ตัวช่วยสร้างลายน้ำเพื่อบอกว่าข้อความสร้างด้วย AI เพื่อนำไปใช้ตรวจสอบได้ในอนาคต
Google DeepMind มี SynthID สำหรับทำลายน้ำลงในภาพ AI อยู่ก่อนแล้ว กรณีของภาพ ทุกคนคงนึกออกว่าการแทรกลายน้ำที่แยกด้วยสายตามนุษย์ไม่เห็นคงทำได้ไม่ยากนัก เพราะในหนึ่งภาพมีปริมาณข้อมูลอยู่มาก การแทรกลายน้ำเพิ่มไปอีกหน่อยคงไม่ใช่เรื่องยาก แต่เมื่อต้องใส่ลายน้ำลงในข้อความ text ล้วนๆ จะทำอย่างไร
SynthID Text ใช้หลักการว่า โมเดลภาษา LLM คือ "เครื่องพ่นคำ" คาดเดาคำถัดไปจากความน่าจะเป็น โดยคำหรือ token ที่มีค่าความน่าจะเป็นสูงสุดจะถูกคัดเลือกออกมาเป็นผลลัพธ์ให้ผู้ใช้เห็น
กูเกิลประกาศปรับโครงสร้างองค์กรของฝ่ายที่เกี่ยวข้องกับบริการค้นหาข้อมูล (Knowledge & Information) เพื่อให้รองรับการเปลี่ยนแปลงของ AI และบริการค้นหาข้อมูล ซึ่ง Gemini จะเข้ามามีบทบาทต่อผลิตภัณฑ์ต่าง ๆ มากขึ้น รายละเอียดดังนี้
กรรมการโนเบลสาขาเคมีให้รางวัลปี 2024 แก่ David Baker ผู้บุกเบิกการออกแบบโปรตีน และ Demis Hassabis ร่วมกับ John Jumper จาก DeepMind ในฐานะผู้พัฒนา AlphaFold2 ที่สามารถทำนายโครงสร้างโปรตีนถึง 200 ล้านรูปแบบสำเร็จด้วยความแม่นยำสูง
งานของ DeepMind ครั้งนี้ถือเป็นงานใหม่มากที่ได้รับรางวัลโนเบล เพราะงานเพิ่งเผยแพร่เพียง 4 ปีเท่านั้น เทียบกับงานอื่นๆ ที่มักต้องรอการพิสูจน์ความสำคัญกันยาวนานนับสิบปี
แม้จะมีผู้ได้รับรางวัล 3 คนในปีนี้ แต่ David Baker นั้นได้รับรางวัลครึ่งหนึ่ง ส่วน Demis Hassabis และ John Jumper ได้คนละ 1/4
ที่มา - Nobel Prize
ถ้ายังจำกันได้ เมื่อต้นปีนี้ OpenAI เปิดตัวโมเดลสร้างวิดีโอจากข้อความ Sora สร้างเสียงฮือฮามากมาย แต่หลังจากเวลาผ่านมาหลายเดือน สถานะของ Sora ยังเป็นแค่การทดสอบภายใน ยังไม่เปิดให้ใช้งานทั่วไป
เท่านั้นยังไม่พอ ล่าสุด Tim Brooks หนึ่งในสองหัวหน้าทีมวิจัย Sora ( เครดิตบนหน้าเว็บ OpenAI ) ประกาศ "ย้ายวิก" ข้ามมาทำงานกับ Google DeepMind เรียบร้อยแล้ว เขาระบุว่าจะมาทำงานด้านสร้างวิดีโอตามที่ตัวเองถนัด รวมถึงทำเรื่องการจำลองโลก (world simulator) ด้วย
DeepMind เผยแพร่งานวิจัยของ AlphaChip โมเดลปัญญาประดิษฐ์ช่วยออกแบบวงจรในชิป ซึ่งใช้งานจริงมาเงียบๆ สักระยะหนึ่งแล้วกับชิป TPU สามรุ่นหลังสุด, ซีพียู Google Axion รวมถึงชิปของบริษัทอื่นอย่าง MediaTek Dimensity 5G ด้วย
DeepMind บอกว่าการออกแบบชิปในปัจจุบันมีความซับซ้อนสูงมาก จึงนำแนวคิด reinforcement learning ให้ปัญญาประดิษฐ์เรียนรู้ด้วยตัวเองผ่านการ "เล่นเกม" แบบเดียวกับ AlphaGo และ AlphaZero แต่แทนที่จะเป็นโกะหรือหมากรุก ก็เป็นเกมออกแบบผังวงจรอิเล็กทรอนิกส์แทน
DeepMind เปิดตัวปัญญาประดิษฐ์ AlphaProteo ที่สามารถออกแบบโปรตีนยาเพื่อให้ไปจับ (binding) กับโปรตีนที่ต้องการได้อย่างรวดเร็ว พร้อมกับโชว์ว่าสามารถออกแบบโปรตีนเพื่อจับกับโปรตีนไวรัสหรือโปรตีนก่อโรคต่างๆ ได้อย่างหลากหลาย
นอกจากความเร็วในการออกแบบโปรตีนแล้ว ทีมงานยังพบว่าโปรตีนที่ออกแบบได้มีความสามารถจับโปรตีนเป้าหมายได้ดีกว่าโปรตีนเดิมๆ ที่เคยมีการออกแบบกันมาก เช่น BHRF1 โปรตีนของไวรัสก่อมะเร็งสามารถจับในหลอดทดลองได้ถึง 88% ขณะที่ความแน่นในการจับก็แน่นกว่าโปรตีนที่เคยออกแบบกันมาด้วย
DeepMind นำเสนอโมเดล GameNGen เกมเอนจินที่จำลองเกมได้สมจริงเหมือนการเล่นเกมจริงๆ แต่ภายในเป็นโมเดลสร้างภาพ Stable Diffusion ถูกฝึกด้วยภาพเกมและการคอนโทรลต่างๆ
โมเดลนี้อาศัยการสร้าง Agent ที่เล่นเกมจริงแล้วเก็บภาพที่ได้และการกระทำของผู้เล่นในเกม (เดิน ยิง วิ่ง) ไว้ต่อเนื่อง จากนั้นนำภาพและการกระทำมาฝึก generative model ให้ทำนายเฟรมต่อไปจากเฟรมเริ่มต้น ทำให้สุดท้ายได้โมเดลที่แทนเกมเอนจินได้ สามารถควบคุมและเล่นได้จริง ตัวโมเดลมีความสามารถในการนับพลังหรือจำนวนกระสุน ทีมงานพบว่าระหว่างการฝึก จำเป็นต้องแทรกภาพขยะเข้าไประหว่างทางด้วย เพื่อให้โมเดลทำงานได้นิ่งขึ้น
นอกจากประกาศอัปเดตเครื่องมือสร้างแชทบอตคัสตอม Gems แล้ว กูเกิลยังประกาศอย่างเป็นทางการเกี่ยวกับ Imagen 3 เครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) รุ่นใหม่ ที่มี รายงาน ว่าเริ่มเปิดให้ใช้งานเมื่อสัปดาห์ที่แล้ว
โดยนอกจาก Imagen 3 จะรองรับการสร้างรูปที่มีคุณภาพสูงขึ้น ละเอียดมากขึ้น และสมจริงมากขึ้น รวมทั้งรองรับระบบลายน้ำ SynthID เหมือนใน Imagen 2 แล้ว Imagen 3 จะกลับมาให้ผู้ใช้งานสร้างรูปภาพบุคคลได้อีกครั้ง หลังจากกูเกิล ปิดการทำงาน ส่วนนี้ไปตั้งแต่ต้นปีที่ผ่านมา เพราะพบปัญหาการสร้างรูปภาพที่ไม่ถูกต้อง
Google เปิดให้ใช้งาน Imagen 3เครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) เวอร์ชันล่าสุดในสหรัฐฯ อัปเกรดความสามารถเพิ่มเติมจากโมเดลเวอร์ชันก่อน
ปลายปีที่ผ่านมา Google เปิดตัว Imagen 2 และเปิดให้ใช้ผ่านแพลตฟอร์ม Vertex AI และในงาน Google I/O เมื่อเดือนพฤษภาคมที่ผ่านมาก็ประกาศเปิดตัว Imagen 3 แต่ก็เพิ่งจะเปิดให้ได้ลองใช้เงียบ ๆ ในอีกหลายเดือนต่อมา
ในงานเปิดตัว Pixel 9 ของใหม่ที่กูเกิลไม่ได้พูดลงรายะเอียดมากนักคือชิป Tensor G4 ที่เป็นชิปคัสตอมเองรุ่นที่ 4 แล้ว สิ่งที่กูเกิลพูดในงานคือ Tensor G4 เป็นครั้งแรกที่ทีม DeepMind มาทำงานร่วมกับทีม Google Silicon โดยตรง เพื่อให้โมเดลปัญญาประดิษฐ์ทำงานได้ดีที่สุด
เว็บไซต์ Tom's Hardware มีโอกาสสัมภาษณ์ตัวแทนจาก DeepMind และ Google Silicon เพื่อขยายความเรื่องนี้
DeepMind เผยแพร่งานวิจัยการพัฒนาหุ่นยนต์ตีปิงปองหรือเทเบิลเทนนิส ซึ่งสามารถแข่งขันกับมนุษย์ได้ โดยมีความท้าทายในการพัฒนาทั้งความเร็วของหุ่นยนต์ การระบุตำแหน่งที่แม่นยำ และการตัดสินใจวิธีตีตอบโต้ตามสถานการณ์
ในการพัฒนาความสามารถหุ่นยนต์ DeepMind ใช้ 4 เทคนิค ได้แก่ การให้เข้าใจกติกาพื้นฐาน, เทรนข้อมูลวิธีตีลูกกลับ, การเรียนรู้สิ่งแวดล้อมจากคู่แข่งที่ไม่เคยเจอ และการเรียนรู้ปรับปรุงเพิ่มเติมจากวิธีการใหม่ที่ไม่เคยเจอมาก่อน
Character.AI แพลตฟอร์มแชทบอตที่ให้ผู้ใช้งานสนทนากับตัวแทนเสมือนของบุคคลมีชื่อเสียง หรือคาแรกเตอร์ที่เป็นที่รู้จัก ที่ก่อตั้งโดยสองอดีตพนักงานกูเกิล ประกาศการเปลี่ยนแปลงในฝ่ายบริหาร โดยสองผู้ร่วมก่อตั้ง Noam Shazeer (ซีอีโอ) และ Daniel De Freitas จะกลับไปร่วมงานกับกูเกิล รวมทั้งนำพนักงานไปด้วยจำนวนหนึ่ง
การกลับไปร่วมงานกับกูเกิลนี้เป็นส่วนหนึ่งของข้อตกลง ที่กูเกิลจะจ่ายเงินไลเซนส์ใช้งาน Character.AI สำหรับพัฒนาโมเดล LLM แบบไม่เอ็กคลูซีฟ โดยทีมงาน Character.AI ที่ย้ายไปกูเกิลจะเข้าร่วมทีม DeepMind
- Read more about สองผู้ก่อตั้ง Character.AI ประกาศกลับไปร่วมงานกับ Google
- Log in or register to post comments
DeepMind แถลงความสำเร็จในการสร้างโมเดลปัญญาประดิษฐ์สำหรับแข่งคณิตศาสตร์ โดยอาศัยโมเดลสองตัว ได้แก่ AlphaProof โมเดลสำหรับการให้เหตุผลทางคณิตศาสตร์ และ AlphaGeometry 2 โมเดลแก้โจทย์เรขาคณิตที่ DeepMind รายงานประสิทธิภาพมาก่อนหน้านี้ โดยรวมสามารถแก้ปัญหาได้ 4 ข้อจาก 6 ข้อ รวมได้ 28 คะแนน หากเป็นผู้เข้าแข่งปกติก็จะได้เหรียญเงิน
Deepmind โชว์ความสามารถของปัญญาประดิษฐ์ video-to-audio (V2A) ที่สามารถเติมเสียงเข้าไปยังวิดีโอได้ตามคำสั่ง เปิดแนวทางการใช้งานที่หลากหลาย ทั้งการเติมเสียงใส่วิดีโอที่สร้างจากปัญญาประดิษฐ์ หรือจะเป็นการเติมเสียงใส่วิดีโอเก่าที่ไม่มีเสียงแล้ว
เนื่องจาก V2A รองรับพรอมพ์จากผู้ใช้ด้วย ทำให้สามารถปรับแต่งโทนของเสียงได้หลากหลายแม้จะเป็นวิดีโอเดียวกัน เช่น ต้องการใส่เพลงประกับซีนนั้นๆ หรือต้องการเพียงเสียงประกอบเฉยๆ
ปัญญาประดิษฐ์สร้างเสียงจากข้อความหรือภาพนั้นมีการนำเสนอมาก่อนหน้านี้แล้ว แต่ความได้เปรียบของ V2A คือมันเข้าใจวิดีโอมากพอที่จะสร้างเสียงที่ลงจังหวะกับวิดีโอพอดีได้ในตัว ฟีเจอร์สำคัญ เช่น การสร้างเสียงจากบทพูดแล้วซิงก์กับใบหน้าของตัวละครในวิดีโอ
- Read more about Deepmind โชว์ปัญญาประดิษฐ์เติมเสียงใส่วิดีโอ
- 6 comments
- Log in or register to post comments
กูเกิลเปิดตัวโมเดล AI ที่ชื่อ Geminiมาตั้งแต่ ปีที่แล้ว ปัจจุบัน Gemini กลายเป็นเอ็นจินหลักของ Google AI แต่เรื่องหนึ่งที่กูเกิลไม่เคยบอกคือทำไมจึงเลือกใช้ชื่อ Gemini ที่เป็นกลุ่มดาวคนคู่ และหมายถึงราศีเมถุนใน 12 ราศี มาเป็นคำเรียก AI ของบริษัท
กูเกิลบอกว่าเรื่องนี้ต้องให้ทีมปัญญาประดิษฐ์ DeepMind ที่เป็นคนที่เลือกใช้ชื่อนี้มาอธิบาย คำตอบคือเดิมทีโครงการ AI นี้จะใช้ชื่อว่า Titan( แล้วจะซ้ำกับแอปเปิล ) โดยเป็นชื่อดวงจันทร์ขนาดใหญ่ที่สุดของดาวเสาร์ แต่ทีมงานดูไม่ชอบเท่าใดนัก อย่างไรก็ตามการเลือกชื่อ Titan มาก่อน ทำให้ธีมการตั้งชื่อถูกตีกรอบให้อยู่ในดวงดาวและจักรวาล
ในงาน Google I/O 2024 เมื่อคืนนี้ ทีม Google DeepMind ได้โชว์เดโมของ Project Astra โครงการผู้ช่วยส่วนตัว AI ที่สามารถสนทนากับผู้ใช้อย่างต่อเนื่อง ตอบคำถามสิ่งต่างๆ เกี่ยวกับสิ่งที่มองเห็นผ่านกล้องมือถือ ตัวอย่างคือการยกมือถือออกไปถ่ายนอกหน้าต่าง แล้วถามว่าเราอยู่ที่ไหน ซึ่ง Astra ก็ตอบได้อย่างถูกต้อง
Astra ยังมีความสามารถเรื่องความจำ (memory) โดยตอบคำถามผู้เดโมได้ว่า แว่นตาอยู่ที่ไหน ซึ่ง Astra ตอบได้จากการที่เห็นภาพแว่นตาผ่านเข้ามาในกล้องช่วงก่อนหน้า
Google DeepMind เปิดตัวโมเดลปัญญาประดิษฐ์ AlphaFold 3 ที่เป็นปัญญาประดิษฐ์สำหรับการทำนายโครงสร้างของโมเลกุล หลังจากเปิดตัว AlphaFold 2 มาตั้งแต่ปี 2020 และใช้ สร้างฐานข้อมูลโครงสร้างโปรตีนเมื่อปี 2022 เปิดให้นักวิจัยเข้าใช้งานได้ฟรี
ทาง DeepMind ระบุว่าจนถึงตอนนี้งานวิจัยที่อ้างอิงกลับมายัง AlphaFold มีจำนวนมากกว่า 20,000 รายงานวิจัย และถูกใช้ในการออกแบบวัคซีนมาลาเรีย, มะเร็ง, ตลอดจนการออกแบบเอนไซม์
Google Deepmind ปล่อยไลบรารี Penzai (คำจีนโบราณสำหรับการตัดแต่งต้นไม้ เป็นที่มาของ "บอนไซ") ที่ใช้สำหรับการแสดงผลโมเดลปัญญาประดิษฐ์ และตัดแต่งโมเดล
ส่วนสำคัญของ Penzai คือการแสดงภาพของโมเดลปัญญาประดิษฐ์ในรูปแบบที่เรียกว่า Treescope เพื่อให้เห็นว่าแต่ละชั้นของโมเดลมีหน้าตาเป็นอย่างไร จากนั้นสามารถตัดแต่งโมเดลได้ตามใจชอบ
โมเดลปัญญาประดิษฐ์ขนาดใหญ่นั้นมักทำความเข้าใจกระบวนการทำงานได้ยาก แต่ก็มีความพยายามทำให้เราสามารถอธิบายได้ว่าทำไมโมเดลจึงตอบคำตอบออกมาแบบนั้น การที่มีเครื่องมือช่วยสำรวจการทำงานภายใน และปรับแต่งการทำงานให้เป็นไปตามต้องการจึงเป็นฟีเจอร์สำคัญตัวหนึ่ง
Penzai เขียนมาเพื่อใช้งานร่วมกับ JAX สำหรับ PyTorch นั้นมีฟีเตอร์การแสดง tree ของตัวเองอยู่แล้ว
- Read more about Deepmind ปล่อยไลบรารี Penzai สำหรับผ่าตัดโมเดล AI
- Log in or register to post comments
ใน ประกาศปรับโครงสร้างองค์กรรอบล่าสุดของกูเกิล นอกจากการรวมทีมซอฟต์แวร์ Android/Chrome และฮาร์ดแวร์เข้าด้วยกันเป็นฝ่าย Platforms and Devices ยังมีการเปลี่ยนแปลงฝั่ง AI ด้วยเช่นกัน
การเปลี่ยนแปลงนี้ต่อเนื่องจาก การรวมทีม Google Brain กับ DeepMind เป็น Google DeepMind เมื่อ 1 ปีก่อน โดยกูเกิลโยกทีมอื่นๆ ที่เกี่ยวข้องกับบงาน AI เข้ามาอยู่ใต้ Google DeepMind ดังนี้
Elon Musk ในฐานะซีอีโอ Tesla และ xAI ประกาศว่า บริษัทได้ปรับขึ้นเงินเดือนและสิทธิประโยชน์ กับพนักงานในฝ่ายวิศวกรรรม AI ของ Tesla รวมทั้ง xAI บริษัทที่พัฒนาด้าน AI ของเขาด้วย
สาเหตุนั้น Musk บอกว่า เริ่มจาก Ethan Knight วิศวกรฝ่าย Computer Vision ของ Tesla มีแผนจะลาออกไปอยู่ OpenAI เขาจึงให้ข้อเสนอที่สูงกว่าและไปทำงานที่ xAI แทน เขายังบอกว่า OpenAI นั้นพยายามดึงตัววิศวกร AI จาก Tesla อยู่ตลอด โดยเสนอเงินเดือนที่สูง แต่ส่วนใหญ่ไม่ค่อยสำเร็จ
DeepMind หน่วยงานด้าน AI ของกูเกิล เผยแพร่ระบบ AI ที่พัฒนาร่วมกับสโมสรฟุตบอล Liverpool ของอังกฤษ ในชื่อ "TacticAI"ซึ่งเป็นระบบแนะนำแผนการเล่น โดยใช้ AI พยากรณ์ (Predictive) ผสมกับ AI สร้างเนื้อหา (Generative) โฟกัสที่แผนการเล่นเวลามีลูกเตะมุม
TacticAI ถูกเทรนด้วยข้อมูลการเตะมุม 7,176 ครั้ง ในฟุตบอลพรีเมียร์ลีกฤดูกาล 2020/2021 มีข้อมูลผู้เล่นในแต่ละตำแหน่งตลอดจนส่วนสูง-น้ำหนัก การเทรนข้อมูลนี้เพื่อให้ AI ประเมินผลลัพธ์การเตะมุมแต่ละครั้ง ว่าใครจะได้ลูกฟุตบอลคนแรก จะเกิดการยิงประตูหรือไม่ และตำแหน่งยืนของแต่ละคนในแต่ละทีมหน้าประตู มีผลต่อการเกิดการยิงประตูมากน้อยแค่ไหน? ผลทดสอบนั้นพบว่า TacticAI ทายผู้เล่นที่ได้ลูกฟุตบอลคนแรก (ทาย 3 คน) ถูกที่ระดับ 78%