AlphaGo Zero สอนตัวเองให้เล่นหมากรุก ใช้เวลา 4 ชั่วโมงก็ล้มโปรแกรมแชมป์เก่าได้

By: mk

on 12 December 2017 - 06:54 Tags:

Topics:

AlphaGo

DeepMind

Artificial Intelligence

เราเพิ่งเห็นข่าว DeepMind พัฒนา AlphaGo Zero ไม่ต้องใช้ข้อมูลการเล่นของมนุษย์ สามารถเทรนตัวเองได้จากการเล่นแข่งกับตัวเองเพียงอย่างเดียว

แนวคิดของ AlphaGo Zero ไม่ได้ใช้แค่การเล่นโกะเท่านั้น เพราะทาง DeepMind นำมันไปใช้กับหมากรุกด้วย

ชื่อของ AI เปลี่ยนมาเป็น AlphaZero (ตัดคำว่า Go ออกไป) และใช้เวลาหัดเล่นหมากรุกด้วยตัวเองเพียง 4 ชั่วโมง ก็สามารถเอาชนะโปรแกรมเล่นหมากรุกที่เก่งที่สุดคือ Stockfish ได้ ทางทีม DeepMind ยังเอามันไปฝึกเล่นหมากรุกญี่ปุ่น (โชงิ) และใช้เวลาฝึกเพียง 2 ชั่วโมงก็เอาชนะบ็อตโชงิได้

เป้าหมายของ DeepMind คือสร้าง AI ที่ทำงานทั่วไป (more generic) มากกว่างานเฉพาะทางอย่างการเล่นโกะเพียงอย่างเดียว

ที่มา - Ars Technica , ภาพจาก Pexels

No Description

Hiring! บริษัทที่น่าสนใจ

REFINITIV

The Financial and Risk business of Thomson Reuters is now Refinitiv

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

LTMH TECH

LTMH TECH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย

Comments

By: stan

on 12 December 2017 - 07:27 #1023191

ถ้าให้ AI หาวิธีช่วยโลกจากหายนะทางสิ่งแวดล้อมที่อาจเกิดขึ้นในอนาคต แล้ว คำตอบที่ได้คือกำจัดมนุษย์ออกไป นี่หนาวเลยนะ

By: adente

on 12 December 2017 - 08:14 #1023193 Reply to:1023191

ใจลึกๆผมก็คิดแบบ AI เลยแต่มันทำจริงๆไม่ได้

By: Hadakung

on 12 December 2017 - 08:42 #1023195 Reply to:1023191

ก็ตั้เงื่อนไขก่อนได้ครับ แล้วปกติเทรน ML มันต้องเอาโมเดลมาตรวจสอบก่อนใช้งานจริงด้วย ถ้าคนมันเพี้ยนจนทำแบบนั้นเอง AI ไม่น่าจะถูกปล่อยให้คิดเอง

By: TheOrbital

on 12 December 2017 - 09:11 #1023207 Reply to:1023191

คิดน่ะคิดได้ แต่มันยังไม่มีระบบที่จะทำให้หนาวได้ คือ มันยังไม่สามารถเร่งแอร์ได้เอ้ย..ไม่ใช่ มันยังไม่สามารถติดต่อกับ AI อื่นๆที่จะยิงขีปนาวุธ สั่งกองทัพ หรือปิดคอมทั้งโลกได้ มันก็คิดออกมา แล้วก็ให้คำตอบ แค่นั้น

By: Neroroms

on 12 December 2017 - 09:41 #1023222 Reply to:1023207

ย้อนเวลากลับมา kill Deepmind ทิ้ง

By: diewland

on 12 December 2017 - 11:32 #1023272 Reply to:1023222

งะะะะะะ

By: adirak

on 12 December 2017 - 09:48 #1023224 Reply to:1023191

แต่เหตุผลมันคงถูก เหอๆๆ

📸

By: Holy

on 12 December 2017 - 11:05 #1023257 Reply to:1023191

แบบนั้นไม่ต้องเป็น AI ก็ตอบได้ครับ ใครก็ตามที่เชื่อเรื่อง Global Warming ก็รู้อยู่แล้วว่ามนุษย์เป็นต้นเหตุ

ถ้าจะให้ AI ช่วยคงต้องการคำตอบแบบที่ใช้การคำนวณลึกซึ้งกว่านั้นมาก เช่น คำนวณจากปัจจัยการเคลื่อนที่ของโลกรอบดวงอาทิตย์ กระแสน้ำ กระแสลม สภาพอากาศ แล้ว ได้คำตอบว่าควรนำสาร X ปริมาณ Y ตันไปปล่อยที่ความสูง Z เหนือพื้นดิน ที่พิกัด Lat/Long เท่านี้ๆ เพื่อให้สารกระจายตัวไปสะท้อนแสงอาทิตย์ออก ช่วยชะลอปรากฎการณ์โลกร้อนได้ โดยมีผลกระทบต่อสิ่งแวดล้อมน้อยที่สุด อะไรแบบนี้

แต่กว่าจะคำนวณได้อาจจะไม่ทันการณ์แล้ว....

By: sarajung

on 12 December 2017 - 11:33 #1023273 Reply to:1023191

นั่นมัน The 100 เลยคับ

By: waroonh

on 12 December 2017 - 11:23 #1023270

ฝึกให้มันเล่นไพ่ป๊อกก็ดีนะครับ ตั้งชื่อว่า project เกาจิ๊งโกโฮม หมายเลข 1

By: zyzzyva

on 12 December 2017 - 11:42 #1023276

เข้าใจว่าหัวข้อข่าวใช้คำว่า AlphaGo Zero เพื่อให้คนเชื่อมโยงกับข่าวเก่า แต่จริงๆแล้วมันคือ AlphaZero ที่สามารถเล่นได้ทั้งหมากรุก,หมากรุกญี่ปุ่น,โกะ

By: tontpong

on 12 December 2017 - 16:49 #1023377 Reply to:1023276

ผมเข้าใจว่า AlphaGo Zero เป็น hardware configuration ใหม่ด้วยรึป่าว, แล้วทีแรกใช้ชื่อ software เดียวกัน ตอนนี้ค่อยมาตัด go ออก?

By: zyzzyva

on 12 December 2017 - 18:13 #1023399 Reply to:1023377

เป็นคนละ software กันครับ

By: wichate

on 12 December 2017 - 12:40 #1023289

ให้มันมาคุมไฟแดงในกรุงเทพ เพื่อแก้ปัญหารถติดได้ไหม

By: Mikamura

on 12 December 2017 - 12:59 #1023296 Reply to:1023289

ถ้าใส่ Input เข้าไปเยอะมากพอผมว่า AlphaZero สามารถคำนวณเวลาที่เหมาะสมในการเปิดปิดไฟแดง / เขียวทั้ง กทม ได้ครับ

By: Lennon

on 12 December 2017 - 13:23 #1023303 Reply to:1023289

ผมว่ามันทำได้ เพีียงแต่คนต้องปฏิบัติตามที่มันสั่งนะ

ผมเคยเล่นเกมส์ control traffic อันนึงในไอแพ่ด เสียดายผมจำชื่อไม่ได้ กติกาคือ ห้ามให้แยกใดแยกหนึ่งรถติดนานเกินไป ตัวเกมส์มีอยู่ Map เดียว Level เดียว ซึ่งเป็นเมืองใหญ่อย่างปารีส หรือ ลอนดอน แล้วแต่เราจะเลือก Map มีถนนพันกันเหมือนเส้นก๋วยเตี๋ยว จัดว่าเล่นยากมากสำหรับคนที่แยกประสาทไม่ได้ รวมถึงทำอะไรหลายๆอย่างพร้อมกันไม่เก่งเช่นผม

สำหรับคนทำอะไรได้ทีละอย่างเช่นผม ตอนแรกผมลองทำแบบที่ตำรวจไทยทำ คือ กั้นไว้ทางแล้วเคลียร์อีกทางให้หมด (ลองแก้ปัญหาเป็นจุดๆไป) ปากดว่าไม่ว่าจะยังไงมันเกิดสภาวะงูกินหางกันไปหมด ไม่นานก็รถติดจากแยกนึงไปแยกนึงจนเราไม่รุจะทำไงดี game over จนรู้สึกว่าเกมส์นี้มันทำมาให้ใครเล่นวะนี่ และก็เริ่มเข้าใจตำรวจไทยในยามเร่งด่วน ว่าจะหัวหมุนขนาดไหน

แต่ตอนหลังลองเล่นแบบเปิดไฟเขียวสลับไฟแดงสั้นๆ แต่เปิดๆปิดๆไปเรื่อยๆโดยมี ลำดับการเปิดแบบวนเข็มหรือทวนเข็มอย่าง Consistencyไปเรื่อยๆ สำคัญว่าต้องไม่มีแยกไหนโดนทอดทิ้งทั้วทั้ง Map ปากดว่าสามารถเล่นได้นานเท่าไหร่ก็ได้ ไม่มีวันจบ เพราะท้ายแถวไม่มีสะสม และไม่ได้ต้องใช้การแยกประสาทอะไรมากมายแค่ทำไปอย่าให้ตกหล่นก็พอ ที่สำคัญคนปฏิบัติต้องเห็นภาพรวมของสภาพถนนตลอดเวลาและเป็นคนเดียวกันหมดที่ควบคุมทั้งเมือง ซึ่งเงื่อนไขทั้งหมดทั้งปวงที่ว่านี่ คงมีแต่หุ่นยนต์ที่จะทำได้ดี

By: wichate

on 12 December 2017 - 14:26 #1023333 Reply to:1023303

เห็นด้วยเลยครับ มันต้องเป็น AI ที่เห็นภาพรวมทั้งเมือง ถ้าแยกกันทำพอเราเปิดเขียวให้แยกแรกไปได้เยอะๆ เร็วๆ สุดท้ายมันก็ไปกระจุกตัวเพื่อเป็นปัญหารถติดในแยกถัดไป โอ้ยากอ่ะที่จะแก้ได้ถ้าไม่ใช้ระบบที่มองเห็นข้อมมูลได้ทั้งเมือง

By: foizy

on 12 December 2017 - 20:29 #1023421 Reply to:1023303

ถึงจุดนึงมันอาจจะ Predict การฝ่าฝืนกฎจราจรที่กระทบต่อสัญญาณไฟและรถติด แล้วคำนวณการเปิดปิดไฟให้สมเหตุสมผลใหม่ก็ได้นะครับ 555

By: Holy

on 12 December 2017 - 21:41 #1023431 Reply to:1023421

ถ้าให้ Machine Learning เก็บข้อมูลไปสักระยะ มันก็น่าจะ Predict ได้และนำมาคำนวณได้นะครับ เช่น ถ้าเปิดไฟเขียวสั้นไปไม่กี่วิแดงแล้ว หรือปล่อยให้คนรอนานๆ ก็มีแนวโน้มที่คนจะฝ่าฝืนกฎ ขอ"แถม"มากขึ้น จนส่งผลให้ท้ายแถวเลยเข้ามาในแยก รถอีกฝั่งไปไม่ได้อยู่ดี อะไรแบบนี้

By: Lennon

on 13 December 2017 - 06:44 #1023458 Reply to:1023421

หรือไม่ อาจจะต้องมี ai อีกตัวจับคนทำผิดกฏจราจร (ถ่ายรูป ส่งไปที่บ้าน) สำคัญว่ากล้องตรงนั้นอย่าซื้อมาแสนแพงแต่เผอิญ”เสียพอดี”ก็ละกัน

By: pepporony

on 13 December 2017 - 10:59 #1023508 Reply to:1023303

เคยมี Expat มะกันคนนึงมาไทย พอมาเห็นการปล่อยไฟของไทยแล้วแปลกใจ บอกที่เมืองเค้าปล่อย 1 นาทีเท่ากันหมด ไม่ใช่ฝั่งนึงไฟเขียว 30 วิ อีกฝั่งนึงเขียว 2 นาทีแบบไทย

By: max212

on 12 December 2017 - 13:01 #1023298

ผิดมั๊ยที่มีคำว่า "แดง ดำ ดอก หลาม ป๊อก....."ขึ้นมาในหัว

By: dangsystem

on 12 December 2017 - 13:20 #1023301 Reply to:1023298

ป๊อกมันต้องคิดด้วยเหรอ ถ้าดำมี่ ผสมสิบ นี่ จำได้แม่นๆเลย

By: 100dej

on 12 December 2017 - 14:37 #1023338 Reply to:1023301

https://www.monomaxxx.com/review/detail/twentyone

ป๊อก 21 ก็คล้าย ๆ ป๊อกเด้งของไทยแหล่ะครับ ระดับหัวกะทิ MIT

By: TheOrbital

on 13 December 2017 - 09:18 #1023481 Reply to:1023301

ถ้ารัมมี่นี่ AI ชนะไม่ยากเลย พื้นฐานก็จดจำไพ่ในมือตัวเองบวกที่ทิ้งลงมาของแต่ละคนในแต่ละตา รวมถึงวิเคราะห์จากไพ่ที่ทิ้งลงมาด้วยว่าบนมือแต่ละคนน่าจะมี/ไม่มีไพ่อะไร
ตาแรก AI จะรู้แน่นอนแล้ว 8 ใบคือ ไพ่ในมือตัวเอง 7 ใบ ที่หัวอีก 1ถักไปแต่ละตา อย่างน้อยๆ ต้องทิ้งลงคนละ 1 ใบคือเผยออกมาอีก 4 ใบในแต่ละตา
รวมๆกับการเกิดของผู้เล่นคนใดคนหนึ่งในระหว่างรอบตา ดังนั้นผ่านไปประมาณ 3 ตาก็เห็นไพ่เกินครึ่งสำรับ พร้อมๆกับวิเคราะห์การเกิดการทิ้งในแต่ละตาของแต่ละคน AI ก็รู้หมดแล้วว่าใครถืออะไรและเหลือไพ่อะไรบ้าง

By: poa

on 12 December 2017 - 14:33 #1023336 Reply to:1023298

พวกเซียนๆ ก็น่าจะประมาณความน่าจะเป็นได้ไม่หนีกับ AI เท่าไหร่แต่จะ AI จะได้เปรียบตรงที่ไม่โดนจิตวิทยาเล่นงาน

By: Hoo

on 12 December 2017 - 21:56 #1023433

ถ้าต่อไป ชิป NN แพร่หลายจะมี AlphaLite มาให้เล่นgo/หมากรุกในมือถือมั๊ยนะ