Information Commissioner's Office (ICO) หน่วยงานกำกับดูแลข้อมูลส่วนบุคคลของสหราชอาณาจักรประกาศปรับบริษัท Clearview AI ฐานใช้ภาพประชาชนโดยไม่ได้รับอนุญาต โดยสั่งปรับ 7.5 ล้านปอนด์หรือ 320 ล้านบาท พร้อมกับสั่งให้หยุดดาวน์โหลดข้อมูลส่วนบุคคล และลบข้อมูลที่ดาวน์โหลดไปแล้วออกทั้งหมด
Clearview AI ดำเนินธุรกิจเก็บภาพใบหน้าจำนวนมากจากอินเทอร์เน็ตแล้วเปิดให้ลูกค้าค้นหาภาพใบหน้าได้ ลูกค้าของบริษัทมักเป็นหน่วยงานรัฐ
ทาง ICO ระบุว่าความผิดของ Clearview AI มีหลายประเด็น ได้แก่
LINE ประกาศเตรียมขายไลเซนส์เทคโนโลยีด้าน AI ให้บริษัทอื่นๆ ใช้งานด้วย โดยจะเริ่มในช่วงต้นปี 2019
ตัวอย่างเทคโนโลยีด้าน AI ของ LINE คือ text/image recognition รวมถึง OCR โดยเน้นไปที่ภาษาญี่ปุ่นเป็นหลัก เป้าหมายก็เพื่อให้บริษัทอื่นๆ ที่ไม่มีกำลังนักพัฒนาเท่ากับ LINE สามารถตอบสนองลูกค้าผ่านแช็ทบ็อต หรือแปลงข้อความจากภาพเป็น text แล้วนำไปแปลภาษาอัตโนมัติ
การขายไลเซนส์ของ LINE จะไม่บังคับให้ต้องเชื่อมต่อแอพกับ LINE ด้วย แต่ LINE ก็มองว่าการเปิดเทคโนโลยีให้บริษัทอื่นๆ ใช้งานจะช่วยเร่งการพัฒนาของตัวเอง รวมถึงสร้างรายได้เข้าบริษัทได้อีกช่องทางหนึ่ง
Facebook เปิดเผยรายละเอียดของ Rosetta เครื่องมือที่พัฒนาขึ้นไว้สำหรับอ่าน Meme (มีม) ต่าง ๆ ที่โพสต์ลงทั้งใน Facebook และ Instagram โดยอาศัย AI เข้ามาช่วยในการทำงาน
ถึงตรงนี้อาจจะสงสัยว่าถ้าเป็นการสแกนหาข้อความในรูปภาพ ก็ไม่น่าถึงกับต้องใช้ AI ก็ได้ คำอธิบายของ Facebook คือ สิ่งที่ Rosetta เหนือกว่าการแยกข้อความในรูปภาพ คือสามารถอ่าน Meme ให้เข้าใจว่าข้อความที่สื่อในภาพนั้น มีเนื้อหาที่เหมาะสมหรือไม่ รวมทั้งสามารถรับรู้ได้ว่าข้อความในนั้นเป็นภาษาอะไร
ขั้นตอนทำงานของ Rosetta เริ่มด้วยการสแกนรูปภาพทีละรูปเพื่อค้นหาตัวหนังสือในนั้น นำตัวหนังสือมาจัดเรียงเป็นข้อความ แล้วใช้ระบบอีกตัวตีความหมายจากข้อความนั้น หากพบเนื้อหาที่ไม่เหมาะสมก็รายงานให้ตรวจสอบต่อไป
ไมโครซอฟท์ประกาศเพิ่มฟีเจอร์ด้าน AI ใช้แปลงวิดีโอ-เสียงเป็นข้อความ และการค้นหาภาพ-วิดีโอ-เสียง ให้กับซอฟต์แวร์สายธุรกิจอย่าง OneDrive และ SharePoint
ความสามารถด้าน AI เหล่านี้ไม่ใช่เรื่องใหม่ เพราะมีอยู่ก่อนแล้วบน Azure และ Microsoft Stream แค่ว่ารอบนี้ถูกเพิ่มเข้ามาให้กับซอฟต์แวร์ตัวอื่นๆ ด้วย
Microsoft ขยายฟีเจอร์การค้นหาภาพ Visual Search ให้กับแอพ Bing เป็นการนำ AI เข้ามาช่วยทำความเข้าใจและแสดงข้อมูลของภาพนั้นๆ ได้ โดยไม่ต้องพิมพ์คีย์เวิร์ดใดๆ
การใช้ Visual Search ผ่านแอพ Bing คือเปิดกล้องมาแล้วส่องไปที่อะไรก็ตาม แอพจะแสดงข้อมูลจากรูปภาพนั้นให้เรา เช่น ประเภทของดอกไม้ หรือแม้กระทั่งการแสดงภาพสิ่งของที่มีลักษณะใกล้เคียงกัน เป็นต้น
Microsoft ไม่ได้ระบุเพิ่มเติมว่า Visual Search สามารถทำอะไรได้อีกบ้าง แต่ลักษณะการทำงานในเบื้องต้นคล้ายกับ Google Lens
เมื่อเดือนมีนาคม กูเกิลเปิดคอร์สวิชา Machine Learning ที่ใช้สอนพนักงาน ให้คนทั่วไปเรียนฟรีออนไลน์ และประสบความสำเร็จอย่างสูง ตอนนี้ได้เวลาของคอร์สที่สองแล้ว
คอร์สใหม่ชื่อว่า Machine Learning Practicum on Image Classification เป็นคอร์สต่อเนื่องจากคอร์สแรก โดยเน้นไปที่การใช้ machine learning เพื่อแยกแยะรูปภาพ เนื้อหาเกี่ยวข้องกับ convolutional neural networks (CNNs) โดยจำเป็นต้องผ่านคอร์สแรกมาก่อน และมีทักษะเขียนโปรแกรมในภาษา Python บ้าง
ทีมงานวิจัยในแพลตฟอร์มที่ชื่อว่า What the Herp? (ถ้าแปลไทย ก็คงได้ว่า นี่คือตัวอะไร?) เปิดเผยโครงการล่าสุดเพื่อรวบรวมข้อมูลจากสาธารณะมาใช้เทรน AI มีชื่อเรียกว่า Fitch ด้วยจุดมุ่งหมายให้ได้ระบบที่สามารถบอกได้ว่าภาพ งู สัตว์เลื้อยคลาน หรือสัตว์ครึ่งบกครึ่งน้ำในรูปภาพนั้นๆ เป็นตัวอะไร สายพันธุ์อะไรกันแน่
Fitch ปัจจุบันอยู่ในขั้นตอนการเรียนรู้แยกแยะว่าสัตว์เหล่านั้นเป็นตัวอะไร สายพันธุ์อะไร ผู้ใช้งานสามารถทดสอบ อัพโหลด รูปภาพเข้าไปเพื่อให้ Fitch ทายผลได้ หรือจะทวีตรูปภาพหา @WhatTheHerp ก็ได้เช่นกัน
กูเกิลเผยข้อมูลว่า เข้าไปช่วย NASA แยกภาพจากกล้องโทรทรรศน์บนยานอวกาศ Kepler ที่มีภารกิจในการค้นหา "ดาวเคราะห์" ลักษณะเดียวกับโลกในระบบสุริยะจักรวาลอื่น (exoplanet)
ยาน Kepler ถูกส่งออกไปยังอวกาศตั้งแต่ปี 2009 และถ่ายภาพทางช้างเผือกส่งกลับมาทุก 30 นาที มีภาพถ่ายดาวฤกษ์กว่า 200,000 ดวงที่ต้องมาวิเคราะห์ ถือเป็นข้อมูลมหาศาลที่ NASA ต้องทุ่มทรัพยากรมาประมวลผล
ปัญหานี้แก้ได้ด้วย machine learning และทีม AI ของกูเกิลก็เข้าไปช่วยสร้างโมเดล TensorFlow เพื่อแยกแยะดาวเคราะห์ออกจากวัตถุอื่นๆ ด้วยเทคนิค pattern recognition ผลการทดสอบโมเดลของกูเกิลกับข้อมูลที่ตรวจสอบแล้ว พบว่ามีความแม่นยำ 96%
ไมโครซอฟท์มีระบบปฏิบัติการ Windows 10 IoT Core สำหรับอุปกรณ์ฝังตัวหลากหลายประเภท ล่าสุดไมโครซอฟท์สาธิตการใช้งานของ Windows 10 IoT Core ที่น่าสนใจ นั่นคือใช้ "แยกแยะใบหน้าแมว"
โครงการนี้เป็นตัวอย่างการพัฒนาอุปกรณ์ฝังตัว โดยไมโครซอฟท์นำบอร์ด MinnowBoard MAX ร่วมกับกล้องเว็บแคมและเซ็นเซอร์อีกจำนวนหนึ่ง มาทำเป็นประตูกั้นแมว ที่มีฟีเจอร์อนุญาตให้แมวที่รู้จักเท่านั้นผ่านเข้ามาในประตูได้
ฝั่งของซอฟต์แวร์ใช้ OpenCV ประมวลผลภาพจากกล้องเว็บแคม เทียบกับภาพแมวในระบบว่าตรงกันหรือไม่ ถ้าหากเป็นแมวที่ถูกต้อง ประตูก็จะเปิดให้แมวเข้าได้นั่นเอง
Snapchat มีฟีเจอร์ geofilters แสดงฟิลเตอร์อิงตามโลเคชั่น และมีฟีเจอร์ใหม่ระบบสามารถเรียนรู้วัตถุที่ถ่ายว่าเป็นวัตถุชนิดไหน เช่น สัตว์ อาหาร เป็นต้น โดยระบบจะแสดงฟิลเตอร์ตามวัตถุที่ถ่าย เช่น หากถ่ายคลิปสัตว์เลี้ยงก็จะแสดงฟิลเตอร์รอยเท้าน้องหมา ถ่ายอาหารก็จะแสดงฟิลเตอร์เกี่ยวกับการไดเอท เป็นต้น
ฟีเจอร์ใหม่นี้เป็นโอกาสให้แบรนด์เข้ามาทำโฆษณาต่อได้ เช่น อาจขึ้นโลโก้แบรนด์ขายผลิตภัณฑ์สัตว์เลี้ยง หรือโลโก้แบรนด์อาหาร เป็นโอกาสสร้างรายได้โฆษณาได้อีกช่องทางสำหรับบริษัท Snap
รอดูว่าโซเชียล "เจ้าอื่น" จะมีฟีเจอร์คล้ายๆ กันนี้เมื่อไร
ข้อดีของห้องเรียนขนาดใหญ่คือนักเรียนแอบนั่งหลับหรือไม่สนใจต่อบทเรียนได้โดยอาจารย์ไม่สังเกตเห็น แต่อาจารย์ Wei Xiaoyong แห่งมหาวิทยาลัยเสฉวนไม่ยอมปล่อยให้นักเรียนหลุดลอดสายตาด้วยการสร้างระบบตรวจจับใบหน้ามาจับความสนใจของนักเรียนในห้อง
อาจารย์ Wei เขาสร้างระบบจดจำใบหน้ามาใช้งานในห้องเรียนเมื่อห้าปีก่อน เพื่อทดแทนการเช็คชื่อเข้าเรียนของนักเรียน จนล่าสุดพัฒนามาเป็นการจับความรู้สึกของผู้เรียนว่ามีความสุขดีหรือเบื่อหน่ายกันแล้ว
เขาระบุว่าข้อมูลเหล่านี้สามารถนำมาประเมินการสอนได้ว่าดึงความสนใจนักเรียนได้ดีแค่ไหน
เราคงได้เห็นบริษัทหลายแห่งพัฒนา AI สำหรับรู้จำองค์ประกอบต่างๆ ในรูปภาพกันบ้าง ในวันนี้ Mark Zuckerberg ซีีอีโอ Facebook ประกาศว่าจะใช้เทคโนโลยีนี้เพื่อเสริมสร้างประสบการณ์การใช้งานให้กับผู้ใช้ Facebook ที่มีความบกพร่องทางการมองเห็น
แนวคิดของการใช้ระบบรู้จำองค์ประกอบในรูปภาพ คือการที่ระบบสามารถแยกแยะองค์ประกอบต่างๆ ในภาพได้ ก่อนนำมาสังเคราะห์เป็น "ข้อความบรรยายภาพ" (Alt text) เพื่อส่งให้โปรแกรมจำพวก screen reader อ่านเป็นเสียงให้ผู้ที่บกพร่องทางการมองเห็นได้ยิน และทำความเข้าใจองค์ประกอบภาพต่อไป
ดูวิดีโอเปิดตัวได้ท้ายข่าว
ถ้ายังจำกันได้ ปีที่แล้วไมโครซอฟท์มีเว็บแอพวิเคราะห์ข้อมูลภาพให้เล่นกันสนุกๆ หลายตัว เช่น How-Old.net ทายอายุ , TwinOrNot.net เทียบคนหน้าเหมือน
เว็บแอพเหล่านี้อยู่ภายใต้ Project Oxford โครงการพัฒนา API ด้านการแยกแยะภาพและเสียงพูด ซึ่งวันนี้ได้ชื่อเรียกอย่างเป็นทางการว่า Microsoft Cognitive Services
ปลายปีที่แล้ว กูเกิลเปิดให้นักพัฒนาภายนอกบริษัทเข้าถึงฟีเจอร์การแยกแยะรูปภาพแบบเดียวกับใน Google Photos โดยใช้ชื่อว่า Cloud Vision API แต่ยังจำกัดการทดสอบเฉพาะกลุ่มอยู่
วันนี้กูเกิลเปิดให้ใครก็ได้ที่สนใจ สามารถเขียนโปรแกรมส่งภาพผ่าน API เพื่อให้ระบบปัญญาประดิษฐ์แยกแยะภาพได้แล้ว รวมถึงประกาศ ราคาค่าใช้งาน โดยคนที่ใช้ต่ำกว่า 1,000 ภาพต่อเดือนสามารถใช้ได้ฟรี ถ้าใช้มากกว่านั้นเริ่มต้นที่ 2.5 ดอลลาร์ต่อ 1,000 ภาพต่อเดือน (ราคาขึ้นกับว่าแยกแยะหาข้อมูลอะไรในภาพ)
กูเกิลเปิดให้นักพัฒนาภายนอกบริษัทเข้าถึงฟีเจอร์การแยกแยะรูปภาพแบบเดียวกับใน Google Photos โดยใช้ชื่อว่า Cloud Vision API
Cloud Vision API เป็นบริการตัวใหม่ใน Google Cloud Platform ที่เรียกใช้งาน TensorFlow ไลบรารีสำหรับงาน machine learning อีกต่อหนึ่ง นักพัฒนาสามารถส่งภาพให้ Cloud Vision แยกแยะรูปภาพในแง่มุมต่างๆ ได้ดังนี้
Omron เปิดตัว โครงการ Sensing Egg ชุดกล้องวงจรปิดที่มี API ระดับสูงให้นักพัฒนาภายนอกสามารถพัฒนาแอพพลิเคชั่นใหม่ๆ ลงไปได้
API ที่มีในกล้องชุดนี้ได้แก่ ตรวจจับใบหน้า, จดจำใบหน้า, คาดเดาเพศ, คาดเดาอายุ, วัดอารมณ์จากใบหน้า, ทิศทางการหัน, ทิศทางสายตา, ตำแหน่งของตา, ตรวจจับมือ, ตรวจจับร่างกายคนในภาพ, ตรวจจับสัตว์เลี้ยงและจดจำใบหน้าสัตว์เลี้ยง
ตัวกล้องมาพร้อมกับ SDK ให้นักพัฒนาภายนอกช่วยกันคิดว่าจะใช้ความสามารถเหล่านี้ทำอะไรได้บ้าง โดยทาง Omron พัฒนาแอพพลิเคชั่นสองตัวมาพร้อมกับกล้อง ได้แก่
หลังจากเป็นผู้ชนะในการแข่งขัน ImageNet LSVRC ได้ไม่นาน ทีมวิจัย Heterogeneous Computing ถูกจับได้ว่าละเมิดกติกาของการแข่งขัน ทาง Baidu จึงทำการไต่สวนและพบว่าทีมวิจัยละเมิดกติกาจริง จากกรณีดังกล่าว ล่าสุด Baidu ออกมายอมรับและไล่หัวหน้าทีมวิจัยออกแล้ว
กูเกิลและไมโครซอฟท์ออกมาแสดงระบบสร้างคำบรรยายรูปอัตโนมัติในงาน Microsoft COCO (Microsoft CommonObjects in Context (COCO) Captioning Challenge) งานนี้เป็นหนึ่งในงานสำหรับผู้วิจัยที่ทำงานในสายงานระบบรับรู้หรือแยกแยะรูปภาพ