Larry Ellison ซีทีโอของออราเคิล เล่าถึงความพยายามซื้อชิปกราฟิกจาก NVIDIA ว่าเขาต้องไปกินข้าวกับ Elon Musk และ Jensen Huang พร้อมกับขอให้ NVIDIA รับเงินค่าชิปกราฟิกไปอีกเยอะๆ พร้อมกับระบุว่าคำขอร้องได้ผล
ออราเคิลค่อนข้างประสบความสำเร็จจากการให้บริการคลาวด์สำหรับปัญญาประดิษฐ์ หลังจากปีที่ผ่านมา ให้บริการคลาวด์กับไมโครซอฟท์
ปีที่ผ่านมาชิป NVIDIA H100 มีปัญหาการส่งมอบล่าช้าพอสมควร โดยชิป H100 นั้นอาจจะต้องรอสินค้านานถึง 6 เดือน แม้ในช่วงหลังระยะเวลารอคอยเริ่มลดลงจนเหลือไม่กี่สัปดาห์เท่านั้น แต่ชิป Blackwell รุ่นล่าสุด กลับประสบปัญหาส่งมอบล่าช้า เช่นกัน
NVIDIA ปล่อย cuDF ไลบรารีทดแทน pandas ที่นิยมในหมู่คนทำงานด้านข้อมูลเข้าสู่สถานะ GA หลักจากเริ่มเปิดไลบรารีนี้ตั้งแต่ปีที่แล้ว ในเวอร์ชั่นนี้จะทำงานแทบเหมือนกับ pandas เดิมทำให้ไม่ต้องแก้ไขโค้ดใดๆ
cuDF ตัวใหม่นี้อยู่ใน ชุด RAPIDS ที่ NVIDIA พัฒนาไลบรารีที่ทำงานโดยอาศัยชิปกราฟิก แต่คง API เหมือนไลบรารีเดิม เช่น cuML จะพยายามพัฒนาให้เหมือน scikit-learn
cuDF ตัวใหม่จะพยายามใช้ชิปราฟิกโดยอัตโนมัติ หากหาไม่เจอก็จะรันด้วย CPU ธรรมดาแทน และฟังก์ชั่นต่างๆ ของ pandas ก็ครบหมดแล้ว ทำให้โดยรวมโค้ดที่ย้ายไปรันบน cuDF สามารถทำงานได้ต่อเนื่อง
NVIDIA เปิดตัวชิปกราฟิกรุ่นต่อไปในชื่อสถาปัตยกรรม Blackwell เป็นชิประดับองค์กร โดยชิป B200 มีทรานซิสเตอร์ภายในถึง 208,000 ล้านทรานซิสเตอร์ ตัวชิปจริงๆ เป็นชิปสองตัวประกบเข้าด้วยกันด้วยการเชื่อมต่อความเร็วสูงระดับ 10TB/s แบบเดียวกับ Apple Silicon ในตระกูล Ultra ตัวชิปเชื่อมต่อกับภายนอกด้วย NVLINK รุ่นที่ 5 รองรับการเชื่อมต่อกับชิปกราฟิกภายนอกแบนวิดท์ 7.2TB/s
ภายในหน่วยประมวลของ Blackwell รองรับข้อมูลชนิดใหม่ FP6 และ FP4 สำหรับการรันโมเดลโดยเฉพาะ ทำให้เมื่อรันโมเดลแบบ FP4 สามารถประมวลผลข้อมูลได้ถึง 20,000 TFLOPS ขณะที่ Hopper ได้ที่ 4,000 TFLOPS FP8 และ Blackwell ประมวลผลได้ 10,000 TFLOPS ที่ FP8
ฟีเจอร์ใหม่ๆ ของ Blackwell ได้แก่
บริษัทคอมพิวเตอร์ gptshop.ai ประกาศขายพีซีสำหรับใช้ในบ้านแต่ใช้ชิป NVIDIA GH200 ซีพียูพร้อมชิปกราฟิกจาก NVIDIA ที่มักใช้งานกันในเซิร์ฟเวอร์เป็นหลัก หลักจากผู้ก่อตั้งบริษัทพบว่าชิปสำหรับผู้ใช้ทั่วไปอย่าง NVIDIA RTX 4090 นั้นไม่พอรันโมเดลปัญญาประดิษฐ์ใหม่ๆ
ชิป GH200 นั้นเริ่มต้นรุ่นต่ำสุดมาพร้อมแรม LPDDR5X ขนาด 480GB และส่วนกราฟิก H100 พร้อมแรม HBM3 96GB ทำให้รุ่นเริ่มต้นมีแรมรวม 576GB ราคารุ่นเริ่มต้นอยู่ที่ 47,500 ยูโร หรือ 1.85 ล้านบาท เพียงพอสำหรับการรัน Llama 2 70B ของ Meta แบบย่อ (quantized) เป็น FP8 หากซื้อรุ่นแรมกราฟิก 144GB ก็จะรันแบบ FP16 ได้ด้วย หรือจะคอนฟิกให้ใช้แรมซีพียูก็จะรันโมเดลขนาดใหญ่ขึ้นได้ แต่โมเดลจะรันช้าลง
ZLUDA โครงการโอเพนซอร์สที่พยายามอิมพลีเมนต์ไลบรารี CUDA ของ NVIDIA ปล่อยเวอร์ชั่นทดสอบที่อาศัยไลบรารี HIP/ROCm ของ AMD เป็นคัวเอนจินเบื้องหลังทำให้สามารถใช้ชิปกราฟิกของ AMD มารันโปรแกรมที่คอมไพล์สำหรับ CUDA ได้
Andrzej Janik ผู้พัฒนา ZLUDA พัฒนาไลบรารีนี้มาแล้วหลายปี แต่ช่วงแรกนั้นทำมาเพื่อซีพียูอินเทล ต่อมาในปี 2022 AMD ติดต่อเขาให้พัฒนาไลบรารีให้รองรับชิปกราฟิกของ AMD หลังจากพัฒนามาเกือนสองปี ทาง AMD ตัดสินในยุติโครงการนี้ ทำให้ Janik ตัดสินใจปล่อยโครงการออกมาเป็นโอเพนซอร์ส
Google Cloud ออกบริการ Dynamic Workload Scheduler แก้ปัญหาลูกค้าไม่สามารถขอใช้ชิปกราฟิกหรือ TPU เพื่อฝึกปัญญาประดิษฐ์ได้ เนื่องจากชิปมีไม่เพียงพอ โดยบริการนี้มี 2 โหมดทำงาน
AMD เริ่มส่งมอบชิปตระกูล Instinct MI300 ตามที่ เปิดตัวไปเมื่อต้นปีที่ผ่านมา โดยแบ่งออกเป็นสองรุ่นย่อย คือ MI300A ที่เป็น APU มีซีพียูในตัว และ MI300X ที่เป็นชิปเร่งความเร็วอย่างเดียว
MI300A มาพร้อมแรม HBM3 ขนาด 128GB เน้นปรับปรุงประสิทธิภาพต่อพลังงานดีขึ้น 1.9 เท่าเทียบกับ MI250X รุ่นก่อนหน้า
MI300X เป็นชิปเร่งความเร็วสถาปัตยกรรม CDNA 3 เพิ่มหน่วยประมวลผล 40% ขยายแบนวิดท์หน่วยความจำ 1.7 เท่า ใส่แรม HBM3 192GB และรองรับข้อมูลแบบ FP8 หน่วยความจำที่สูงขึ้นทำให้สามารถรันโมเดล LLaMA-2 70B ได้ในชิปเดียว สำหรับองค์กรที่ต้องการรัน LLM อยู่ภายในองค์กรเอง
NVIDIA เปิดตัวโมดูล NVIDIA GH200 Grace Hopper รุ่นต่อไป หลังจาก ปีนี้วางตลาดรุ่นแรกไปแล้ว ความเปลี่ยนแปลงสำคัญของรุ่นต่อไปคือการใช้แรม HBM3e ทำให้ใส่แรมได้มากขึ้นมาก เครื่องขนาด 2 โมดูล สามารถใส่แรมได้สูงสุด 282GB ซีพียู 144 คอร์ และพลังประมวลผล AI รวม 8 เพตาฟลอบ (ไม่ระบุว่าที่ความละเอียดระดับใด)
HBM3e เป็นหน่วยความจำประสิทธิภาพสูงที่พัฒนาต่อมาจาก HBM3 โดยก่อนหน้านี้อาจจะเรียกว่า HBM3+ หรือ HBM3 Gen 2 ตอนนี้โรงงานที่ผลิต HBM3 หลักๆ ได้แก่ SK hynix, Samsung, และ Micro และน่าจะเตรียมสายการผลิต HBM3e กันอยู่ โดยรวมแล้วแรม HBM3e บน GH200 รุ่นต่อไปรองรับแบนวิดท์ 10TB/s
Sam Altman ซีอีโอของ OpenAI พูดคุยกับ Raza Habib ซีอีโอบริษัท Humanloop ถึงแผนการเปิดตัวบริการหรือฟีเจอร์ของบริการใหม่ๆ โดยระบุว่าฟีเจอร์หลายตัวล่าช้าออกไปเพราะปัญหา GPU ไม่เพียงพอที่จะให้บริการ เช่นฟีเจอร์อ่านภาพได้โดยตรงใน GPT-4 (multimodal) ต้องเลื่อนออกไปถึงปี 2024
แผนการเพิ่มฟีเจอร์ GPT-4 ในปีนี้ ได้แก่
NVIDIA เปิดตัวเซิร์ฟเวอร์รุ่นใหม่ NVIDIA DGX GH200 ชูจุดเด่นที่รองรับแรมสูงถึง 144TB เป็นก้าวกระโดด จาก DGX H100 ที่เคยรองรับแรม 640GB ต่อเครื่อง
ภายในตัวเครื่อง ใช้ชิป NVIDIA Grace Hopper Superchip พร้อมแรมแบบ LPDDR5 480GB เซิร์ฟเวอร์แต่ละเครื่องมีซีพียู 8 ชุด และสามารถต่อข้ามเครื่องผ่าน NVLink Switches อีกถึง 256 ซีพียูในแต่ละคลัสเตอร์ ตัวชิปกราฟิกบนแต่ละโมดูลสามารถข้ามไปใช้แรมฝั่งซีพียูด้วยแบนวิดท์ 900GB/s
NVIDIA เปิดตัวสถาปัตยกรรมชิปกราฟิกรุ่นต่อไป ในชื่อ NVIDIA Hopper โดยชิปตัวแรก NVIDIA H100 สำหรับลูกค้าระดับองค์กรเป็นหลัก โดยมีฟีเจอร์ภายในสถาปัตยกรรมหลายอย่าง เช่น
เอเอ็มดีเปิดตัวการ์ดกราฟิกตระกูลสำหรับเซิร์ฟเวอร์ AMD Instinct MI200 โดยชุดแรกมีสองรุ่นย่อยได้แก่ MI250 และ MI250X เป็นแบบโมดูล (MI210 แบบการ์ด PCIe จะเปิดตัวภายหลัง) มีจุดเด่นอยู่ที่การรองรับแรม HBM แบบ ECC ความจุถึง 128GB ใหญ่กว่ารุ่นปัจจุบันถึง 4 เท่าตัว
เอเอ็มดีระบุว่าการ์ดตระกูล MI200 มีความเปลี่ยนแปลงสำคัญ 3 อย่าง ได้แก่
Tesla เปิดตัวชิปฝึกโมเดลปัญญาประดิษฐ์ของตัวเอง เป็นสถาปัตยกรรมเฉพาะชื่อว่า Dojo โดยชิปแต่ละตัวเป็นคอร์ขนาดเล็กพร้อมชุดคำสั่งประมวลผลข้อมูลแบบเวคเตอร์และเมทริกซ์ เชื่อมต่อกับคอร์อื่นๆ ด้วยช่องทางเชื่อมต่อแบนวิดท์สูง
ชิป D1 สถาปัตยกรรม Dojo แต่ละตัวมีซีพียูหรือที่ทาง Tesla เรียกว่า Training Node จำนวน 354 ชุด พลังประมวลผลรวม 362 เทราฟลอบ (ที่ bfloat16) เชื่อมต่อข้อมูลนอกชิปได้ 16 เทราไบต์ต่อวินาที (ด้านละ 4 เทราไบต์ต่อวินาที) ตัวชิปมีสเปคปล่อยความร้อน 400 วัตต์
OpenAI เปิดตัว Triton 1.0 ภาษาโปรแกรมที่ออปติไมซ์โค้ดสำหรับทำงานบนชิปกราฟิกโดยอัตโนมัติ โดยได้การทดสอบคูณเมทริกซ์ประสิทธิภาพเทียบกับไลบรารีที่ออปติไมซ์มาเฉพาะอย่าง cuBLAS ของ NVIDIA เอง
ตัวภาษา Triton คล้ายกับไพธอนอย่างมาก แต่กระบวนการทำงานภายในออกแบบมาเพื่อการทำงานร่วมกับชิปกราฟิกโดยเฉพาะ เนื่องจากชิปกราฟิกนั้นต้องการการออปติไมซ์หลายอย่างเพื่อให้โค้ดทำงานได้เต็มประสิทธิภาพ ได้แก่ การย้ายข้อมูลทีละมากๆ เข้าออกจากแรมนอกชิป (DRAM เช่น GDDR ที่เราเห็นในสเปคของการ์ดกราฟิก) จากนั้นต้องวางข้อมูลลง SRAM ของแต่ละคอร์โดยแย่งข้อมูลใช้งานกันให้น้อย ใช้หน่วยความจำส่วนเดิมให้มากๆ และเรียงการประมวลผลตามพฤติกรรมของคอร์กราฟิก รวมถึงการใช้งานชุดคำสั่งพิเศษสำหรับการประมวลผลเฉพาะทาง
MLCommons หน่วยงานกลางสำรวจประสิทธิภาพคอมพิวเตอร์ด้าน machine learning และปัญญาประดิษฐ์ออกรายงานเวอร์ชั่น 1.0 โดยมีผู้เข้าร่วมน่าสนใจได้แก่ NVIDIA ที่ส่งเครื่อง DGX-A100 เข้าทดสอบ, อินเทลส่ง Xeon Platinum 8380, กูเกิลส่ง TPUv4 ที่ยังไม่เปิดให้บริการทั่วไป, และ Graphcore สตาร์ตอัพปัญญาประดิษฐ์ส่งเครื่อง IPU-POD เข้าจัดอันดับ
AMD เปิดตัวการ์ดเร่งความเร็วงานด้านปัญญาประดิษฐ์และวิทยาศาสตร์ AMD Instinct MI100 ที่ใช้ชิปประมวลผลสถาปัตยกรรม CDNA (Compute DNA) พัฒนาแยกสายออกมาจากสถาปัตยกรรม RDNA ที่ใช้เพื่องานกราฟิกและเกมเป็นหลัก
ออราเคิลประกาศให้บริการคลาวด์สาธารณะ ที่ใช้เซิร์ฟเวอร์ที่สร้างจาก แพลตฟอร์ม HGX-2 ของ NVIDIA นับเป็นคลาวด์สาธารณะรายแรกที่ใช้แพลตฟอร์มนี้
นอกจากการใช้เซิร์ฟเวอร์ HGX-2 แล้ว ออราเคิลยังประกาศรองรับ ไลบรารี RAPIDS ที่เพิ่งเปิดตัว ทำให้สามารถทำโค้ดที่พัฒนาด้วยชุดไลบรารี RAPIDS ไปรันบนคลาวด์ได้โดยสะดวก
เซิร์ฟเวอร์ในตระกูล HGX-2 จะเป็นเครื่องแบบ GPU4 โดยมีขนาดใหญ่สุดคือ BM.GPU4.8 ซีพียู 48 คอร์ แรม 768GB และชิปกราฟิก Tesla V100 แรม 32GB อีก 8 ชุด
ราคาต่อชั่วโมงยังไม่แจ้ง
งานวิทยาศาสตร์ข้อมูล (data science) มักนิยมภาษา R หรือไลบรารี Pandas ในไพธอนที่มองข้อมูลเป็น data frame ที่เป็นตาราง ตอนนี้ NVIDIA ก็หันมาจับตลาดนี้ด้วยการเปิดตัว โครงการ RAPIDS ที่เปิดให้นักวิทยาศาสตร์ข้อมูลสามารถใช้ชิปกราฟิกประมวลผลข้อมูลเหล่านี้ได้เร็วขึ้น
ตอนนี้ ใน GitHub และเอกสารการใช้งานมีเฉพาะไลบรารี pygdf ไลบรารีสำหรับโหลดข้อมูลแบบ data frame แต่เมื่อโครงการสมบูรณ์จะมีโครงการ cuML ที่เทียบเท่า scikit-learn และ cuGRAPH สำหรับงานประมวลผลกราฟ และไลบรารีสำหรับแสดงผลข้อมูลประสิทธิภาพสูงเพราะใช้ชิปราฟิกเรนเดอร์
โครงการยังไม่สมบูรณ์นัก แต่หาก NVIDIA บุกตลาดนี้โดยตรงก็นับว่าน่าจับตามอง
Google Cloud ประกาศลดราคาค่าใช้ชิปกราฟิกทุกรุ่น ตั้งแต่ K80, P100, และ V100 เมื่อเรียกใช้แบบชั่วคราว (preemptible) ทำให้ราคาตอนนี้เหลือเพียงประมาณ 70% ของราคาเต็มเท่านั้น
ราคาใหม่ทำให้ K80 เหลือชั่วโมงละ 0.135 ดอลลาร์ (4.3 บาท), P100 เหลือชั่วโมงละ 0.43 ดอลลาร์ (14 บาท), และ V100 เหลือชั่วโมงละ 0.74 ดอลลาร์ (24 บาท) เท่ากันหมดทุกโซน
เครื่องแบบ preemptible อาจถูกสั่งปิดเครื่องได้ทุกเวลา และการเปิดเครื่องทิ้งไว้จะเปิดได้ไม่เกิน 24 ชั่วโมง จึงเหมาะกับการใช้สำหรับงานชั่วคราว เช่นการฝึกโมเดล deep learning เท่านั้น โดยโมเดลการนำเครื่อง "เหลือใช้" มาหาเงินของ Google Cloud จะต่างจาก AWS ที่มีราคาล่วงหน้าแน่นอน ขณะที่ AWS Spot Instance นั้นต้องอาศัยการประมูลเครื่องที่เหลือเอา
NVIDIA เปิดตัวแพลตฟอร์ม HGX-2 ที่ตามสเปคแล้วเหมือนกับ เซิร์ฟเวอร์ DGX-2 ที่เปิดตัวมาก่อนหน้านี้แทบทุกประการ แต่ความเป็นแพลตฟอร์ม HGX-2 จะเปิดให้ผู้ผลิตที่ผลิตเซิร์ฟเวอร์บนแพลตฟอร์มนี้สามารถปรับแต่งสเปคได้ตามความต้องการ
ตัวอย่างของการปรับแต่ง เช่น ศูนย์ข้อมูลบางศูนย์ไม่ต้องการตัวจ่ายไฟแยกตามเซิร์ฟเวอร์แต่ละตัว แต่ต้องการจ่ายไฟจากระบบบัสชุดเดียวทั้งตู้ หรือลูกค้าบางรายมีสเปคเฉพาะสำหรับตำแหน่งการวางพอร์ตต่างๆ
ตอนนี้มีผู้ผลิตที่เข้าร่วมจะผลิตเซิร์ฟเวอร์ที่ใช้แพลตฟอร์ม HGX-2 แล้ว เช่น เลอโนโว, Supermicro, Wiwynn, และ QCT
ไอบีเอ็มประกาศเพิ่มจีพียู Tesla P100 จากเดิมที่มีเฉพาะ M60, K80, และ K2 ภายในเดือนนี้ ซึ่งทำให้เป็นคลาวด์เจ้าแรกที่ใช้จีพียูรุ่นล่าสุดจาก NVIDIA
Tesla P100 เปิดตัวมาครบหนึ่งปีพอดี แต่สำหรับคลาวด์เจ้าหลักๆ การอัพเกรดใช้เวลานานกว่ารอบอัพเกรดของจีพียูตามบ้าน โดยเมื่อต้นปีที่ผ่านมา กูเกิลเปิดให้ลูกค้าสามารถต่อจีพียูเข้ากับเซิร์ฟเวอร์บนคลาวด์ได้ แต่ยังเป็น Tesla K80
ตอนนี้ไอบีเอ็มยังไม่เปิดเผยราคา แต่เครื่องรุ่นก่อนหน้านี้เป็น Tesla K80 แรม 24GB พร้อม Xeon E5-2620v4 แรม 128GB ราคาอยู่ที่ 5.3 ดอลลาร์ต่อชั่วโมง
Google Cloud เปิดตัวบริการ GPU ให้ลูกค้าสามารถเลือกติดตั้งการ์ด Tesla K80 เข้ากับเครื่องใดก็ได้ที่ต้องการ โดยเซิร์ฟเวอร์แต่ละเครื่องสามารถติดการ์ดได้ 8 ใบ
การ์ดแต่ละใบเป็น NVIDIA K80 มาพร้อมกับ CUDA core ทั้งหมด 2,496 คอร์ และแรม 12GB ราคาชั่วโมงละ 0.7 ดอลลาร์ในสหรัฐฯ และ 0.77 ดอลลาร์ในยุโรปและเอเชีย
บริการเช่นนี้ตรงกับบริการ Elastic GPU ของ AWS ที่ เปิดตัวตั้งแต่ปลายปีที่แล้ว แต่จนตอนนี้ยังอยู่ในสถานะเบต้าวงปิด ส่วนกูเกิลเปิดเป็นเบต้าแบบเปิดให้ทุกคนใช้งานแล้ว
- Read more about Google Cloud เปิด GPU ให้ใช้งานแล้ว ต่อได้กับเครื่องทุกแบบ
- Log in or register to post comments
เอเอ็มดีเปิดตัวสถาปัตยกรรมกราฟิกยุคต่อไปที่ใช้ชื่อว่า VEGA อย่างเป็นทางการ หลังจากพูดถึงสถาปัตยกรรมนี้อย่างผ่านๆ ในการ เปิดตัวการ์ด Instinct ตั้งแต่เดือนที่แล้ว โดยฟีเจอร์สำคัญคือระบบหน่วยความจำที่ออกแบบใหม่หมด, หน่วยประมวลผลที่ปรับการทำงานได้หลากหลาย, ระบบคำนวณเรขาคณิตรุ่นใหม่, และการเรนเดอร์ภาพประสิทธิภาพสูง
AWS เปิดตัวเซิร์ฟเวอร์ในกลุ่ม EC2 ชุดใหญ่ นอกจากการอัพเกรดเครื่องตามรอบแล้วยังมีสามบริการสำคัญคือ Lightsail, Elastic GPU, และเครื่อง F1 สำหรับการออกแบบวงจรเร่งความเร็วเอง
Lightsail ตอบโจทย์สำหรับผู้ที่ต้องการตั้งเซิร์ฟเวอร์เพื่องานง่ายๆ เช่นเว็บบล็อก ผู้ใช้จะสามรรถเลือกแอปพลิเคชั่นที่ต้องการใช้งานแล้วเลือกขนาดเซิร์ฟเวอร์เพื่อรันได้ทันที โดยไม่ต้องยุ่งกับระบบความปลอดภัยของ AWS อีก
Elastic GPU เป็นบริการเสริมของเครื่อง EC2 ทุกรุ่น ทำให้ทุกเครื่องสามารถใช้งานกราฟิกได้โดยไม่ต้องซื้อเครื่อง P2 ที่มีขนาดใหญ่เสมอไป แต่สามารถซื้อเครื่องและกราฟิกแยกจากกันตามความต้องการ
AMD เปิดตัวชุดซอฟต์แวร์ Radeon Open Compute Platform (ROCm) รุ่นใหม่ที่รองรับชิปของเอเอ็มดีรุ่นใหม่ๆ ที่ เปิดตัวมาพร้อมกับ MacBook Pro รองรับการใช้งานแบบ Virtualization และ container
ชุดซอฟต์แวร์ ROCm มาพร้อมกับคอมไพล์เลอร์ HCC ตัวใหม่ที่รองรับการคอมไพล์ครั้งเดียวให้ทำงานได้ทั้งซีพียูและจีพียู, HIP ระบบพอร์ตโค้ดจาก CUDA พร้อมกับโชว์การพอร์ตโค้ดที่ใช้พัฒนาด้วย Caffe มารันบนชิป AMD, และไลบรารีทางคณิตศาสตร์ชุดใหม่
ทางเอเอ็มดีระบุว่าปีหน้า Google Compute Engine และ Google Machine Learning จะเริ่มมีเซิร์ฟเวอร์ที่ใช้ชิป AMD ให้บริการ โดยใช้ AMD FirePro S9300