วันนี้ 24 กันยายน ค.ศ.2022 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาไทย PyThaiNLP รุ่น 3.1 บนภาษาไพธอนอย่างเป็นทางการ
สำหรับ PyThaiNLP 3.1 สรุปการเปลี่ยนแปลงได้ดังนี้
- เพิ่ม Dependency Parsing สำหรับวิเคราะห์โครงสร้างทางภาษาไทย
- เพิ่มการทับศัพท์ภาษาจีน ภาษาญี่ปุ่น และอื่น ๆ ให้กลายเป็นภาษาไทย ผ่านแพ็กเกจ wunsen
- เพิ่มแบบจำลองการสรุปข้อความ mt5 สำหรับภาษาไทยตัวใหม่
- เพิ่ม Thai-NNER (Thai Nested Named Entity Recognition) หรือตัววิเคราะห์นิพจน์หลายชั้น โดยสามารถวิเคราะห์ข้อความภาษาไทยได้ละเอียดกว่า Named Entity Recognition ตรงที่สามารถวิเคราะห์นิพจน์ย่อยได้
ข้อมูลเปิดเผย: ผู้เขียนเป็นหนึ่งในทีมนักพัฒนา PyThaiNLP
Comments
ผมกำลังเริ่มเรียน python แบบนิวบี้เลย
มีโปรเจคแนะนำไหมครีบ
ว่าจะเอาแพคเกจนี้ไปใช้ประโยชน์อะไรได้บ้าง
ยอดเยี่ยม เป็นกำลังใจให้ครับ
1 ผม
2 เป็น
3 คนดี
4 เป็น
5 คนดี
6 แล้ว
7 มัน
8 ไม่มี
9 ใคร
เห็นเดโมแล้วอดไม่ได้จริง ๆ ครับ
10 อยาก
11 จะ
12 เลว
13 อยาก
14 เลว
15 ให้
16 มัน
17 รู้
18 ไป
แค่มนุษย์คนนึงที่อยากรู้เกี่ยวกับวงการไอที
19 เผื่อ
20 ใจ
21 ของ
22 เธอ
23 จะ
24 มี
25 เรา
26 บ้าง
ซ้อมไปคอนเสิร์ตป๋ากันเหรอครับ?
บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
เยี่ยมเลยครับ
..: เรื่อยไป
สงสัยว่า พวก data processing ที่ต้องการความเร็ว process เยอะๆ
ไม่ใช้ compile language ที่ประมวลเร็วกว่า (behind the scene น้อยกว่า) อย่าง C/C++, GO
ดันมาใช้ script language ช้าๆ แบบนี้ 🤔
NLTK เขียนบน Python ซึ่ง NLTK พัฒนามายาวนานกว่า 20 กว่าปีแล้วครับ อายุมากกว่า Go อีก
และเอาจริงๆ NLTK ที่เริ่มต้นด้วย Python ผมเข้าใจว่าในช่วงนั้นเป็นภาษาที่กำลังมาแรง เขียนง่าย และดูแลไม่ยาก
PageRank ของ Google ก็เขียนด้วย Python (ก่อนจะขยับไปใช้ Go ซึ่งออกแบบโดย Google)
เอาจริง ๆ เคยฟัง Bjarne พูดไว้เหมือนกัน
เคยมีนักวิจัยเขียนโค๊ด processing อะไรสักอย่าง (ผมลืมละ) กว่าจะรันเสร็จรอบนึงใช้เวลาเกือบอาทิตย์
แกเขียนใหม่ด้วย C++ รันเสร็จภายในครึ่งชั่วโมง
แน่นอนว่าแกเป็นคนสร้าง C++ ก็อาจจะโม้นิดนึง แต่ผมว่ามีความเป็นไปได้ครับ
จะว่าไป ถึงแม้ว่าตัว script จะเป็น Python แต่ตัว Library ด้านใต้บางตัว (อย่างเช่น PyTorch) ก็เป็น C++ ครับ ไม่งั้นคงทำ performance ไม่ได้ และจะไปต่อกับ Cuda หรือ OpenCV ก็อาจจะลำบากหน่อย
ปล.ไม่ได้เชี่ยวด้านนี้ครับ อย่าเพิ่งเชื่อผม 555
เอาจริง ๆ ก็ต้องเข้าใจเขานิดนึงครับ researcher บางคน ไม่ได้เชี่ยวเรื่องการเขียนโค๊ดขนาดนั้น (แต่อาจจะเก่ง algorithm) บางทีก็ใช้ภาษาที่คนที่ไม่ได้เก่งมากก็อ่านรู้เรื่องได้ครับ
แต่ C++23 นี่คือพัฒนามาไกลมาก ไม่ได้เหมือน C++ เมื่อ 20 ปีที่แล้ว อันนี้หลายคนก็ตกข่าวเหมือนกัน โค๊ดเดี๋ยวนี้จะว่าอ่านง่ายขึ้นก็ได้นะ (หรืออ่านยากขึ้นก็ได้เหมือนกัน ฮา)
มันก็มี modern feature อย่าง coroutine, promise แล้วครับ ถ้าจะเขียนแบบ asynchronous ก็ใช้ได้ดีแต่ยังไม่มี standard network lib (มีแค่ interface)
มี template + concept ที่คล้ายๆ generic type ใน typescript ก็มีแต่จุดประสงค์หลักคือเอาไว้ใช้ gen opcode ตอน compile และใช้แทน class polymorphism ถ้าไม่ได้ใช้เขียน library ก็ไม่ควรใช้เท่าไร เพราะมันต้องคิดถึงเวลา compile ด้วย