Tags:
Forums: 

ผมทำการอ่านข้อมูลมาจากไฟล์ชื่อ file_111.txt
สมมติว่า ภายในไฟล์ มี 30,000 recordแต่ละ record มี 15 คอลัมน์
แบ่งแต่ละคอลัมน์ ด้วย tab

ทำการ split ข้อมูลที่ละ 1 record เข้าไปเก็บใน list ก่อนแล้วจึงค่อยอ่านข้อมูลใน list ลงไปเก็บในไฟล์ file_222.txt อีกที

ซึ่ง item ใน list จะ write ลงไฟล์ได้เกือบหมด
จะติดบาง item ที่มีปัญหา คือ item ตัวสุดท้าย
ที่เก็บค่าของ URL คือ

ถ้า URL นั้นเก็บภาษาอังกฤษ ก็เก็บได้ปกติ
แต่ถ้า URL นั้นมีภาษาไทยปนอยู่ด้วย จะเกิด error และไม่ write ต่อ
รบกวนแนะนำด้วยครับ

ตัวอย่าง code
fo = open(file_111.txt', 'r', buffering=1, encodeing='utf-8', error='ignore')
fo.seek(0)
fn = open(file_222.txt, 'w')
fo.seek(0)
for a_row in fo:
lo = a_row.split()
lo1 = lo[8].encode('utf-8')
lo2 = lo1.decode('utf-8')
fn.write(lo[0], lo[3], lo[4], lo[5], lo[7], lo2)
print('Finish')
fo.close()
ln.close()

สมมติ lo[8] เป้น item ที่เก็บ URL นะครับ
อาจมีปรับไป-มานิดหน่อย
คือบางครั้ง ถ้ามีภาษาไทยสั้นๆใน URL ก็ปรับแก้ ก็จะรันต่อไปได้
แต่ก็จะติดกรณี ถ้ามีภาษาไทยยาวๆใน URL อยู่ดี
งง มากครั้บ ทำไมมันไม่ติดทุกเคส ติดเฉพาะเคสที่มีภาษาไทยยาวๆ

ใช้ PyChram Community 2016.3 ครับขอบคุณล่วงหน้าครับ

Get latest news from Blognone
By: sukoom2001
Contributor Android Ubuntu
on 2 December 2016 - 21:11 #956743
sukoom2001's picture

ใช้ Python 2 ?ถ้าใน python 3 ปัญหานี้น่าจะไม่มีแล้วนะครับ

By: nat3738
Contributor Android Red Hat Ubuntu
on 2 December 2016 - 22:37 #956751

เติม encodeing='utf-8' ให้ fn = open(file_222.txt, 'w') ด้วยสิ

By: Jaddngow
Android Ubuntu Windows
on 4 December 2016 - 12:06 #956905
Jaddngow's picture

python2 นี่งงมากเลยครับกับภาษาไทย

By: hezagon6 on 7 December 2016 - 09:45 #957269
hezagon6's picture

encodeing='utf-8' => encoding='utf-8'