การค้นหาคำหรือ ตัวอักษร ในไฟล์ ที่ต้องการ สามารถนำมาประยุกต์ใช้งานได้ดังต่อไปนี้

ตัวอย่างการใช้งาน : เป็นการค้นหา อักษรภาษาไทย ที่อยู่ในไฟล์ เมื่อเจอแล้วให้ แสดงผล ชื่อไฟล์และบรรทัดที่มีอักษรนั้นอยู่

ขั้นตอนการทำงาน


1. การค้นหา Path ของไฟล์ทั้งหมด

 

def get_file paths(directory):
    file_paths = [] 
    for root, directories, files in os.walk(directory):
        for filename in files:           
            filepath = os.path.join(root, filename)
            file_paths.append(filepath) 
    return file_paths 


ตัวอย่างการเรียกใช้งาน
ให้โฟลเดอร์ชื่อ python path: /home/mylaptop/work/python
ภายในมีไฟล์ python_file.py, text_file.text, xml_file.xml
ต้องส่งค่า Directory
full_file_paths = get_filepaths("home/mylaptop/work/python")

"/home/mylaptop/work/python" : คือ path ของ directory ที่ต้องการค้นหาคำ หรืออักษร

ผลลัพธ์ :


[/home/mylaptop/work/python/python_file.py, /home/mylaptop/work/python/text_file.text, /home/mylaptop/work/python/xml_file.xml]



2. การกรองประเภทของไฟล์

 

def get_file paths(directory):
  for f in full_file_paths:
    if f.endswith(".py"):
        print f


ต่อเนื่องจาก ข้อ 1. เมื่อได้ path ของแต่ละไฟล์มาแล้ว ก็นำมากรองประเภทของไฟล์ที่ต้องการ จากตัวอย่างต้องการหาจากไฟล์ .py

3. การเปิด และอ่านไฟล์
เมื่อได้ path ของไฟล์มาแล้ว ต้องทำการเปิดและอ่านข้อมูลออกมาทีละบรรทัด


open_file = open(f)
open_file.read
for line in open_file:
        print line
open_file.close




ต่อเนื่องจาก ข้อ 2. ต้องทำการเปิดไฟล์ โดยส่ง path ของไฟล์ลงไป(จากตัวอย่าง path คือ f)
เมื่อเปิดไฟล์แล้ว ก็อ่านไฟล์ และ for ออกมา เพื่อให้อ่านไฟล์ทีละบรรทัด
line ก็คือ ค่าของแต่ละบรรทัด



4. การนำข้อมูลในไฟล์ไปค้นหา อักษร หรือคำที่ต้องการ

def is_ascii(data):
    for i in range(0,len(data)):
        conv = ord(data[i])
        if 161 <= conv <= 251:    
            return False



ต่อ เนื่องจากข้อ 3. เมื่อได้ค่าแต่ละบรรทัดออกมาแล้ว ก็ต้องการนำค่าที่ได้ไปเช็ค โดยส่งค่าแต่ละบรรทัดไปยังฟังก์ชัน โดยสั่งวน for เพื่ออ่านค่าทีละตัว โดยนำค่าแต่ละตัวไปแปลงเป็นค่าของตัวเลขเพื่อ นำไปเช็คกับ รหัส ascii โดยตัวอย่างเช็คภาษาไทย รหัส ascii จะอยู่ในช่วง 161 - 251 ถ้าเจออักษรภาษา ให้ return False



การทำงานก็จะนำทั้ง 4 มารวมกัน เป็นไฟล์ .py สั่งรัน ก็จะสามารถค้นหาค่าที่ต้องการได้

 

 

หัวเรื่อง
Search Thai language in flie with Python
หมวดหมู่
Python, Python
ฮิต
17776
ผู้สร้างเอกสาร
คะนึงรัตน์ ลิ่มตระกูล
วันที่สร้างเอกสาร
2015-02-11 18:52:04

search_thai_lang.zip

ประเภทไฟล์ zip

ขนาดไฟล์ 659 bytes

ผู้อัพโหลดไฟล์ คะนึงรัตน์ ลิ่มตระกูล

วันที่อัพโหลด 2015-02-10 18:43:18


 

 

 

กระทู้ล่าสุดจากเว็บบอร์ด
หัวข้อกระทู้
ตอบ
เปิดดู
ล่าสุด
งานประจำวันที่ 25 มีนาคม 2562
โดย สริญญา สมสา จ 25 มี.ค. 2019 9:49 am บอร์ด MT32 - นางสาวสริญญา สมสา
1
2
จ 25 มี.ค. 2019 10:01 am โดย สริญญา สมสา
งานประจำวันที่ 25 มีนาคม 2562
โดย napharat079 จ 25 มี.ค. 2019 9:42 am บอร์ด M079 - นภารัตน์ ฐิติกรโกวิท
0
1
จ 25 มี.ค. 2019 9:42 am โดย napharat079
ฟุตบอล-บาสเกตบอล
โดย Nhani ส 23 มี.ค. 2019 7:56 pm บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
0
16
ส 23 มี.ค. 2019 7:56 pm โดย Nhani
export jar ไปใช้เครื่องอื่นพร้อม database
โดย Saharat Saharat ส 23 มี.ค. 2019 6:46 pm บอร์ด Programming - C/C++ & java & Python
0
26
ส 23 มี.ค. 2019 6:46 pm โดย Saharat Saharat
งานประจำวันที่ 23 มีนาคม 2562
โดย napharat079 ส 23 มี.ค. 2019 9:41 am บอร์ด M079 - นภารัตน์ ฐิติกรโกวิท
3
10
ส 23 มี.ค. 2019 7:08 pm โดย napharat079
งานประจำวันที่ 23 มีนาคม 2562
โดย Four ส 23 มี.ค. 2019 9:08 am บอร์ด M077 - อิษยา งามสอาด
1
4
ส 23 มี.ค. 2019 2:00 pm โดย Four
Q - ผมติดตั้ง โมดูลฟอนต์ (oecn_base_fonts) ไม่ได้ ปัญหานี้เกิดบนเครื่อง Ubuntu 16.04 นะครับ
โดย tatiya ศ 22 มี.ค. 2019 5:51 pm บอร์ด OpenERP - MD-ERP
1
7
ศ 22 มี.ค. 2019 6:08 pm โดย tatiya
วิธีทำให้ผมสวย
โดย สริญญา สมสา ศ 22 มี.ค. 2019 3:30 pm บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
1
29
ส 23 มี.ค. 2019 7:51 pm โดย Nhani
วิธีสร้าง color palette จากรูปภาพของตัวเองได้ง่ายๆไม่ซ่ำใคร
โดย napharat079 ศ 22 มี.ค. 2019 3:28 pm บอร์ด Graphic design
0
33
ศ 22 มี.ค. 2019 3:28 pm โดย napharat079
อยากทราบวิธีการ เปลี่ยน รูป icon ที่ Tab ของ Browser บน เว็บบอร์ด phpbb
โดย Ittichai_chupol ศ 22 มี.ค. 2019 3:28 pm บอร์ด Programming - PHP
1
33
ศ 22 มี.ค. 2019 3:34 pm โดย mindphp
Stedia Google Game Platform คืออะไร
โดย Ittichai_chupol ศ 22 มี.ค. 2019 2:36 pm บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
0
30
ศ 22 มี.ค. 2019 2:36 pm โดย Ittichai_chupol
สอนวิธีทำ warp text รูปร่างอักษรแบบเก๋ๆ ด้วย photoshop
โดย napharat079 ศ 22 มี.ค. 2019 1:38 pm บอร์ด Graphic design
0
25
ศ 22 มี.ค. 2019 1:38 pm โดย napharat079
One ui คืออะไร
โดย Ittichai_chupol ศ 22 มี.ค. 2019 1:29 pm บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
0
25
ศ 22 มี.ค. 2019 1:29 pm โดย Ittichai_chupol
ประโยชน์ของนม
โดย สริญญา สมสา ศ 22 มี.ค. 2019 11:27 am บอร์ด พูดคุยเรื่องทั่วไป จับฉ่าย
0
15
ศ 22 มี.ค. 2019 11:27 am โดย สริญญา สมสา
งานประจำวันที่ 22 มีนาคม 2562
โดย Four ศ 22 มี.ค. 2019 9:04 am บอร์ด M077 - อิษยา งามสอาด
1
6
ศ 22 มี.ค. 2019 6:54 pm โดย Four
งานประจำวันที่ 22 มีนาคม 2562
โดย napharat079 ศ 22 มี.ค. 2019 8:55 am บอร์ด M079 - นภารัตน์ ฐิติกรโกวิท
3
10
ศ 22 มี.ค. 2019 6:56 pm โดย napharat079
งานประจำวันที่ 22 มีนาคม 2562
โดย สริญญา สมสา ศ 22 มี.ค. 2019 8:52 am บอร์ด MT32 - นางสาวสริญญา สมสา
2
11
ศ 22 มี.ค. 2019 6:57 pm โดย สริญญา สมสา
Q - ตอนกดคำนวนแล้วระยะทางไปแสดงทั้ง 2 ช่อง
โดย Parichat พฤ 21 มี.ค. 2019 10:44 pm บอร์ด Joomla Dev
8
21
ศ 22 มี.ค. 2019 4:25 pm โดย tsukasaz
พื้นฐานโปรเเกรม Open ERP
โดย สริญญา สมสา พฤ 21 มี.ค. 2019 9:14 pm บอร์ด Accounting software & ERP โปรแกรมบัญชี ระบบอีอาร์พี
0
35
พฤ 21 มี.ค. 2019 9:14 pm โดย สริญญา สมสา
งานประจำวันที่ 21 มีนาคม 2562
โดย napharat079 พฤ 21 มี.ค. 2019 9:54 am บอร์ด M079 - นภารัตน์ ฐิติกรโกวิท
1
6
พฤ 21 มี.ค. 2019 7:13 pm โดย napharat079