และส่วนของการแยกประโยคออกมาเป็นคำในส่วนของตัวอย่าง
ที่ผมเคยได้ลองใช้งานแบบง่ายๆมาลองดูกันเลยครับ
สำหรับเริ่มต้นการใช้งานนะครับ
module PyThaiNLP
โค้ด: เลือกทั้งหมด
ติดตั้งตัวของ module PyThaiNLP ใช้คำสั่ง
pip install --upgrade pythainlp
- ในส่วนของการตัดคำก็จะประมาณนี้ครับ ที่ผมเคยใช้ ก็จะใช้คำสั่งประมาณนี้ครับ
จะได้ออกมาเป็นคำว่า ('มาฆ','บู','ชา') เป็นต้นครับ
โค้ด: เลือกทั้งหมด
from pythainlp.tokenize import syllable_tokenize output = syllable_tokenize("มาฆบูชา")
- ในส่วนของการถอดรหัส soundex ที่ผมเคยใช้ ก็จะใช้คำสั่งประมาณนี้ครับ
จะได้เป็นรหัส กE400 เป็นต้นครับ
โค้ด: เลือกทั้งหมด
from pythainlp.soundex import soundex output = soundex("คุณ", engine="lk82")
คือการถอดรหัสของเสียงครับ เช่นถ้าคำที่มีเสียงอ่านเหมือนกัน เช่นคำว่า บุญ กับ คุณ
ก็จะมีรหัส 4ตัวหลังเหมือนกันครับ กรณีที่ตัวผมเคยใช้นะครับ
โค้ด: เลือกทั้งหมด
engine="lk82"
ที่ผมเคยเจอปัญหาในการใช้ จะมีอยู่ที่ ถ้าเป็นตัวควกล้ำจะมี รหัสที่เพี้ยนไปครับ
ถึงแม้ว่าจะมีเสียงอ่านที่เหมือนกัน แต่ก็จะถอดรหัสได้ 4 ตัวหลังไม่ตรงกันครับ
กรณีของโค้ดตัวนี้ จะใช้ได้แค่กรณีที่ไม่มีตัวควบกล้ำนะครับ สำหรับการถอดรหัส Soundex
สรุปได้ว่า สำหรับการ module PyThaiNLP ที่ผมเคยใช้ก็จะมีประโยชน์ในการเทียบเสียง หรือการแยกพยางค์นะครับ
อ้างอิง
https://github.com/PyThaiNLP/pythainlp/blob/dev/README_TH.md?fbclid=IwAR2f8asgVFqCmMrLYyo-bpfwln_NELNGUgZfzuTZqdLg-Q-0dC7NI9cRZRM
https://pythainlp.readthedocs.io/en/latest/pythainlp-1-4-thai/
https://www.borntodev.com/2021/09/06/%E0%B8%A1%E0%B8%B2%E0%B8%97%E0%B8%B3%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1%E0%B8%A3%E0%B8%B9%E0%B9%89%E0%B8%88%E0%B8%B1%E0%B8%81%E0%B8%81%E0%B8%B1%E0%B8%9A-pythainlp/