| รายละเอียดวิทยานิพนธ์ | |
| ชื่อวิทยานิพนธ์ | ผลกระทบของความกว้างของคำถามที่มีต่อประสิทธิภาพในการค้นคืน ข้อมูล โดยใช้ระบบค้นคืนบูลีนแบบมาตราฐานและแบบมีการถ่วงน้ำหนัก The Effect of Term Specificity on Performance Using Standard and Extended Boolean Information Retrieval System |
| ชื่อนิสิต | สุวัฒน์ สถาพรพิริยะเดช Suwat Sathapornpiriyadeth |
| ชื่ออาจารย์ที่ปรึกษา | ดร นิพนธ์ เจริญกิจการ Ph D Nipon Charoenkitkarn |
| ชื่อสถาบัน | มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี. บัณฑิตวิทยาลัย King Mongkuts University of Technology. Bangkok (Thailand). Graduate School |
| ระดับปริญญาและรายละเอียดสาขาวิชา | วิทยานิพนธ์มหาบัณฑิต. วิทยาศาสตร์ (เทคโนโลยีสารสนเทศ) Master. Science (Information Technology) |
| ปีที่จบการศึกษา | 2540 |
| บทคัดย่อ(ไทย) | วิทยานิพนธ์นี้เสนอวิธีการศึกษาการค้นคืนข้อมูลบน ฐานข้อมูลภาษาไทยอย่างมีระบบ โดยเริ่มจากการรวบรวมฐาน ข้อมูลที่เป็นข่าวประมาณสามพันข่าว จากนั้นทำการสร้างคำถาม สิบคำถาม (request) แล้วทำการออกแบบสอบถามคน 32 คน เพื่อเลือกคำถามออกมา 4 คำถาม ที่มีคะแนนมากที่สุด นำมาใช้ ในการทดลอง โดยเป็นคำถามแบบกว้างและคำถามแบบแคบ อย่างละ 2 คำถาม เมื่อได้คำถามแล้วก็ทำการค้นหาเอกสาร ที่เกี่ยวข้องกับคำถามนั้นๆ จากฐานข้อมูล เพื่อเตรียมไว้เป็น คำตอบของแต่ละคำถาม ในการทดลองจะมีผู้ร่วมในการทดลอง (จะเรียกว่า ผู้ค้นหา) ทั้งหมด 16 คน โดยแบ่งเป็นผู้ค้นหา จากสาขาคอมพิวเตอร์ และผู้ค้นหาจากสาขาทั่วๆ ไป อย่างละ 8 คน มีการใช้ระบบสืบค้นข้อมูลอยู่ 2 แบบ คือ ระบบสืบค้น ชนิดบูลีนแบบมาตราฐาน (standard Boolean model) และ ชนิดบูลีนแบบมีการถ่วงน้ำหนัก (extended Boolean model) ผู้ค้นหา 4 คนจากทั้งสองกลุ่ม จะใช้บูลีนแบบมาตรฐาน ส่วน 4 คนที่เหลือ จะใช้บูลีนแบบมีการถ่วงน้ำหนัก ทำการค้นคืน ข้อมูลจากคำถาม 4 คำถามข้างต้น การค้นคว้านี้จะศึกษาถึงผลกระทบของปัจจัยทั้งสาม ข้างต้น (บูลีนแบบมาตราฐานกับบูลีนแบบมีการถ่วงน้ำหนัก, คำถามแบบกว้างกับคำถามแบบแคบ และผู้ค้นหาจากสาขา คอมพิวเตอร์ กับผู้ค้นหาจากสาขาทั่วๆ ไป) ที่มีต่อประสิทธิภาพ ในการค้นคืนข้อมูลบนฐานข้อมูลข่าวภาษาไทย โดยเน้นที่บูลีน แบบมาตราฐาน พร้อมด้วยคำถามแบบแคบเปรียบเทียบกับบูลีน แบบมีการถ่วงน้ำหนักพร้อมด้วยคำถามแบบกว้าง นอกจากนั้น ยังศึกษาถึงผลกระทบของระดับการศึกษา และภูมิหลังในการทำงานของผู้ค้นหาที่มีต่อประสิทธิภาพในการ ค้นคืนข้อมูลด้วย ในการประเมินประสิทธิภาพจะใช้เวลาที่ใช้ ในการค้นหา, ค่าความถูกต้องแบบพรีซีซัน (precision) (เปอร์เซ็นต์ค่าเอกสารที่ถูกต้องที่ค้นคืนได้เทียบกับที่ค้นคืน มาทั้งหมด), แบบรีคอล (recall) (เปอร์เซ็นค์ค่าเอกสาร ถูกต้องที่ค้นคืนได้เทียบกับที่มีอยู่ทั้งหมด), และแบบข้างเคียง อื่นๆ (variations) ของค่าสองตัวนี้ ผลจากการทดลองชี้ให้เห็นว่า ผู้ค้นหาจากสาขา คอมพิวเตอร์มีประสิทธิภาพในการค้นคืนข้อมูลที่ดีกว่าผู้ค้นหา จากสาขาทั่วๆ ไป (2-tail significant<=0.001 สำหรับ เวลาเฉลี่ยและความถูกต้องแบบพรีซีชัน) นอกจากนั้น ยังพบว่า ไม่สามารถหาจุดตัด (threshold) ที่เหมาะสมของค่าความ คล้ายคลึง (similarity) ได้ ซึ่งส่งผลให้ไม่เกิดข้อแตกต่าง ของประสิทธิภาพด้านการค้นคืนระหว่างบูลีนทั้งสองชนิด ผลจาก การศึกษายังพบอีกว่าประสบการณ์ในการค้นหาข้อมูลและลักษณะ ของคำถามมีผลต่อประสิทธิภาพในการค้นคืนข้อมูล โดยทั่วไปแล้ว ผลการศึกษาจากวิทยานิพนธ์นี้แสดงให้ เห็นว่าขบวนการในการค้นคืนข้อมูลเป็นขบวนการที่มีความซับซ้อน และมีปัจจัยมากมายที่มีผลกระทบต่อประสิทธิภาพในการค้นคืนข้อมูล นอกจากนั้นแล้ว ยังได้ชี้แนวทางในการค้นคว้าต่อว่า ควรจะเพิ่ม ขนาดของฐานข้อมูลที่ใช้ในการทดลองขึ้น เพื่อพิสูจน์ให้เห็นถึง ข้อแตกต่างระหว่างบูลีนทั้งสอง และควรเพิ่มความสามารถใหม่ๆ (new feature) ให้กับระบบสืบค้นข้อมูล (search tool) เพื่อเพิ่มประสิทธิภาพในการค้นคืนข้อมูล นอกจากนั้นควรทำการ ทดลองบนฐานข้อมูลภาษาไทยชนิดอื่นๆ บ้าง |
| บทคัดย่อ(English) | This thesis presents a comprehensive and systematic study of Thai textbase retrieval. About three thousand of Thai news articles were collected. The author then generated ten requests and asked thirty two volunteers to vote whether the requests were broad or narrow. Four of the most agreed requests (two broad and two narrow requests) were selected for the experiment. All relevant articles of each request were then exhaustively searched from the textbase. Sixteen participants including eight computer-field, and eight general-field searchers involved in an experiment. The experiment employed two different search models, standard and extended Boolean models. In each group of searchers, four searchers used standard Boolean model and the other four used extended Boolean model to perform an identical task. The task was to search relevant articles in accordance to the two broad and two narrow requests. The study emphasizes on effect of three factors mentioned above (standard vs. extended Boolean models, broad vs. narrow requests, and computer-field vs. general-field searchers) on retrieval performance in Thai textbase retrieval. It, in particular, focuses on standard Boolean model with specific term (narrow request) and extended Boolean model with general term (broad request). In addition, searchers education levels and work background are also examined to test their effects on performance. In this study, performances are measured in time (seconds), precision, recall and their variations. Few other evaluations are also taken. The results indicates that computer-field searchers obtained better performance than that of general-field searchers (2-tail significant=0.001 for average time and precision). The study also finds that, based on the three thousand articles employed in the experiment, there was no optimal similarity threshold for the extended Boolean model. This resulted in no performance difference between the two models. The study also shows search experience and characteristics of request affected performance. Overall the results of this thesis demonstrates that a retrieval process is a complex process. The study also shows that several factors affected search performance. It points that the future research need a larger textbase to prove the performance difference of different Boolean models and add new features of search tool to increase retrieval performance. In addition, it is interesting to perform the experiment on other Thai textbase. |
| ภาษาที่ใช้เขียนวิทยานิพนธ์ | 974-624-097-8 |
| จำนวนหน้าของวิทยานิพนธ์ | |
| ISBN | |
| สถานที่จัดเก็บวิทยานิพนธ์ | |
| คำสำคัญ | Information Retrieval, Term Specificity, Standard Boolean, Extended Boolean., Retrieval Performance, การค้นคืนข้อมูล, ความกว้างของคำถาม, บูลีนแบบมาตราฐาน, บูลีนแบบมีการถ่วงน้ำหนัก, ประสิทธิภาพการค้นคืน |
| วิทยานิพนธ์ที่เกี่ยวข้อง |
|

