ยินดีต้อนรับ blogspot Pimporn จร้า

16 ธ.ค. 2554

เรื่องที่ 1 Search Engine



Search Engine    การค้นหาข้อมูลบนเครือข่ายอินเตอร์เน็ตที่มีอยู่เป็นจำนวนมาก ถ้าเราเปิดไปทีละหน้าจออาจจะต้องเสียเวลาในการค้นหา และอาจหาข้อมูลที่เราต้องการไม่พบ การที่เราจะค้นหาข้อมูลให้พบอย่างรวดเร็วจะต้องใช้เว็บไซต์สำหรับการค้นหาข้อมูลที่เรียกว่า Search Engine Site ซึ่งจะทำหน้าที่รวบรวมรายชื่อเว็บไซต์ต่างๆ เอาไว้ โดยจัดแยกเป็นหมวดหมู่ ผู้ใช้งานเพียงแต่ทราบหัวข้อที่ต้องการค้นหาแล้วป้อน คำหรือข้อความของหัวข้อนั้นๆ ลงไปในช่อที่ กำหนดคลิกปุ่มค้นหา (หรือกดปุ่ม Enter)
                  ประเภทของเครื่องมือช่วยค้นบนอินเทอร์เน็ต
1.            Free text Search Engine เครื่องมือช่วยค้นประเภทนี้ ปัจจุบันมีจำนวนมากสามารถพิมพ์คำค้นเป็นภาษาไทยได้ ลักษณะการค้นเป็นการพิมพ์คำค้นที่ต้องการลงไปได้อย่างอิสระ หรือสามารถใช้เทคนิคการค้นได้ตาความต้องการ
2.         Directory-base Search Engine เครื่องมือช่วยค้นบางชื่อ นอกจากจะทำหน้าที่ค้นหาข้อมูลแล้ว ยังทำหน้าที่เป็น Subject Directories เพื่อให้สามารถค้นได้ตามหัวข้อกว้างๆ ไม่เฉพาะเจาะจง
      3.      Meta Search Engine  เครื่องมือช่วยค้นประเภทนี้ไม่มีระบบฐานข้อมูลของตนเอง เมื่อผู้ค้นพิมพ์คำค้นที่ต้องการเครื่องมือประเภทนี้จะส่งความต้องการไปที่ search engine อื่นที่ร่วมมือกัน ข้อดีคือ ได้ผลลัพธ์ที่ประมวลผลจากแหล่งข้อมูลหลายแห่งพร้อมกัน แต่มีจำกัดตรงที่ไม่สามารถใช้เทคนิคการค้นแบบซับซ้อนที่มีในแต่ละเครื่องมือช่วยค้นได้
                                      การทำงานของ Search Engine
                  ประกอบไปด้วย ๓ ส่วนหลัก ๆ คือ
1. Spider หรือ Web Robot จะเป็นตัวที่ทำหน้าที่เข้าสำรวจเว็บไซต์ต่างๆ แล้วดึงข้อมูลเหล่านั้นมาอัพเดทใส่ในรายการฐานข้อมูล ส่วนมาก Spider มักจะเข้าไปอัพเดทข้อมูลเป็นรายเดือน
2. ฐานข้อมูล (Database) เป็นส่วนที่เก็บรายการเว็บไซต์ ฐานข้อมูลที่ดีควรจะมีขนาดใหญ่เพียงพอที่จะรองรับกับการเติบโตของเว็บไซต์ในปัจจุบัน การออกแบบฐานข้อมูลที่ดีก็เป็นส่วนสำคัญเพราะถ้าฐานข้อมูลออกแบบมาทำงานช้าก็ทำให้การรอผลนานและจะไม่ได้รับความนิยมไปในที่สุด
3.โปรแกรม Search Engine มีหน้าที่รับคำหรือข้อความที่ผู้ใช้งานป้อนเข้ามา แล้วเข้าค้นหาตามเว็บไซต์ต่างๆ ที่จัดเก็บไว้ในฐานข้อมูล จากนั้นก็จะรายงานผลเว็บไซต์ที่ค้นพบให้กับผู้ใช้ การสืบค้นด้วยวิธีนี้นอกจากจะต้องมีระบบการสืบค้นข้อมูลที่รวดเร็วและมีประสิทธิภาพแล้ว การกลั่นกรองผลที่ได้ เพื่อให้ตรงกับความต้องการของผู้ใช้ก็เป็นอีกส่วนหนึ่งที่สำคัญของการสืบค้นข้อมูล

    การค้นคืนและเทคนิคการสืบค้น
การค้นคืนสารสนเทศ
   การสืบค้นสารสนเทศ เพื่อให้ได้รับสารสนเทศที่ตรงกับความต้องการมากที่สุด โดยปกติแล้วสามารถแบ่งเทคนิคการสืบค้นได้ 2 ประเภท คือ การสืบค้นแบบง่าย และการสืบค้นขั้นสูง
การสืบค้นแบบง่าย
การใช้คำค้นที่เป็นคำ ๆ เดียว หรือเป็นวลี ไม่ต้องสร้างประโยคคำค้นที่ยุ่งยากซับซ้อน  โดยส่วนใหญ่ผู้ใช้มักจะใช้คำสำคัญ (Keywords) ในการค้น
คำสำคัญ (Keywords) ได้แก่ คำใด ๆ ที่มีความหมายแทนเรื่องที่ต้องการจะค้น ข้อดี คือ ง่าย ไม่ยุ่งยาก ซับซ้อน ข้อเสีย บางครั้งคำค้นไม่ตรงกับความต้องการ เพราะคำต่าง ๆ ที่ใช้ค้นอาจเป็นเพียงคำที่ปรากฏในเรื่องหรือส่วนอื่น ๆ
การสืบค้นขั้นสูง
เป็นการสร้างประโยคคำค้นที่มีเงื่อนไข หรือซับซ้อนมากขึ้น แต่ทำให้เราได้ข้อมูลที่ตรงกับความต้องการมากขึ้น เทคนิคการสืบค้นขั้นสูงมีหลายเทคนิค ได้แก่
1 การสืบค้นโดยใช่เทคนิคตรรกบูลีน (Boolean Logic) เป็นเทคนิคการสืบค้นสำหรับปรับแต่งการสืบค้นให้ตรงกับความต้องการมากที่สุด โดยใช้ตัวเชื่อม ที่มักใช้กัน 3 ชนิด ได้แก่
            AND                ใช้เชื่อมคำค้นเพื่อจำกัดขอบเขตการค้นให้แคบลง
            OR                   ใช้เชื่อมคำค้นเพื่อขยายขอบเขตการให้ค้นให้กว้างขึ้น
            NOT                ใช้เชื่อมคำค้นเพื่อจำกัดขอบเขตการค้นให้แคบลงโดยตัด                  เรื่องที่ไม่ต้องการออก
                  AND เช่น internet and network หมายถึง ให้ผลการค้นได้มีเรื่องเกี่ยวกับ internet และ network อยู่ด้วยกัน
                  OR เช่น internet or network หมายถึง ให้ผลการค้นได้ทุกเรื่องที่มีเรื่องเกี่ยวกับ internet หรือ network อย่างใดอย่างหนึ่งหรือทั้งสองเรื่องก็ได้
                  NOT เช่น internet not network หมายถึง ให้ผลการค้นมีเนื้อหาเกี่ยวกับ internet แต่ไม่ต้องการเนื้อหาเกี่ยวกับ network
2 การสืบค้นโดยใช้เทคนิคการตัดคำ (Truncation) เป็นเทคนิคที่ช่วยในการสืบค้นให้ได้ข้อมูลที่กว้างขึ้น ครอบคลุมมากขึ้น โดยการละบางส่วนของคำ และใช้สัญลักษณ์แทน อาจเป็น # ? * $ ขึ้นอยู่กับข้อกำหนดของแต่ละระบบ เช่น
            method* ระบบจะทำการค้นทั้ง method methods methodological methodology
3 การสืบค้นโดยใช้เทคนิคการจำกัดคำค้น (Limit search) เป็นเทคนิคการจำกัดคำค้นให้แคบลง โดยทำการกำหนดเขตข้อมูลที่ต้องการสืบค้นร่วมกับคำค้น โดยขึ้นอยู่กับความสามารถของแต่ละระบบด้วย เช่น
            internet and la = english หมายความว่า ให้ค้นเอกสารที่มีเนื้อกับเกี่ยวกับอินเทอร์เน็ตที่เป็นภาษาอังกฤษเท่านั้น
             internet and py >= 2000 หมายความว่า ให้ค้นเอกสารที่มีเนื้อกับเกี่ยวกับอินเทอร์เน็ต และตีพิมพ์ตั้งแต่ปี 2000 เป็นต้นมา
3.1 การค้นจากเขตข้อมูล (Field)
§  การค้นจาก URL ให้ใช้ url: นำหน้าคำหรือชุดของคำซึ่งเป็นส่วนใดส่วนหนึ่งของ url เช่น
                                    url: thaiware
§  การค้นจากชื่อเว็บเพจหรือชื่อเว็บไชต์ให้ใช้ title: นำหน้าคำหรือชุดของคำซึ่งเป็นส่วนใดส่วนหนึ่งของ title เช่น
                                    title: “search engine syntax”

ไม่มีความคิดเห็น:

แสดงความคิดเห็น