सबसे अधिक पढ़ी गई पोस्ट

Friday 12 February 2016

सर्च इंजन



वेब सर्च इंजन

वेब सर्च इंजन एक सॉफ्टवेयर है, जो वर्ल्ड वाइड वेब पर कुछ भी key word की खोज करता हैं और जो वेब पेजेस में वे कीवर्ड होते हैं उनके परिणाम देता है| हर सर्च इंजन का सर्च करने का अलग तरीका होता हैं और हर एक का रिज़ल्ट उत्पन्न करने के लिए विभिन्न जटिल गणितीय सूत्र होता है|

 
सर्च इंजन, वेबपेज पर टेक्स्ट, इमेज, वीडिओ, कीवर्ड और लिंकिंग आदी सभी को स्कैन करता है| लाखों वेबपेजेस पर इन्फार्मेशन को सर्च करने के लिए सर्च इंजन स्पेशल सॉफ्टवेयर का इस्तेमाल करते हैं, जिन्हे रोबोट, स्पाइडर कहा जाता है| जब स्पाइडर लिस्ट बना रहा होता है तो इस प्रोसेस को क्रॉलिंग कहा जाता है| इसके बाद वे क्रॉल से डाटा को इकट्ठा करते है और इसे अपने डाटाबेस में डाल देते है और इस प्रोसेस को इंडेक्सिंग कहा जाता हैं| इंडेक्सिंग का उद्देश्य जानकारी को जितनी जल्दी संभव हो पाया जा सके होता हैं| जब आप सर्च इंजन में कोइ कीवर्ड एंटर करते हैं, तो सर्च इंजन, आप जिस वेबपेज को ढूंढ़ रहे हैं उसे पाने के लिए अरबों वेबपेजेस को सर्च करता है|
क्योंकि टॉप सर्च इंजन अरबों वेबपेजेस को सर्च करता हैं, कई सर्च इंजन न केवल सिर्फ सर्च किए जाने वाले वेबपेजेस के रिजल्ट को दखाता हैं, बल्कि उन्हे उनके महत्व के आधार पर परिणाम प्रदर्शित भी करता हैं। इस महत्व को आमतौर पर विभिन्न रैंकिंग एल्गोरिदम का उपयोग करके निर्धारित किया जाता है और फिर सर्च रिजल्ट की लिस्ट के टॉप पर सबसे अधिक उपयोगी पेजेस को पेश करने की कोशिश करता है|

विभिन्न कंपनियों द्वारा बनाए गए कई अलग अलग प्रकार के सर्च इंजन होते हैं, सबसे लोकप्रिय सर्च इंजन में गूगल, याहू और बिंग हैं।
सर्च इंजन के प्रकार
1) Crawler-Based Search Engines
जैसा कि ऊपर एक्सप्लेन किया है, क्रॉलर बेस सर्च इंजन ऑटोमेटिक लिस्टिंग को कम्पाइल करते हैं|
क्रॉलर बेस्ड सर्च इंजन गूगल, याहू और बिंग हैं|

2) Directories:
डिरेक्टरी अपनी लिस्टिंग को कम्पाइल करने के लिए ह्यूमन एडिटर का उपयोग करता हैं और वेब साइट को डाटाबेस में विशिष्ट कैटेगरी में रखते हैं| ह्यूमन एडिटर व्यापक नियमों का एक पूर्व निर्धारित सेट का उपयोग कर और  सूचना के आधार पर वे वेबसाइट की जाँच करते हैं और उसकी रैंक निर्धारित करते हैं| परन्तु एक बार वेबसाइट की रैंक निर्धारित हो जाती हैं तो फिर आमतौर पर उसकी रैंक को बदलना आसान नही होता|
आज याहू और ओपन डिरेक्टरी का नाम सबसे उपर हैं|

3) Hybrid Search Engines
हाइब्रिड सर्च इंजन क्रॉलर बेस्ड और डिरेक्टरी बेस्ड रिजल्ट दोनो के कॉंबिनेशन का इस्तेमाल करता है| अधिक से अधिक सर्च इंजन इन दिनों हाइब्रिड सर्च इंजन बनते जा रहे हैं|
याहू और गूगल हाइब्रिड सर्च इंजन हैं|

4) Meta Search Engines:
मेटा सर्च इंजन अन्य सर्च इंजन के लिए क्वेरि को भेजता हैं और उनके प्राप्त रिजल्ट को कलेक्ट करता हैं और फिर उनको इकट्ठा करके इनकी एक बड़ी लिस्ट बनाता हैं..
Metacrawler, HotBot और Dogpile Metasearch मेटा सर्च इंजन हैं।

सर्च इंजन का इतिहास
सर्च इंजनों के इस्तेमाल को 26 साल हो गए हैं। पहला इंटरनेट सर्च इंजन आर्चीथा जिसे 1990 में एलन एमटेज नामक छात्र ने विकसित किया था। आर्ची के आगमन के समय विश्व व्यापी वेबका नामो-निशान भी नहीं था। चूंकि उस समय वेब पेज जैसी कोई चीज नहीं थी, इसलिए आर्ची एफटीपी सर्वरों में मौजूद सामग्री को इन्डेक्स कर उसकी सूची उपलब्ध कराता था।
आर्चीइसी नाम वाली प्रसिद्ध कॉमिक स्ट्रिप से कोई संबंध नहीं है। यह नाम अंग्रेजी के आर्काइवशब्द से लिया गया था, जिसका अर्थ है क्रमानुसार सहेजी हुई सूचनाएं। आर्ची के बाद मार्क मैककैहिल का गोफर’ (1991), ‘वेरोनिकाऔर जगहेडआए। 1997 में आया गूगलजो सबसे सफल और सबसे विशाल सर्च इंजन माना जाता है। याहू’ ‘बिंग’ (पिछला नाम एमएसएन सर्च), एक्साइट, लाइकोस, अल्टा विस्टा, गो, इंकटोमी आदि सर्च इंजन भी बहुत प्रसिद्ध हैं।
इन्टरनेट पर खोज के लिए दो तरह की वेबसाइटें उपलब्ध हैं - डायरेक्टरी या निर्देशिका और सर्च इंजन। दोनों के काम करने के तरीके अलग-अलग हैं। डायरेक्टरी यलो पेजेज की तरह है। जिस तरह यलो पेजेज में अलग-अलग कंपनियों, फर्मो आदि से संबंधित सूचनाओं को श्रेणियों और सूचियों में बांटकर रखा जाता है, उसी तरह निर्देशिकाओं में भी श्रेणियां होती हैं।
शिक्षा, विज्ञान, कला, भूगोल आदि ऐसी ही श्रेणियां हैं। इन्हें आगे भी उप श्रेणियों में विभक्त किया जाता है। याहू डायरेक्टरी (dir.yahoo.com), डीमोज (dmoz.com) आदि ऐसी ही निर्देशिकाएं हैं। इनमें हम श्रेणियों, उप श्रेणियों से होते हुए संबंधित जानकारी तक पहुंचते हैं। चूंकि निर्देशिकाओं के बंधक खुद इन श्रेणियों और सूचियों को संपादित करते रहते हैं, इसलिए इनमें अनावश्यक सामग्री मिलने की आशंका कम होती है। इनमें प्राय: बहुत देखभाल कर उन्हीं वेबसाइटों की सामग्री ली जाती है जो वहां विधिवत पंजीकृत होती हैं।

निर्देशिका के विपरीत, सर्च इंजनों का काम स्वचालित ढंग से होता है। इनके सॉफ्टवेयर टूल जिन्हें वेब क्रॉलर’ ‘स्पाइडर’ ‘रोबोटया बोटकहा जाता है, इंटरनेट पर मौजूद वेब पेजों की खोजबीन करता रहता है। ये क्रॉलर वेबसाइटों में दिए गए लिंक्स के जरिए एक से दूसरे पेज पर पहुंचते रहते हैं और जब भी कोई नई सामग्री मिलती है, उससे संबंधित जानकारी अपने सर्च इंजन में डाल देते हैं।

जिन वेबसाइटों में निरंतर सामग्री डाली जाती है (जैसे समाचार वेबसाइटें), उनमें ये बार-बार आते हैं। इस तरह उनकी सूचनाएं लगातार ताजा होती रहती हैं। लेकिन चूंकि ज्यादातर काम मशीनी ढंग से होता है, इसलिए सर्च इंजनों में कई अनावश्यक वेबपेज भी शामिल हो जाते हैं। इसलिए सर्च नतीजों को निखारने की क्रिया लगातार चलती है।


'गौरव की बात, विश्व के साथ' ब्लॉग को पढ़ने के लिए यहां क्लिक करें....
 

No comments: