पत्रकारिता के विद्यार्थियों के लिए महत्वपूर्ण नोट्स: सर्च इंजन

वेब सर्च इंजन

वेब सर्च इंजन एक सॉफ्टवेयर है, जो वर्ल्ड वाइड वेब पर कुछ भी key word की खोज करता हैं और जो वेब पेजेस में वे कीवर्ड होते हैं उनके परिणाम देता है| हर सर्च इंजन का सर्च करने का अलग तरीका होता हैं और हर एक का रिज़ल्ट उत्पन्न करने के लिए विभिन्न जटिल गणितीय सूत्र होता है|

सर्च इंजन, वेबपेज पर टेक्स्ट, इमेज, वीडिओ, कीवर्ड और लिंकिंग आदी सभी को स्कैन करता है| लाखों वेबपेजेस पर इन्फार्मेशन को सर्च करने के लिए सर्च इंजन स्पेशल सॉफ्टवेयर का इस्तेमाल करते हैं, जिन्हे रोबोट, स्पाइडर कहा जाता है| जब स्पाइडर लिस्ट बना रहा होता है तो इस प्रोसेस को क्रॉलिंग कहा जाता है| इसके बाद वे क्रॉल से डाटा को इकट्ठा करते है और इसे अपने डाटाबेस में डाल देते है और इस प्रोसेस को इंडेक्सिंग कहा जाता हैं| इंडेक्सिंग का उद्देश्य जानकारी को जितनी जल्दी संभव हो पाया जा सके होता हैं| जब आप सर्च इंजन में कोइ कीवर्ड एंटर करते हैं, तो सर्च इंजन, आप जिस वेबपेज को ढूंढ़ रहे हैं उसे पाने के लिए अरबों वेबपेजेस को सर्च करता है|

क्योंकि टॉप सर्च इंजन अरबों वेबपेजेस को सर्च करता हैं, कई सर्च इंजन न केवल सिर्फ सर्च किए जाने वाले वेबपेजेस के रिजल्ट को दखाता हैं, बल्कि उन्हे उनके महत्व के आधार पर परिणाम प्रदर्शित भी करता हैं। इस महत्व को आमतौर पर विभिन्न रैंकिंग एल्गोरिदम का उपयोग करके निर्धारित किया जाता है और फिर सर्च रिजल्ट की लिस्ट के टॉप पर सबसे अधिक उपयोगी पेजेस को पेश करने की कोशिश करता है|

विभिन्न कंपनियों द्वारा बनाए गए कई अलग अलग प्रकार के सर्च इंजन होते हैं, सबसे लोकप्रिय सर्च इंजन में गूगल, याहू और बिंग हैं।

सर्च इंजन के प्रकार –

1) Crawler-Based Search Engines

जैसा कि ऊपर एक्सप्लेन किया है, क्रॉलर बेस सर्च इंजन ऑटोमेटिक लिस्टिंग को कम्पाइल करते हैं|

क्रॉलर बेस्ड सर्च इंजन गूगल, याहू और बिंग हैं|

2) Directories:

डिरेक्टरी अपनी लिस्टिंग को कम्पाइल करने के लिए ह्यूमन एडिटर का उपयोग करता हैं और वेब साइट को डाटाबेस में विशिष्ट कैटेगरी में रखते हैं| ह्यूमन एडिटर व्यापक नियमों का एक पूर्व निर्धारित सेट का उपयोग कर और सूचना के आधार पर वे वेबसाइट की जाँच करते हैं और उसकी रैंक निर्धारित करते हैं| परन्तु एक बार वेबसाइट की रैंक निर्धारित हो जाती हैं तो फिर आमतौर पर उसकी रैंक को बदलना आसान नही होता|

आज याहू और ओपन डिरेक्टरी का नाम सबसे उपर हैं|

3) Hybrid Search Engines

हाइब्रिड सर्च इंजन क्रॉलर बेस्ड और डिरेक्टरी बेस्ड रिजल्ट दोनो के कॉंबिनेशन का इस्तेमाल करता है| अधिक से अधिक सर्च इंजन इन दिनों हाइब्रिड सर्च इंजन बनते जा रहे हैं|

याहू और गूगल हाइब्रिड सर्च इंजन हैं|

4) Meta Search Engines:

मेटा सर्च इंजन अन्य सर्च इंजन के लिए क्वेरि को भेजता हैं और उनके प्राप्त रिजल्ट को कलेक्ट करता हैं और फिर उनको इकट्ठा करके इनकी एक बड़ी लिस्ट बनाता हैं..

Metacrawler, HotBot और Dogpile Metasearch मेटा सर्च इंजन हैं।

सर्च इंजन का इतिहास

सर्च इंजनों के इस्तेमाल को 26 साल हो गए हैं। पहला इंटरनेट सर्च इंजन ‘आर्ची’ था जिसे 1990 में एलन एमटेज नामक छात्र ने विकसित किया था। आर्ची के आगमन के समय ‘विश्व व्यापी वेब’ का नामो-निशान भी नहीं था। चूंकि उस समय वेब पेज जैसी कोई चीज नहीं थी, इसलिए आर्ची एफटीपी सर्वरों में मौजूद सामग्री को इन्डेक्स कर उसकी सूची उपलब्ध कराता था।

‘आर्ची’ इसी नाम वाली प्रसिद्ध कॉमिक स्ट्रिप से कोई संबंध नहीं है। यह नाम अंग्रेजी के ‘आर्काइव’ शब्द से लिया गया था, जिसका अर्थ है क्रमानुसार सहेजी हुई सूचनाएं। आर्ची के बाद मार्क मैककैहिल का ‘गोफर’ (1991), ‘वेरोनिका’ और ‘जगहेड’ आए। 1997 में आया ‘गूगल’ जो सबसे सफल और सबसे विशाल सर्च इंजन माना जाता है। ‘याहू’ ‘बिंग’ (पिछला नाम एमएसएन सर्च), एक्साइट, लाइकोस, अल्टा विस्टा, गो, इंकटोमी आदि सर्च इंजन भी बहुत प्रसिद्ध हैं।

इन्टरनेट पर खोज के लिए दो तरह की वेबसाइटें उपलब्ध हैं - डायरेक्टरी या निर्देशिका और सर्च इंजन। दोनों के काम करने के तरीके अलग-अलग हैं। डायरेक्टरी यलो पेजेज की तरह है। जिस तरह यलो पेजेज में अलग-अलग कंपनियों, फर्मो आदि से संबंधित सूचनाओं को श्रेणियों और सूचियों में बांटकर रखा जाता है, उसी तरह निर्देशिकाओं में भी श्रेणियां होती हैं।

शिक्षा, विज्ञान, कला, भूगोल आदि ऐसी ही श्रेणियां हैं। इन्हें आगे भी उप श्रेणियों में विभक्त किया जाता है। याहू डायरेक्टरी (dir.yahoo.com), डीमोज (dmoz.com) आदि ऐसी ही निर्देशिकाएं हैं। इनमें हम श्रेणियों, उप श्रेणियों से होते हुए संबंधित जानकारी तक पहुंचते हैं। चूंकि निर्देशिकाओं के बंधक खुद इन श्रेणियों और सूचियों को संपादित करते रहते हैं, इसलिए इनमें अनावश्यक सामग्री मिलने की आशंका कम होती है। इनमें प्राय: बहुत देखभाल कर उन्हीं वेबसाइटों की सामग्री ली जाती है जो वहां विधिवत पंजीकृत होती हैं।

निर्देशिका के विपरीत, सर्च इंजनों का काम स्वचालित ढंग से होता है। इनके सॉफ्टवेयर टूल जिन्हें ‘वेब क्रॉलर’ ‘स्पाइडर’ ‘रोबोट’ या ‘बोट’ कहा जाता है, इंटरनेट पर मौजूद वेब पेजों की खोजबीन करता रहता है। ये क्रॉलर वेबसाइटों में दिए गए लिंक्स के जरिए एक से दूसरे पेज पर पहुंचते रहते हैं और जब भी कोई नई सामग्री मिलती है, उससे संबंधित जानकारी अपने सर्च इंजन में डाल देते हैं।

जिन वेबसाइटों में निरंतर सामग्री डाली जाती है (जैसे समाचार वेबसाइटें), उनमें ये बार-बार आते हैं। इस तरह उनकी सूचनाएं लगातार ताजा होती रहती हैं। लेकिन चूंकि ज्यादातर काम मशीनी ढंग से होता है, इसलिए सर्च इंजनों में कई अनावश्यक वेबपेज भी शामिल हो जाते हैं। इसलिए सर्च नतीजों को निखारने की क्रिया लगातार चलती है।

'गौरव की बात, विश्व के साथ' ब्लॉग को पढ़ने के लिए यहां क्लिक करें....

पत्रकारिता के विद्यार्थियों के लिए महत्वपूर्ण नोट्स

सबसे अधिक पढ़ी गई पोस्ट

Friday, 12 February 2016

सर्च इंजन

No comments:

आज भी पत्रकारिता को मिशन ही मानें।