खोज इंजन

मुक्त ज्ञानकोश विकिपीडिया से
नेविगेशन पर जाएँ खोज पर जाएँ

ऐसे कम्प्यूटर प्रोग्राम खोज इंजन (खोजी इंजन) (search engine) कहलाते हैं जो किसी कम्प्यूटर सिस्टम पर भंडारित सूचना में से वांछित सूचना को ढूंढ निकालते हैं। ये इंजन प्राप्त परिणामों को प्रायः एक सूची के रूप में प्रस्तुत करते हैं जिससे वांछित सूचना की प्रकृति और उसकी स्थिति का पता चलता है। खोज इंजन किसी सूचना तक अपेक्षाकृत बहुत ही कम समय में पहुँचने में हमारी सहायता करते हैं। वे 'सूचना ओवरलोड' से भी हमे बचाते हैं।

खोज इंजन का सबसे प्रचलित रूप है जो वर्ल्ड वाइड वेब पर सूचना खोजने के लिये प्रयुक्त होता है। आज के समय सभी खोजी इंजन जानकारी ढूढ़ने के लिए वर्ल्ड वाइड वेब का प्रयोग करते हैं

खोज इंजन के प्रकार

खोजी इंजन मुख्यतः 4 प्रकार के होते है जो निम्नलिखित हैं।

  1. क्रॉलर आधारित खोज इंजन
  2. निर्देशिका आधारित खोज इंजन
  3. हाइब्रिड खोज इंजन
  4. मेटा खोज इंजन

इतिहास

समयरेखा
नोट: "प्रक्षेपण" का आशय
मूल क्र्रोल पर आधारित
खोज इंजन परिणाम केवल वेब की उपलब्धता है पूर्ण सूची के लिए: खोज इंजन की सूची (List of search engines)
वर्ष इंजन वृतांत
1993 एलिवेब (Aliweb) प्रक्षेपण
1994 वेबक्रोलर (WebCrawler) प्रक्षेपण
इन्फोसीक (Infoseek) प्रक्षेपण
लाइकोस (Lycos) प्रक्षेपण
1995 अल्ताविस्ता (AltaVista) प्रक्षेपण (डीईसी (DEC) का अंग)
मैगलन (Magellan) प्रक्षेपण (मेककिनले समूह)
उतेजना (Excite) प्रक्षेपण
SAPO (SAPO) प्रक्षेपण
1996 डोगपाइल (Dogpile) प्रक्षेपण
इन्क्तोमी (Inktomi) संस्थापित
हॉटबोट (HotBot) संस्थापित
जीव्स से पूछें (Ask Jeeves) संस्थापित
1997 उतरी लाईट (Northern Light) प्रक्षेपण
यांदेक्स (Yandex) प्रक्षेपण
1998 गूगल (Google) प्रक्षेपण
1999 ओलदवेब (AlltheWeb) प्रक्षेपण
नावेर (Naver) प्रक्षेपण
तेओमा (Teoma) संस्थापित
विविसिमो (Vivisimo) संस्थापित
2000 बैदु (Baidu) संस्थापित
2003 Info.com (Info.com) प्रक्षेपण
2004 Yahoo! खोज (Yahoo! Search) निर्णायक प्रक्षेपण
A9.com (A9.com) प्रक्षेपण
2005 एम्एसएन खोज (MSN Search) निर्णायक परिक्षण
Ask.com (Ask.com) प्रक्षेपण
अच्छी खोज (GoodSearch) प्रक्षेपण
2006 विकिसीक (wikiseek) संथापित
क्वेरो (Quaero) संस्थापित
Ask.com (Ask.com) प्रक्षेपण
लाइव खोज (Live Search)

प्रक्षेपण

चाचा (ChaCha) बीटा प्रक्षेपण
Guruji.com (Guruji.com) बीटा प्रक्षेपण
2007 विकिसीक (wikiseek) प्रक्षेपण
विकिया खोज (Wikia Search) प्रक्षेपण
2008 कुइल (Cuil) प्रक्षेपण
2013 Aoohe.com (Aoohe) प्रक्षेपण
2021 Qmamu.com (Qmamu)

खोज इंजन से पहले वेब सर्वर्स की पुरी सूची थी। टीम बेर्नेर्स ली द्वारा इन सूचियों का संपादन हुआ और सीइआरएन वेबसर्वर पर होस्ट किया गया। 1992 से एक ऐतिहासिक आशुचित्र बनी हुई है[१]. जिस प्रकार अधिक से अधिक वेब्सेर्वेर्स ऑनलाइन हो जाने के कारण केन्द्रिये सूचि नही रख सकतें. एनसीएसऐ साईट पर नए सर्वर्स की घोषणा "नया क्या है" शीर्षक से किया गया है, लेकिन कोई भी पूर्ण सूचि अब मौजूद नही है[२]

आर्ची (Archie).[३] उपकरण का इन्टरनेट (पूर्व वेब) पर खोज के लिए सबसे पहले इस्तेमाल किया गया था। बिना "वि" के "अर्चिव" का नाम बना है यह अलन एम्टेज (Alan Emtage) के द्वारा 1990 में बनाया गया, जो मांट्रियाल के मेकगिल विश्वविद्यालय (McGill University) का एक छात्र था। इस प्रोग्राम में निर्देशिका जिसमें सभी संचिकाओं की सूची सार्वजनिक अनामक ऍफ़ टी पी साईट में स्थित है, डाउनलोड है (संचिका स्थानान्तरण नवाचार खोजी डाटाबेस संचिकाओं के नाम बनाता है लेकिन आर्ची इन साइटों की विषय वस्तु की सूची नही बनाता है।

गोफेर (Gopher) का उदय (1991 में मार्क मेककाहिल (Mark McCahill) के द्वारा मेंनेसोता विश्वविद्यालय (University of Minnesota) में बनाया गया) दो नए खोज प्रोग्राम, वेरोनिका (Veronica) और जगहेड (Jughead) का नेतृत्व करने के लिए हुआ। आर्ची की तरह वे संचिका का नाम और शीर्षक का खोज करते हैं जो गोफेर सूचकांक सारणी/सिस्टम में संगृहीत होता है। विरोनिका (बहुत आसान गिलहरी की तरह व्यापक नेट Iकंप्यूटरीकृतसूचकांकसंग्रह) पुरे गोफर सूची के लगभग गोफर मेनू/सूची शीर्षक में मूल शब्द खोज प्रदान करता है। जग हेड (जोंजिस सार्वलौकिक गोफर अनुक्रम एक्स्कवेसन और प्रदर्शन) विशेष गोफर सर्वर से मेनू/सूची से सुचना प्राप्त करने का उपकरण था हालाँकि "आर्ची (Archie)" नाम का खोज इंजन आर्ची हास्य पुस्तक (Archie comic book) श्रृंखला का उल्लेख नही करती, "वेरोनिका (Veronica)" और "जगहेड (Jughead)" इस श्रृंखला के प्रतिक हैं इस प्रकार वे अपने पुर्वधिकारी को संदर्भित करती हैं।

पहला वेब खोज इंजन वान्देक्स था, एक निष्क्रिये/मृत सूचकांक जो विश्वव्यापी वेब घुम्मकड़ (World Wide Web Wanderer) के द्वारा समाहरित किया गया था, इस वेब क्रॉलर (web crawler) का विकास मैथ्यू ग्रे के द्वारा एम्आईटी में 1993 में हुआ था। एक अन्य शीघ्र खोज इंजन अलिवेब (Aliweb) भी 1993 में दिखाई दिया। जम्पस्टेशन (JumpStation) ने (1994 के शुरुआत में जारी) खोज के लिए वेब पन्नों को ढूढ़ने के लिए क्रेव्लर का इस्तेमाल किया था, परन्तु वेब पन्नों के शीर्षक तक ही खोज सीमित था सबसे पहले "पुरा पाठ" क्रॉलर पर आधारित खोज इंजन वेब क्रॉलर (WebCrawler) था जो की 1994 में आया। अपने पूर्वग की तरह, यह अपने उपयोगकर्ता को किसी भी शब्द को वेब पेज पर खोजने में मदद करता है, जो सभी वेब सर्च इंजन के लिए एक मानदंड बन गया है। यह भी एक पहला था जो जनता के द्वारा व्यापक रूप से जाता है। 1994 में भी लाइकोस (Lycos) (जिसकी शुरुआत कार्नेगी मेलोन विश्वविद्यालय (Carnegie Mellon University) में हुई थी) का आरम्भ हुई थी और वह प्रमुख वाणिज्यिक प्रयास बन गई।

इसके तुरंत बाद, कई खोज इंजन दिखाई देने लगे और लोकप्रियता की और अग्रसर हुए.इसमें मैगलन (Magellan), एक्साईट (Excite), इन्फोसीक (Infoseek), इन्क्तोमी (Inktomi), उत्तरी लाइट (Northern Light) और अल्ताविस्ता (AltaVista) शामिल हैं। लोगों के लिए Yahoo! रुचिपूर्ण वेब पन्नों को ढूढ़ने का सबसे अधिक लोकप्रिय रास्ता था लेकिन इसका खोज कार्य के लिए वेब के पुरा पाठ की अपेक्षा वेब निर्देशिका (web directory) का ही संचालन करती थी सूचना चाहने वाले खोज शब्द पर आधारित खोज के बजाय खोज के लिए निर्देशिका का भी संचालन कर सकतें हैं

1996 में, नेट्स्केप (Netscape) को एक विशेष समझौते के लिए अपने चुनिन्दा खोज मशीन के लिए एक विशेष खोज मशीन की तलाश थी। अत्यधिक रूचि के बजाये पॉँच प्रमुख मशीनों के द्वारा नेट्स्केप के साथ वह समझौता रूक गई, जहाँ 50 लाख प्रति वर्ष नेट्स्केप के खोज इंजन पन्नो पर एक खोज इंजन के रोटेशन के लिए होता.ये पॉंच इंजन थे: Yahoo!, मैगलन (Magellan), लाइकोस (Lycos), इन्फोसीक (Infoseek) और एक्साईट (Excite).

इन्टरनेट निवेश के कुछ चमकते सितारों में भी खोज इंजन को जाना जाता है, जो 1990 के अंत में आया था।[४] अनेक कम्पनियाँ ने बाज़ार में प्रवेश किया और प्रारंभिक सार्वजानिक प्रस्ताव (initial public offering) के दौरान उन्हें अत्यधिक लाभ प्राप्त हुआ। कुछ ने अपने सार्वजनिक खोज मशीन वापस ले लिया और विपणन उद्योग के एकमात्र संस्करण को भी, जैसे उत्तरी लाइट कई खोज इंजन कम्पनियाँ dot-com बुलबुला (dot-com bubble) के तहत आ गई थी, एक व्यावसायिक बाज़ार जो 1999 में उछाल पर थी और 2001 में समाप्त हुई

लगभग 2000 में गूगल खोज इंजन (Google search engine) ने प्रमुखता पाई.अनेक खोजों तथा पृष्ठ श्रेणी (PageRank) जैसे नवीन प्रयास के आह्वान से कंपनी ने बेहतर परिणाम पाया। पुनरावृतिये एल्गोरिथम वेब पन्नों का श्रेणी अन्य वेब साइट्स के संख्या और पृष्ठ श्रेणी तथा जोड़ने वाले पन्नों पर इस तथ्य पर आधारित है की अच्छा या वाँछित पन्ने दूसरों से अधिक वेब साइटों से जुड़े हों.खोज इंजन के लिए गूगल ने भी अल्पतम अन्तरफलक को बनाये रखा इसके विपरीत इसके कई प्रतियोगियों ने वेब पोर्टल (web portal) में खोज इंजन सन्निहित किया

2000 तक याहू ने इन्क्तोमी (Inktomi) खोज इंजन पर आधारित खोज सेवाओं को प्रदान करने लगा था। याहू! ने 2000 में इन्क्तोमी (Inktomi) को प्राप्त किया और (जिसने ओलदवेब (AlltheWeb) और अल्ताविस्ता (AltaVista) को ख़रीदा) 2003 में प्रस्तावित (Overture) किया। 2004 तक Yahoo! गूगल खोज इंजन के साथ रहा, जब तक उसने सयुंक्त तकनीक पर आधारित अपना ख़ुद का खोज इंजन लॉन्च नही किया था।

1998 द्वारा व्यवहृत इन्क्तोमी (Inktomi) का खोज परिणामों के पतन के बाद माइक्रोसॉफ्ट ने सबसे पहले एम्एसएन खोज आरम्भ किया (जब तक कोई दुसरे प्रकार का जीवित खोज (Live Search) न आए) 1999 में साईट ने लूक्स्मार्ट (Looksmart) और इन्क्तोमी (Inktomi) के परिणामों के साथ सूचीबद्ध शेयर को प्रर्दशित करने लगा था, इसके अलावा 1999 में कुछ समय के लिए इनके बजाये अल्ताविस्ता (AltaVista) के परिणामों का प्रयोग हुआ था। 2004 में, माइक्रोसॉफ्ट ने अपने स्वयं के खोज तकनीक में स्वयं के वेब क्रोलर (web crawler) के आधार पर परिवर्तन करना आरम्भ किया। (एम्एसएनबोट (msnbot) कहलाता है)

2007 के अंत तक, गूगल सभी लोकप्रिय वेब खोज इंजनों से काफी आगे निकल गया था।[५] [६] देश के कई विशिष्ट खोज इंजन कंपनी प्रमुख बन गए उदहारण के तौर पर जनवादी गणराज्य चीन में सबसे लोकप्रिय खोज इंजन बाइडु (Baidu) और भारत[७] में guruji.com (guruji.com)

वेब खोज इंजन कैसे काम करता है

एक खोज इंजन, निम्नलिखित आदेश से संचालित होता है

  1. वेब क्रॉलिंग (Web crawling)
  2. अनुक्रमण (Indexing)
  3. खोज रहा है (Searching)

वेब खोज इंजन कई वेब पन्नों में संग्रहित सूचनाओं के आधार पर कार्य करतें हैं जो अपने डब्लू डब्लू डब्लू से पुनः प्राप्त करतें हैं। ये पन्नें वेब क्रोलर (Web crawler) और के द्वारा प्राप्त हैं (कभी कभी मकड़ी के नाम से जाना जाता है) ; एक स्वचालित वेब ब्राउज़र जो हर कड़ी को देखता है।robots.txt (robots.txt) के प्रयोग से निवारण किया जा सकता है प्रत्येक पन्नों के सामग्री का विश्लेषण से निर्धारित किया जा सकता है कैसे इसे अनुक्रमित (indexed) किया जाए (उदहारणस्वरुप, शीर्षकों, विषयवाचक, या विशेष क्षेत्र जिसे मेटा टैग (meta tags) कहते हैं, से शब्द जुडा होता है) बाद के पूछ ताछ के लिए वेब पन्नों के बारें में आधार सामग्री आंकडासंचय सूचकांक में संगृहीत है कुछ खोज मशीने जैसे गूगल स्रोत पन्नों के कुछ अंश या पुरा भाग (केच (cache) के रूप में) और साथ ही साथ वेब पन्नों के बारे में जानकारी स्टोर कर लेता है जबकि अन्य जैसे अल्ताविस्ता (AltaVista) प्रत्येक पन्नों के प्रत्येक शब्द जो भी पातें हैं उसे संगृहीत कर लेते हैं। यह संचित पन्ना वास्तविक खोज पाठ को हमेशा पकड़े हुए है जबसे इसको वास्तविक रूप में सूचीबद्ध किया गया है इसलिए जब वर्तमान पन्ने का अंतर्वस्तु को अद्यतन करने के बाद और खोज की स्थिति ज्यादा देर तक न होने के बाद यह अत्यन्त उपयोगी हो सकता है लिंक रूट (linkrot) के इस समस्या को हलके रूप में समझना चाहिए और गूगल के संचालन में इसका इस्तमाल (usability) बढ़ा क्योंकि उसने खोज शब्दों को लौटे हुए वेब पृष्ठों के द्वारा उपयोगकर्ताओं के उम्मीदों (user expectations) को पुरा किया यह विस्मय के कम से कम सिधांत (principle of least astonishment) को संतुष्ट करती है आमतौर पर उपयोगकर्ता लौटे हुए पन्नों पर खोज के परिणामों की उम्मीद करता है प्रासंगिक खोज के बढने से संचित पन्ने बहुत उपयोगी हो जाते हैं, यहाँ तक की वें तथ्यों से बाहर के डाटा हो सकते हैं जो कही भी उपलब्ध नहीं है।

जब कोई उपयोगकर्ता खोज इंजन में पूछताछ (query) के लिए प्रवेश करता है (आमतौर पर मुख्य शब्दों (key word) का प्रयोग करके) खोज मशीन इसके विषय सूचि (index) की परीक्षा करता है और इसके मानदंडों के अनुसार उपयुक्त वेब पन्नों को सूचीबद्ध करता है, सामान्यतः एक छोटी सारांश के साथ जो प्रलेख के शीर्षकों और पाठ के भागों पर आधारित होती है अधिकतर सर्च इंजन बुलियन संचालक (boolean operators) AND, OR and NOT को खोज जिज्ञाशा (search query) शांत करने के लिए समर्थन करतें हैं। कुछ सर्च इंजन उन्नत किस्म के संचालक उपलब्ध कराते हैं जिसे प्रोक्सिमिटी खोज (proximity search) कहा जाता है जो उपभोक्ता को किवर्ड्स कि दूरियां को परिभाषित करने में सहायता करता है।

इस खोज इंजन की उपयोगिता (relevance) उसकी परिणामों की उपयुक्तता पर आधारित है। हालाँकि लाखों वेब पन्नें हैं जिसमें खास शब्द या वाक्यांश हो सकते हैं पर कुछ पन्नें अधिक प्रासंगिक, लोकप्रिय, या अन्य की तुलना में अधिक प्रमाणिक हो सकते हैं। अधिकांश खोज इंजनें ऐसे पद्धितियों (rank) को अपनाते हैं कि उनका परिणाम "सर्ब्श्रेष्ठ" और पहला हो कैसे एक खोज इंजन निर्णय करता है, कौन सा पन्ना सबसे ज्यादा उपयुक्त हो और अनेक व्यापक इंजन से दुसरे इंजनों में से कौन से क्रम में परिणामों को दिखाना चाहिए। समय के साथ पद्धतियों में भी बदलाव हो रहा है जैसे इन्टरनेट का उपयोग बदल रहा है और नई तकनीक का विकास हो रहा है

अधिकांश वेब खोज इंजन व्यावसायिक उद्यमी विज्ञापनों (advertising) की आमदानी से समर्थित होते हैं। जिसके फलस्वरूप कुछ विवादास्पद कार्यप्रणाली, विज्ञापनदाताओं को खोज परिणामों में उंच स्थान/श्रेणी पाने के लिए पैसों के भुगतान के आधार पर अनुमति देती है। वे खोज इंजन जो उनके खोज के परिणामो के लिए धन स्वीकार नही करते वे खोज इंजन परिणामो के साथ चल रहे खोज सम्बन्धी विज्ञापनों द्वारा धन बनातें हैं। कोई भी इनके किसी भी विज्ञापन में क्लिक करता है तो खोज इंजन हर बार धन बनाता है।

अधिकतर खोज मशीनें निजी कंपनियों द्वारा चलाये जाते हैं और वे अल्गोरिथ्म्स और बंद आंकड़ा संचयों का प्रयोग करते हैं। हालाँकि कुछ (some) सार्वजानिक स्रोत होते हैं।

नवीनतम मेटा खोज इंजन https://web.archive.org/web/20181226102106/http://77.net/ अनूठा मेटा खोज प्रणाली का प्रयोग कर रहा है।

वेब खोज पोर्टल्स उद्योग की आमदनी अनुमानित 2008 में 13.4 % बढे़गी, तथा ब्रॉडबैंड कनेक्शन के साथ 15.1 % बढ़ने की आशा है। 2008 से 2001 के बीच उद्दोग आय अनुमानित 56 % बढ़ा है क्योंकि इंटरनेट के रूप में अमेरिका के घरों में पूर्ण परिपूर्णता के लिए अभी भी कुछ रास्ता तय करना है इसके आलावा, बढती हुई घरेलु इन्टरनेट उपयोगकर्ताओं के लिए ब्रॉडबैंड सेवाएँ दी जा रही है, फैबर ऑप्टिक और उच्च गति वाले केबल लाइनों के योग से 2012 तक 118.7 मिलियन बढ़ जायेगी.[८]

इसे भी देखें

सन्दर्भ

नोट्स

ऊपर के विवरण के समर्थन के लिए नीचे पाद टिपण्णी दिए जातें हैं। क्योंकि कुछ तथ्यात्मक रहस्यों के स्वामी निजी कंपनिया थी और इसीलिए इनका पत्रिकाओं में प्रलेखन नही हुआ, सार्वजनिक तथ्यों के अनुसार वैसे तथ्य तार्किक हैं।

  • GBMW; ३० दिन की सजा का रिपोर्ट, पुनः; BMW कार निर्माता के पास गूगल से bmw.de जर्मन वेबसाइट था, जैसे slashdot- BMW (०५-feb-२००६)
  • INSIZ: MSN/गूगल/याहू के द्वारा अनुक्रमित वेब पन्नों का "१००-के बी सीमा; अधिकतम पृष्ठ आकार (२८ अप्रैल २००६)

ग्रन्थसूची

साँचा:reflist

बाहरी कड़ियाँ

  1. स्क्रिप्ट त्रुटि: "citation/CS1" ऐसा कोई मॉड्यूल नहीं है।
  2. स्क्रिप्ट त्रुटि: "citation/CS1" ऐसा कोई मॉड्यूल नहीं है।
  3. इंटरनेट का इतिहास- "खोज इंजन" (खोज इंजन वाच से (Search Engine Watch)), लेदन विश्वविध्यालय, निदर्लेंड्स, सितम्बर २००१, वेब: लेदनU-आर्ची स्क्रिप्ट त्रुटि: "webarchive" ऐसा कोई मॉड्यूल नहीं है।.
  4. निल्सन नेट योग्यता निर्धारण: अगस्त में खोज भाग गूगल को शीर्ष पर, माइक्रोसॉफ्ट को लाभधारण स्क्रिप्ट त्रुटि: "webarchive" ऐसा कोई मॉड्यूल नहीं है।, खोज इंजन भूमि, 21 सितंबर (सितम्बर),2007.
  5. स्क्रिप्ट त्रुटि: "citation/CS1" ऐसा कोई मॉड्यूल नहीं है।
  6. मार्च २००८, अपगमन सूची- २००८साँचा:category handlerसाँचा:main otherसाँचा:main other[dead link] में सर्वोच्च 10 उद्योगों का उठना और गिरना, IBISWorld