आँकड़ा खनन

साँचा:distinguish

डाटा माइनिंग डाटा से पैटर्न निकालने की प्रक्रिया है। चूंकि अधिक डाटा एकत्रित हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,^[१] डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है। सामान्य रूप से इसे विस्तृत व्यवहारों की रूपरेखा बनाने में प्रयोग किया जाता है, जैसे विपणन, निगरानी, धोखाधड़ी पहचान और वैज्ञानिक खोज.

एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं। इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है। परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं। किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है। इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का सत्यापन और प्रमाणीकरणहै।

डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है। दूसरे भाव से भ्रम की स्थिति से बचने के लिए, डाटा ड्रेजिंग और डाटा स्नूपिंग पद का अक्सर इस्तेमाल किया जाता है। ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है।

पृष्ठभूमि

मनुष्य सदियों से "हाथों से" डाटा से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है। आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है बाएस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है। चूंकि डाटा सेट, आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है। कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे न्यूरल नेटवर्क, क्लस्टरिंग, जेनेटिक एल्गोरिदम (1950s), डिसीज़न ट्री (1960s) और सपोर्ट वेक्टर मशीन (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है।^[२] कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).

व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है। इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण एकरेखस्तता के प्रति संवेदनशील होते हैं। डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं। इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए चॉयस मॉडलिंग सुलझाते हैं। इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, प्रयोगात्मक डिजाइन के निर्माण के दौरान.

डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग (CRISP-DM 1.0) और 2004 जावा डाटा माइनिंग मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं। मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे RapidMiner, Weka, KNIME और R Project, डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं। इन प्रणालियों में अधिकांश, PMML (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)^[३], कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक XMLआधारित भाषा है। PMML संस्करण 4.0, 2009 जून में जारी हुआ।^[३]^[४]^[५]

अनुसंधान और विकास

मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है।^[६]

इस क्षेत्र में प्रमुख व्यावसायिक संगठन है एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़ स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग (SIGKDD).साँचा:category handler^{[<span title="स्क्रिप्ट त्रुटि: "string" ऐसा कोई मॉड्यूल नहीं है।">citation needed]} 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,^[७] और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक अकादमिक पत्रिका प्रकाशित की है।^[८] कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:

DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;^[९]
DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;^[१०]
MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग

प्रक्रिया

नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था। इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना और परिणामों की व्याख्या करना.^[११]

प्री-प्रोसेसिंग

एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है। चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या डाटा वेयरहाउस है।

निर्धारित लक्ष्य को तब साफ किया जाता है। सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है।

साफ डाटा को फीचर वेक्टर में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है। उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है। ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर (रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है।

फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है।

डाटा माइनिंग

डाटा माइनिंग में सामान्य रूप से चार वर्गों के कार्य शामिल हैं:^[११]

वर्गीकरण - पूर्वनिर्धारित समूहों में डाटा को व्यवस्थित करता है। उदाहरण के लिए, एक ईमेल प्रोग्राम एक ईमेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। आम एल्गोरिदम में शामिल हैं डिसीज़न ट्री लर्निंग, निअरेस्ट नेबर, नाइव बाएसियन वर्गीकरण और न्यूरल नेटवर्क .
क्लस्टरिंग - वर्गीकरण की तरह है, लेकिन समूह पूर्वनिर्धारित नहीं होते हैं, तो एल्गोरिथ्म समान चीज़ों को समूहों में इकठ्ठा करने की कोशिश करेगा.
प्रतिगमन - एक कार्य को खोजने का प्रयास करता है जो कम से कम त्रुटि के साथ डाटा को मॉडल करे. एक आम तरीका जेनेटिक प्रोग्रामिंग का प्रयोग है।
एसोसिएशन रुल लर्निंग - चर के बीच संबंधों को खोजता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहकों की खरीददारी की आदतों पर डाटा इकट्ठा कर सकता है। एसोसिएशन रुल लर्निंग के प्रयोग से, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पादों को अक्सर एक साथ ख़रीदा जाता है और इस जानकारी का उपयोग विपणन प्रयोजनों के लिए कर सकता है। इसे कभी-कभी "मार्केट बास्केट अनैलिसिस" कहा जाता है।

परिणाम सत्यापन

डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं। डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे ओवरफाइटिंग कहा जाता है। इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक परीक्षण सेट का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था। लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है। उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के प्रशिक्षण सेट पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है। एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे ROC कर्व्स.

यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है। यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

उल्लेखनीय उपयोग

खेल

1960 के दशक के प्रारंभ से, कुछ मिश्रित खेलों के लिए ऑरैक्कल की उपलब्धता के साथ, जिन्हें टेबलबेसेस (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड डॉट्स-एंड-बॉक्सेस, छोटे बोर्ड हेक्स और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है। यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है। मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में बेरलेकंप और शतरंज एंडगेम्स में जॉन नन इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है।

व्यावसाय

ग्राहक संबंध प्रबंधन अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है। साँचा:category handler^{[<span title="स्क्रिप्ट त्रुटि: "string" ऐसा कोई मॉड्यूल नहीं है।">citation needed]} एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है। अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है। डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है। अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. डाटा क्लस्टरिंग का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है।

डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है। कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है। तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है। मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और स्वचालित डाटा माइनिंग की तरफ बढ़ने की जरूरत है।

डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं। प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है। इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.^[१२]

डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर मार्केट बास्केट अनैलिसिस कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है। यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं। हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है। यह उदाहरण, लेनदेन आधारित डाटा के भीतर साहचर्य नियम की चर्चा करता है। सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, नियम एक डाटाबेस के भीतर भी मौजूद हो सकता है। एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.

मार्केट बास्केट अनैलिसिस का इस्तेमाल अल्फा उपभोक्ता की खरीददारी पैटर्न को पहचानने के लिए किया गया है। अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं और अंत में बाकी समाज के लिए पुष्ट करते हैं। इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं।

डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है। केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है। डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है।

एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग."^[१३] इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है। इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है। ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है।

विज्ञान और इंजीनियरी

हाल के वर्षों में, डाटा माइनिंग का प्रयोग व्यापक रूप से विज्ञान और इंजीनियरिंग के क्षेत्र में किया गया है जैसे बायोइन्फोरमेटिक्स, आनुवांशिकी, चिकित्सा, शिक्षा और विद्युत शक्ति इंजीनियरिंग.

मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के DNA अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है। सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे कैंसर के विकास के जोखिम को प्रभावित करते हैं। यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है। डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन के रूप में जाना जाता है।^[१४]

विद्युत् इंजीनियरिंग में, डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की स्थिति निगरानी के लिए इस्तेमाल किया जाता है। स्थिति निगरानी का प्रयोजन, इन्सुलेशन के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है। डाटा क्लस्टरिंग जैसे सेल्फ-ओर्गनाइजिंग मैप (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है। कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है। जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी। SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है।^[१५]

डाटा माइनिंग तकनीक को विद्युत् ट्रांसफार्मर पर भंग गैस विश्लेषण (DGA) के लिए लागू किया गया है। विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है। डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं।^[१५]

विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं^[१६] और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं।^[१७]. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, विशेषज्ञता खोज प्रणाली में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग संस्थागत स्मृति में मदद कर सकते हैं।

डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत जैव चिकित्सा डाटा,^[१८] चिकित्सीय परीक्षण डाटा माइनिंग,^[१९] SOM के प्रयोग से यातायात विश्लेषण,^[२०] वगैरह.

प्रतिकूल दवा प्रतिक्रिया निगरानी में उप्साला निगरानी केन्द्र ने, 1998 से 4.6 मीलियन संदिग्ध प्रतिकूल दवा प्रतिक्रिया घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है। हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान^[२१] के अस्थायी पैटर्न के लिए इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है।^[२१]

स्थानिक डाटा माइनिंग

स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है। स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और भौगोलिक सूचना प्रणाली (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं। विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है। IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्व पर जोर देता है।

डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है। हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है। उन संगठनों में से हैं:

विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं

चुनौतियां

भूस्थानिक डाटा भण्डार बहुत विशाल होता है। इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं। एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं।^[२२] इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है। डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है। भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं।

भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं। मिलर और हान^[२३] इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:

भौगोलिक डाटा भण्डार का विकास और समर्थन - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है। एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.
भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं। भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.
विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).

निगरानी

अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं कुल सूचना जागरूकता (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम (CAPPS II) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन (ADVISE)^[२४] और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज (मैट्रिक्स)^[२५] इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.^[२६]

आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".

पैटर्न माइनिंग

"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद पैटर्न की खोज शामिल है। इस संदर्भ में पैटर्न का अर्थ अक्सर संगत नियम होता है। संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.

आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है।"^[२७]^[२८]^[२९] पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक संगीत सूचना पुनःप्राप्ति (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं।

विषय आधारित डाटा माइनिंग

"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है। आतंकवाद से लड़ने के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं।"^[२८]

गोपनीयता चिंताएं और नैतिकता

कुछ लोगों का मानना है कि डाटा माइनिंग खुद ही नैतिकता की दृष्टि से तटस्थ है।^[३०] तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं।^[३१] विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है।^[३२]^[३३]

डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं। ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्रित किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.^[३४] यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है। एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे।

यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:

डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
डाटा का उपयोग कैसे किया जाएगा,
डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
डाटा तक पहुंच की सुरक्षा और इसके अतिरिक्त,
एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है^[३४]

कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.^[३४] हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए।^[३५]^[३५]

बाजार सर्वेक्षण

हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं। इन वार्षिक रिपोर्ट में कुछ शामिल हैं:

द गार्टनर "मैजिक क्वाड्रन्ट" रिपोर्ट.^[३६]
द रेक्सर एनालिटिक रिपोर्ट.^[३७]

समूह और संगठन

SIGKDD, ACM स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.

इन्हें भी देखें

अनुप्रयोग

साँचा:columns-list

विधियां