बृहत् आँकड़ा
बृहत् आँकड़ा (Big data) उन आंकड़ों को कहते हैं जो इतने विशाल होते हैं या इतने जटिल होते हैं कि उनके साथ काम करने में परम्परागत सामान्य आंकड़ा प्रसंस्करण के अनुप्रयोग पर्याप्त नहीं होते। बृहत आंकड़ों के साथ काम करने में आने वाली मुख्य चुनौतियाँ ये हैं- विश्लेषण, एकत्रीकरण (capture), खोज करना, भण्डारण, स्थानान्तरण, आँकडों का दर्शन (visualization), आंकड़ों से सूचना निकालना (querying), अद्यतन करना (updating) तथा सूचना की गुप्तता आदि।
बिग डेटा डेटा सेट है जो इतनी बड़ी या जटिल है कि पारंपरिक डाटा प्रोसेसिंग अनुप्रयोगों अपर्याप्त हैं। चुनौतियां जैसे विश्लेषण,कैप्चर,खोज,साझा करने,भंडारण,हस्तांतरण,दृश्य,क्वेरी,अद्यतन करने और जानकारी की गोपनीयता में शामिल हैं। बिग डेटा अक्सर विश्लेषण,उपयोगकर्ता व्यवहार विश्लेषण या कुछ अन्य उन्नत डेटा एनालिटिक्स तरीकों कि डेटा दुर्लभ,निकालने का उपयोग करने के लिए बस संदर्भित करता है। बड़ा डेटा में सटीकता और अधिक आत्मविश्वास निर्णय लेने के लिए नेतृत्व होता हैं और बेहतर निर्णय अधिक से अधिक परिचालन दक्षता,लागत में कमी और कम जोखिम में परिणाम हो सकता हैं।
डेटा सेट का विश्लेषण से हम हाजिर व्यापार प्रवृत्तियों,बीमारियों को रोकने,मुकाबला अपराध आदि के लिए नए सहसंबंध पा सकते हैं। वैज्ञानिकों,व्यापार के अधिकारियों, चिकित्सा, विज्ञापन और सरकारों के चिकित्सकों को समान रूप से नियमित रूप से इंटरनेट खोज,वित्त,शहरी सूचना विज्ञान और व्यापार सूचना सहित क्षेत्रों में बड़े डेटा सेट के साथ कठिनाइया होते है। डेटा सेट बहुत ही तीव्र-गति से बढ़ रहे हैं क्योंकि वे तेजी से सस्ता और कई जानकारी संवेदन मोबाइल उपकरणों,हवाई(रिमोट सेंसिंग),सॉफ्टवेयर लॉग,कैमरों,माइक्रोफोन,रेडियो आवृत्ति पहचान (आरएफआईडी) पाठकों और वायरलेस सेंसर नेटवर्क द्वारा इकट्ठा कर रहे हैं।
संबंधपरक डेटाबेस प्रबंधन प्रणालियों और डेस्कटॉप सांख्यिकी और दृश्य संकुल अक्सर कठिनाई बड़ा डेटा को संभालने की है। बिग डाटा से यह माना जाता है कि उनके उपयोगकर्ताओं और उनके उपकरणों की क्षमताओं पर निर्भर करता है और विस्तार क्षमताओं से बड़ा डेटा एक चलती लक्ष्य बनाते हैं। कुछ संगठनों के लिए, पहली बार के लिए डेटा के गीगाबाइट का सामना करना पड़ सैकड़ों डेटा प्रबंधन विकल्प पर पुनर्विचार करने की जरूरत हो सकती है। दूसरों के लिए यह दसियों या टेराबाइट्स के सैकड़ों ले सकता है इससे पहले डेटा आकार एक महत्वपूर्ण विचार हो जाता है।
परिभाषा
बिग डाटा "आकार" एक लगातार चलती लक्ष्य है , 2012 के आंकड़ों के कई पटाबाइट्स करने के लिए कुछ दर्जन टेराबाइट्स से लेकर के रूप में है। बिग डेटा डेटासेट कि विविध जटिल कर रहे हैं जो अंतर्दृष्टि प्रकट करने के लिए तकनीक और एकीकरण के नए रूपों के साथ प्रौद्योगिकियों के एक सेट की आवश्यकता है और एक विशाल पैमाने भी है। बिग डाटा उच्च मात्रा,उच्च वेग,और/या उच्च किस्म जानकारी संपत्ति है जो प्रसंस्करण के नए रूपों मे बढ़ाया निर्णय लेते है,अंतर्दृष्टि की खोज और अनुकूलन प्रक्रिया को सक्षम करने की आवश्यकता मिलते है। एक लोकप्रिय ट्यूटोरियल मे ऐ-ईईई ऐक्सेस जर्नल में प्रकाशित,लेखकों ने बड़ा डेटा क परिभाषा तीन श्रेणियों में वर्गीकृत किया है:गुण परिभाषा , तुलनात्मक परिभाषा और वास्तु परिभाषा है। लेखकों को भी एक बड़े डेटा प्रौद्योगिकी नक्शा है।
2001 में एक शोध रिपोर्ट और संबंधित व्याख्यान में, एम-ई-टी-आ समूह (अब गार्टनर) विश्लेषक डौग लेनी तीन आयामी जा रहा है, यानी अंदर और बाहर की मात्रा ( डेटा की राशि) , वेग (गति डेटा की वृद्धि के रूप में डेटा विकास की चुनौतियों और अवसरों परिभाषित ) और विविधता (डेटा प्रकार और सूत्रों की रेंज)। गार्टनर, और अब इस उद्योग के ज्यादा , बड़ा डेटा वर्णन करने के लिए इस ' 3वि " मॉडल का उपयोग करने के लिए जारी है|
इस प्रकार के रूप में 2012 में, गार्टनर इसकी परिभाषा अद्यतन : "। बिग डाटा उच्च मात्रा, उच्च वेग, और / या उच्च किस्म जानकारी संपत्ति है कि प्रसंस्करण के नए रूपों बढ़ाया निर्णय लेने, अंतर्दृष्टि की खोज और अनुकूलन प्रक्रिया को सक्षम करने की आवश्यकता है " 3Vs की गार्टनर की परिभाषा अभी भी व्यापक रूप से इस्तेमाल किया जाता है , और एक आम सहमति से परिभाषा है कि कहा गया है कि के साथ समझौते में " बिग डाटा जानकारी संपत्ति इस तरह के एक उच्च मात्रा की विशेषता का प्रतिनिधित्व करता है , वेग और विविधता में मूल्य अपने परिवर्तन के लिए विशिष्ट प्रौद्योगिकी और विश्लेषणात्मक तरीकों की आवश्यकता होती है "।
विशेषताओं
बिग डेटा निम्नलिखित विशेषताएं द्वारा वर्णित किया जा सकता है:
आयतन: डेटा के आकार मूल्य और संभावित निर्धारित करता है और यह वास्तव में बड़ा डेटा पर विचार किया जा सकता है।
वैराइटी: प्रकार और डेटा की प्रकृति। यह मदद करता है,जो लोगों के लिए यह विश्लेषण प्रभावी ढंग से जिसके परिणामस्वरूप अंतर्दृष्टि का उपयोग करने के लिए।
वेग:जिस गति से डेटा उत्पन्न होता है और कार्रवाई की है ताकि उनके मांग और चुनौतियों पुरा कर सके।
परिवर्तनशीलता: डेटा सेट की विसंगति को संभालने और यह प्रबंधन के लिए प्रक्रियाओं को प्रभावित कर सकते हैं।
सच्चाई: डेटा की गुणवत्ता को प्रभावित करने सटीक विश्लेषण बहुत भिन्न हो सकते है।
आर्किटेक्चर
विनिर्माण अनुप्रयोगों के लिए बिग डाटा एनालिटिक्स एक 5C वास्तुकला (कनेक्शन , रूपांतरण, साइबर , अनुभूति, और विन्यास) के आधार पर किया जा सकता है। डेटा झील सूचना प्रबंधन की बदलती गतिशीलता के लिए प्रतिक्रिया करने के लिए एक साझा मॉडल के लिए केंद्रीकृत नियंत्रण से अपना ध्यान केंद्रित शिफ्ट करने के लिए एक संगठन की अनुमति देता है। इस डाटा को झील में डेटा का त्वरित अलगाव में सक्षम बनाता है,जिससे भूमि के ऊपर समय को कम करने।
टेक्नोलॉजी
2011 मैकिंजी ग्लोबल इंस्टीट्यूट की रिपोर्ट मुख्य घटक और बड़े डेटा के पारिस्थितिकी तंत्र के रूप में निम्नानुसार की विशेषता है: ए/बी परीक्षण,मशीन सीखने और प्राकृतिक भाषा संसाधन के रूप में आंकड़ों का विश्लेषण,के लिए तकनीक बिग डाटा प्रौद्योगिकी,व्यापार खुफिया,क्लाउड कंप्यूटिंग और डेटाबेस की तरह इस तरह के चार्ट,रेखांकन और डेटा की अन्य प्रदर्शित करता है।
बड़ा डेटा विश्लेषण प्रक्रियाओं के चिकित्सकों, आम तौर पर धीमी साझा भंडारण के लिए शत्रुतापूर्ण हैं। ठोस राज्य ड्राइव (एसएसडी) उच्च क्षमता साटा डिस्क समानांतर प्रसंस्करण नोड्स के अंदर दफन करने से अपने विभिन्न रूपों में प्रत्यक्ष संलग्न भंडारण (दास) पसंद करते हैं। साझा भंडारण आर्किटेक्चर-स्टोरेज एरिया नेटवर्क (सैन) और नेटवर्क संलग्न संग्रहण की धारणा कि वे अपेक्षाकृत, धीमी गति से जटिल है और महंगे हैं। इन गुणों को बड़ा डेटा विश्लेषण प्रणाली है, कि प्रणाली के प्रदर्शन, वस्तु के बुनियादी ढांचे और कम लागत पर पनपे के साथ संगत नहीं हैं।
असली है या पास-वास्तविक समय की जानकारी प्रसव बड़ा डेटा एनालिटिक्स के निर्णायक विशेषताओं में से एक है। विलंबता इसलिए परहेज जब भी और जहां भी संभव है। स्मृति में डेटा एक एफसी सैन कनेक्शन के दूसरे छोर पर डिस्क कताई पर अच्छा-डेटा नहीं है। पैमाने एनालिटिक्स के लिए आवेदन पत्र की जरूरत पर एक सैन की लागत बहुत ज्यादा अन्य भंडारण तकनीक की तुलना में अधिक है।
वहाँ 2011 के रूप में लाभ के रूप में अच्छी तरह से के रूप में बड़ा डेटा विश्लेषण में साझा भंडारण करने के लिए नुकसान है, लेकिन बड़ा डेटा एनालिटिक्स चिकित्सकों यह एहसान नहीं किया है।
अनुप्रयोगों
बिग डेटा मे प्रबंधन विशेषज्ञों की मांग बढ़ गई है कि, सॉफ्टवेयर एजी,ओरेकल कॉरपोरेशन,आईबीएम,माइक्रोसॉफ्ट,सैप,ईएमसी,एचपी और डेल सॉफ्टवेयर डेटा प्रबंधन और एनालिटिक्स में विशेषज्ञता कंपनियों के बारे में अधिक से अधिक 15 अरब$ खर्च किए हैं। 2010 में, इस उद्योग से अधिक $100 अरब लायक था और लगभग 10 प्रतिशत से बढ़ रहा था।
विकसित अर्थव्यवस्थाओं में तेजी से डेटा पर आधारित प्रौद्योगिकियों का उपयोग करते है। एक अनुमान के मुताबिक,दुनिया भर में संग्रहीत जानकारी का एक तिहाई,अल्फान्यूमेरिक पाठ और अभी भी छवि डेटा के रूप में है जो प्रारूप सबसे बिग डेटा अनुप्रयोगों के लिए सबसे उपयोगी है। यह भी (वीडियो और ऑडियो सामग्री के रूप में अर्थात् अभी तक अप्रयुक्त डेटा की क्षमता का पता चलता है।
जबकि कई विक्रेताओं बिग डाटा के लिए मुस्तैद समाधान प्रदान करते हैं, विशेषज्ञों के घर के समाधान के हाथ में कंपनी की समस्या को हल करने के लिए अगर कंपनी पर्याप्त तकनीकी क्षमताओं की है कस्टम सिलवाया विकास सलाह देते हैं।
सरकार
सरकारी प्रक्रियाओं के भीतर उपयोग और बड़े डेटा के गोद लेने के लिए फायदेमंद है और लागत,उत्पादकता, और नवाचार के संदर्भ में क्षमता की अनुमति देता है,[प्रशस्ति पत्र की जरूरत] लेकिन इसकी खामियों के बिना नहीं आती है। डेटा विश्लेषण अक्सर सहयोग से काम करते हैं और वांछित परिणाम देने के लिए नए और नवीन प्रक्रियाओं बनाने के लिए सरकार (केंद्रीय और स्थानीय) के कई भागों की आवश्यकता है। सरकारी बड़ा डेटा अंतरिक्ष के भीतर प्रमुख उदाहरण हैं।
अमेरीका
-2012 में, ओबामा प्रशासन बिग डाटा अनुसंधान और विकास पहल की घोषणा की,कितना बड़ा डेटा महत्वपूर्ण समस्याओं का सामना करना पड़ा सरकार द्वारा संबोधित करने के लिए इस्तेमाल किया जा सकता का पता लगाने के लिए। -बिग डेटा विश्लेषण बराक ओबामा की सफल 2012 फिर से चुनाव अभियान में एक बड़ी भूमिका निभाई है।
भारत
-बिग डेटा विश्लेषण भाजपा भारतीय आम चुनाव 2014 जीतने के लिए जिम्मेदार हिस्से में था। -भारत सरकार का पता लगाने के लिए कैसे भारतीय मतदाताओं नीति वृद्धि के लिए विचारों के रूप में , सरकार ने कार्रवाई करने के लिए जवाब है, के रूप में अच्छी तरह से कई तकनीकों का इस्तेमाल करता है।
यूनाइटेड किंगडम
-एक स्थानीय प्राधिकारी डेटा जैसे 'पहियों पर भोजन' के रूप में जोखिम में लोगों के लिए ऐसी सड़क के रूप में सेवाओं के बारे में मिश्रित, सेवाओं के साथ। डेटा का संबंध किसी भी मौसम संबंधी देरी से बचने के लिए स्थानीय प्राधिकारी की अनुमति दी।
अंतरराष्ट्रीय विकास
प्रभावी विकास के लिए सूचना और संचार प्रौद्योगिकी के उपयोग पर शोध बताते हैं कि बड़ा डेटा प्रौद्योगिकी महत्वपूर्ण योगदान है लेकिन यह भी अंतरराष्ट्रीय विकास के लिए वर्तमान अद्वितीय चुनौतियों बना सकते हैं। बड़ा डेटा विश्लेषण की पेशकश लागत में प्रगति प्रभावी अवसरों के इस तरह के स्वास्थ्य, रोजगार,आर्थिक उत्पादकता , अपराध,सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन के रूप में महत्वपूर्ण विकास के क्षेत्रों में निर्णय लेने में सुधार करने के लिए।
साइबर शारीरिक मॉडल
व्यवस्थित ,एकीकृत प्रबंधन और अधिक कुशलता से डेटा/जानकारी को संभालने के लिए और आगे विनिर्माण उद्योग के लिए मशीन स्वास्थ्य की स्थिति के बेहतर पारदर्शिता को प्राप्त मशीन जीवन चक्र के विभिन्न चरणों के दौरान मशीनरी या प्रक्रिया डेटा का विश्लेषण करने की जरूरत है।
स्वास्थ्य देखभाल
बिग डाटा एनालिटिक्स मदद मिली है स्वास्थ्य व्यक्तिगत दवा और आदेशात्मक एनालिटिक्स, नैदानिक जोखिम हस्तक्षेप और भविष्य कहनेवाला विश्लेषण, कचरे और देखभाल परिवर्तनशीलता में कमी, रोगी डेटा की स्वचालित बाहरी और आंतरिक रिपोर्टिंग, मानकीकृत चिकित्सा शर्तों और रोगी रजिस्ट्रियों और खंडित बिंदु समाधान प्रदान करके में सुधार|
शिक्षा
एक मैकिन्से ग्लोबल इंस्टिट्यूट अध्ययन,1.5 मिलियन उच्च प्रशिक्षित पेशेवरों और प्रबंधकों डेटा की कमी और टेनेसी विश्वविद्यालय और यूसी बर्कले सहित विश्वविद्यालयों के एक नंबर ने पाया स्वामी के कार्यक्रमों बनाया है इस मांग को पूरा करने के लिए। निजी बात यह भी है कि मांग को पूरा करने के लिए कार्यक्रमों को विकसित किया है डेटा इनक्यूबेटर तरह मुक्त कार्यक्रमों या महासभा की तरह भुगतान कार्यक्रमों सहित|
मीडिया
समझने के लिए कैसे मीडिया बिग डाटा का इस्तेमाल करता है, यह मीडिया की प्रक्रिया के लिए इस्तेमाल किया तंत्र में कुछ संदर्भ प्रदान करने के लिए आवश्यक है। उद्योग में इस तरह के अखबारों, पत्रिकाओं, या टीवी शो के रूप में विशिष्ट मीडिया के वातावरण का उपयोग करने का परंपरागत दृष्टिकोण से दूर है और बजाय चलती हो प्रौद्योगिकियों कि इष्टतम स्थानों में इष्टतम समय पर लक्षित लोगों तक पहुँचने के साथ उपभोक्ताओं में नल प्रकट होता है। परम उद्देश्य की सेवा के लिए , या संप्रेषित , एक संदेश या सामग्री है कि उपभोक्ताओं की मानसिकता के साथ लाइन में(सांख्यिकीय बोल) है। १)उपभोक्ताओं के लक्ष्य निर्धारण २)डेटा कैप्चर
आई-ओ-टी
बिग डाटा और आईओटी संयोजन के रूप में काम करते हैं। एक मीडिया के नजरिए से डेटा की युक्ति इंटर कनेक्टिविटी कुंजी व्युत्पन्न है और सटीक लक्ष्य-निर्धारण की अनुमति देता है। चीजों की इंटरनेट,बड़ा डेटा की मदद से,इसलिए मीडिया उद्योग,कंपनियों और यहां तक कि सरकारों, बदल देती है आर्थिक वृद्धि और प्रतिस्पर्धा के एक नए युग खोलने। लोगों , डेटा और बुद्धिमान एल्गोरिदम के चौराहे मीडिया दक्षता पर दूरगामी प्रभाव डालता है। उत्पन्न डेटा के धन को निशाना उद्योग के तंत्र वर्तमान पर एक विस्तृत परत की अनुमति देता है।
प्रौद्योगिकी
१)eBay.com 7.5 पेटाबाईटस् और 40पीबी में दो डेटा गोदामों के रूप में अच्छी तरह से खोज,उपभोक्ता सिफारिशों, और बिक्री के लिए एक 40पीबी क्लस्टर उपयोग करता है।
२)फेसबुक अपने यूजर बेस से 50 अरब तस्वीरों संभालती है।
३)अगस्त 2012 की स्थिति के अनुसार, गूगल प्रति माह लगभग 100 अरब खोजों को संभाल रहा था।
निजी क्षेत्र
सूचान प्रौद्योगिकी
खास तौर पर 2015 के बाद से, बिग डाटा एक उपकरण के रूप में व्यापार के संचालन के भीतर शोहरत के लिए आ गया है मदद करने के लिए कर्मचारियों को और अधिक कुशलता से काम करते हैं और संग्रह और सूचना प्रौद्योगिकी (आईटी) के वितरण को कारगर बनाने के। बिग डेटा का उपयोग एक उद्यम आईटी ऑपरेशंस एनालिटिक्स कहा जाता है के भीतर आईटी और डेटा संग्रह के मुद्दों पर हमला करने के लिए। मशीन खुफिया और गहरी कंप्यूटिंग की अवधारणाओं में बिग डाटा सिद्धांतों को लागू करके, आईटी विभाग संभावित मुद्दों और कदम की भविष्यवाणी कर सकते हैं प्रदान करने के लिए समस्याओं से पहले समाधान भी होता है।
खुदरा
वॉलमार्ट 1 लाख से अधिक ग्राहक लेनदेन हर घंटे, जो डेटा 167 बार कांग्रेस की अमेरिका पुस्तकालय में सभी पुस्तकों में निहित जानकारी के बराबर की, अधिक से अधिक 2.5 बॉबी चांग (2560 टेराबाइट) को रोकने के लिए अनुमान डेटाबेस में आयात कर रहे हैं।
खुदरा बैंकिंग
व्यावसायिक डेटा की मात्रा दुनिया भर में, सभी कंपनियों को भर में,हर 1.2 साल में दोगुना होता है- अनुमानों के अनुसार|
विज्ञान
लार्ज हैड्रान कोलाइडर प्रयोगों के बारे में 150 मिलियन सेंसर डेटा प्रति सेकंड 40 लाख बार पहुंचाने का प्रतिनिधित्व करते हैं। वहाँ प्रति सेकंड लगभग 600 मिलियन टक्करों हैं। छानने और इन धाराओं के अधिक से अधिक 99.99995% की रिकॉर्डिंग से परहेज करने के बाद, वहाँ प्रति सेकंड ब्याज की 100 टक्करों हैं।
खेल
बिग डेटा स्पोर्ट सेंसर का उपयोग,प्रशिक्षण और समझ प्रतियोगियों को बेहतर बनाने के लिए इस्तेमाल किया जा सकता है। इसके अलावा , यह बड़ा डेटा विश्लेषण का उपयोग करते हुए एक मैच में विजेता की भविष्यवाणी करना संभव है। खिलाड़ियों के भविष्य के प्रदर्शन के रूप में अच्छी तरह से भविष्यवाणी की जा सकती है। इस प्रकार, 'खिलाड़ियों के मूल्य और वेतन के मौसम में एकत्र आंकड़ों से निर्धारित होता है।