बड़े डेटा में विकास की अनंत संभावनाएं हैं। आइए जानें कि बड़ा डेटा क्या है और इसके 2010 में लोकप्रिय होने के तीन कारण क्या हैं।


कुछ बिंदु पर, हमें विभिन्न मीडिया के माध्यम से अपरिचित शब्द बिग डेटा का सामना करना शुरू हुआ। इन शब्दों को लोकप्रिय उपयोग में आए अभी कुछ ही साल हुए हैं। हालाँकि, हाल ही में मीडिया द्वारा इसका इतना अधिक उपयोग किया गया है कि "बड़े डेटा का उपयोग करके विपणन" जैसी अभिव्यक्तियाँ अब हमें उबाऊ लगती हैं। तो बड़े डेटा और डेटा माइनिंग के बारे में ऐसा क्या है जो उन्हें इतना लोकप्रिय बनाता है?

बिग डेटा का शाब्दिक अर्थ है एक विशाल डेटा सेट। कोई भी डेटा जिसे भंडारण माध्यम में संग्रहीत किया जा सकता है, सरल संख्याओं से लेकर जटिल सीसीटीवी छवियों तक, प्रारूप की परवाह किए बिना, उन्हें एक सेट बनाने के लिए इकट्ठा करके बड़ा डेटा बनाया जा सकता है। दूसरे शब्दों में, डेटा के औपचारिक पहलू से, पिछले डेटा और बड़े डेटा के बीच कोई अंतर नहीं है। हालाँकि, यदि बड़ा डेटा केवल बड़े आकार का डेटा है, तो इसे 1990 के दशक के अंत और 2000 के दशक की शुरुआत में उतना ही लोकप्रिय होना चाहिए था, जब कंप्यूटर प्रौद्योगिकी तेजी से विकसित हुई थी। हालाँकि, तीन कारण हैं कि क्यों बड़ा डेटा केवल 2010 के दशक में ही लोकप्रिय हुआ:

सबसे पहले, सबसे बड़ा कारण सीपीयू विकास में प्रतिमान बदलाव है। सीपीयू (सेंट्रल प्रोसेसिंग यूनिट) कंप्यूटर का मस्तिष्क है जो कम्प्यूटेशनल कार्य करता है। अतीत में, विकास की गति इतनी तेज़ थी कि मूर का नियम, जो बताता है कि सीपीयू का प्रदर्शन हर 18 महीने में दोगुना हो जाता है, व्यापक रूप से स्वीकार किया गया था। हालाँकि, 2004 में, सीपीयू का विकास '4GHz दीवार' नामक सीमा तक पहुँच गया। पहले, सीपीयू विकास की दिशा एक कोर (कंप्यूटिंग इकाई) में डाले गए ट्रांजिस्टर (कंप्यूटिंग तत्व) की संख्या में वृद्धि करके एक प्रसंस्करण इकाई की गति को बढ़ाना था। हालाँकि, इस विधि में गर्मी की गंभीर समस्या थी क्योंकि जैसे-जैसे ट्रांजिस्टर का एकीकरण बढ़ता गया, प्रत्येक ट्रांजिस्टर के लिए गर्मी अपव्यय क्षेत्र कम हो गया। सीपीयू निर्माता अंततः इस हीटिंग समस्या को हल करने में विफल रहे। परिणामस्वरूप, ट्रांजिस्टर एकीकरण एक निश्चित स्तर से अधिक नहीं हुआ, और एक कोर की ऑपरेटिंग गति लगभग 4GHz पर बनी रही। हालाँकि, कोर में ट्रांजिस्टर की संख्या बढ़ाने के बजाय, सीपीयू निर्माताओं ने गर्मी की समस्या से निपटने के अन्य तरीके खोजे हैं। मल्टी-कोर सीपीयू विकसित करके एक नई सफलता पाई गई जिसमें सीपीयू के भीतर कई कोर शामिल थे। जबकि मौजूदा सिंगल-कोर सीपीयू एक कोर द्वारा क्रम में कई कार्यों को संसाधित करते हैं, मल्टी-कोर सीपीयू कई कार्यों को कई कोर में विभाजित और समानांतर करके और उन्हें एक साथ संसाधित करके प्रसंस्करण गति को बढ़ाते हैं। ये मल्टी-कोर सीपीयू तेजी से लोकप्रिय हो गए हैं, और समानांतर कंप्यूटिंग तकनीक विकसित हुई है जो डेटा को एक साथ संसाधित करती है। परिणामस्वरूप, अब बड़ी मात्रा में डेटा को अधिक तेज़ी से और आसानी से संभालना संभव है जिसे पहले कंप्यूटिंग गति की सीमाओं के कारण नियंत्रित नहीं किया जा सकता था।

न केवल मल्टी-कोर सीपीयू के लोकप्रियकरण, बल्कि स्टोरेज मीडिया के विकास ने भी बड़े डेटा के युग को खोलने में बड़ी भूमिका निभाई। हार्ड डिस्क के मामले में, एक प्रतिनिधि भंडारण माध्यम, डेटा को धातु प्लेटों पर संग्रहीत किया जाता है जिन्हें प्लैटर कहा जाता है। एक हार्ड डिस्क में एकाधिक प्लेटर्स डालने के लिए बेहतर चुंबकीय रिकॉर्ड एकीकरण और मल्टी-कोर सीपीयू जैसी तकनीकें विकसित की गई हैं। इसके कारण, भंडारण क्षमता में विस्फोटक रूप से वृद्धि हुई है, इस हद तक कि 8TB के भंडारण स्थान वाले उत्पाद 2023 के दशक में लोकप्रिय हो गए हैं, जो 1990 के दशक में केवल 1GB था। इसके अलावा, अपेक्षाकृत धीमी हार्ड डिस्क के विपरीत, एसएसडी (सॉलिड स्टेट ड्राइव) जैसे उच्च गति वाले नए स्टोरेज मीडिया सामने आए हैं। बड़ी मात्रा में डेटा का उपयोग करना आसान हो गया है जिसे पहले अपर्याप्त भंडारण स्थान के कारण संग्रहीत नहीं किया जा सकता था या संग्रहीत होने पर भी धीमी पढ़ने और लिखने की गति के कारण संसाधित करना मुश्किल था।

सीपीयू और स्टोरेज मीडिया में प्रगति ने बड़ी मात्रा में डेटा का उपयोग करना संभव बना दिया है जिसकी पहले गणना या भंडारण नहीं किया जा सकता था। हालाँकि, आज के बड़े डेटा और पिछले बड़े डेटा के बीच बुनियादी अंतर डेटा एकत्र करने के तरीके में है। स्मार्ट डिवाइस और एसएनएस, जो 2010 के दशक में तेजी से लोकप्रिय हुए, ने डेटा संग्रह के प्रतिमान को बदल दिया। नेटवर्क से प्रत्यक्ष या अप्रत्यक्ष रूप से जुड़े स्मार्ट डिवाइस कैमरे, जीपीएस (ग्लोबल पोजिशनिंग सिस्टम) और एनएफसी (नियर फील्ड कम्युनिकेशन) जैसे विभिन्न सेंसर के माध्यम से उपयोगकर्ता डेटा एकत्र करते हैं। और यह डेटा लगातार नेटवर्क पर अपलोड किया जा रहा है। इसके अलावा, फेसबुक और ट्विटर जैसे एसएनएस के उपयोगकर्ता लगातार अपनी विभिन्न व्यक्तिगत जानकारी नेटवर्क पर अपलोड कर रहे हैं। अतीत में, डेटा संग्रह केवल विशिष्ट लक्ष्य डेटा प्राप्त करने के लिए किया जाता था जिसे डेटा संग्रह का विषय महत्वपूर्ण मानता था। हालाँकि, वर्तमान डेटा संग्रह स्मार्ट उपकरणों और एसएनएस के माध्यम से नेटवर्क के माध्यम से बहने वाले भारी मात्रा में डेटा को अंधाधुंध रूप से एकत्र करता है। इसके अतिरिक्त, जैसे-जैसे नेटवर्क तकनीक धीरे-धीरे विकसित हो रही है, नेटवर्क से जुड़ी वस्तुओं के प्रकार बढ़ रहे हैं। दूसरे शब्दों में, इंटरनेट ऑफ थिंग्स (IOT) के आगमन के साथ, डेटा संग्रह का क्षेत्र और अधिक विस्तारित हो रहा है।

इस तरह, मल्टी-कोर सीपीयू के विकास, स्टोरेज मीडिया के विकास और डेटा संग्रह के दायरे के विस्तार के सामंजस्यपूर्ण संयोजन के माध्यम से बड़े डेटा की अवधारणा उभरी। वर्तमान में, कई कंपनियां, सरकारें और अन्य समूह खजाना खोजने के लिए अपने द्वारा एकत्र किए गए बड़े डेटा की खोज कर रहे हैं, और विभिन्न मीडिया बड़े डेटा के महत्व पर जोर दे रहे हैं। लेकिन किसी भी चीज़ से अधिक, हमें बड़े डेटा के बारे में विचार करने की आवश्यकता यह है कि वर्तमान बड़ा डेटा केवल शुरुआत है। भविष्य में, मल्टी-कोर सीपीयू एक साथ तेजी से गणना करने में सक्षम होने के लिए विकसित होंगे, और स्टोरेज मीडिया अधिक डेटा को अधिक तेज़ी से संग्रहीत करने में सक्षम होने के लिए विकसित होगा। और अधिक से अधिक चीजें नेटवर्क से जुड़ेंगी और अपने द्वारा एकत्रित डेटा को नेटवर्क पर भेजेंगी। वर्तमान में जिस बड़े डेटा को हम बड़ा मानते हैं, वह बड़े डेटा के आने वाले युग में बिल्कुल भी बड़ा नहीं हो सकता है।