الكاتبة - راندا الأنور

المصدر الأساسي :

نشر بتاريخ 6- 12 - 2015 م

السلسلة كاملة

  • الجزء[1]
  • الجزء[2]
  • الجزء[3]
  • الجزء[4]
  • الجزء[5]
  • الجزء[6]

الجزء الثاني

في الجزء الأول تعرفنا على المصطلحات الأربعة التي تجتاح عالم التكنولوجيا والأعمال مؤخرًا وتنبئ بمستقبل تتفاوت الآراء بين الترحيب به والحذر منه والعلاقة بين تلك المصطلحات الأربعة وأهمية أن تعرف مزيد من التفاصيل عنها. سنتناول كل مصطلح منهم بشرح أعمق في مقالات أخرى لتغطية كل الجوانب التي عليك أنت تدركها. في هذا الجزء نتناول البيانات العملاقة Big data لنتعرف عليها بمزيد من التفاصيل.

ما هي البيانات العملاقة Big data؟

بداية لابد أن تعرف أن الـبيانات العملاقة ليس مجرد كميات متزايدة من البيانات فحسب. لكي يكون التعريف دقيقًا فهي أي كمية من البيانات الكبيرة والمعقدة بما يكفي لأن تعجز طرق التحليل التقليدية من التعامل معها. وهذا التحدي لا يشمل تحليلها فقط، بل يشمل أيضًا جمعها، والبحث خلالها، ومشاركتها، وتخزينها، ونقلها، وعرضها، وتأمينها أو انتهاك خصوصيتها.

ربما تجد صعوبة في تخيل حجم البيانات التي تندرج تحت وصف البيانات العملاقة. إذًا لنعطي رقمًا قديمًا نسبيًا. فحجم البيانات التي كانت تُصّنف كبيانات عملاقة في عام 2012 على سبيل المثال كانت تتراوح ما بين عدة مضاعفات للتيرابايت (Terabyte (10^12 ومضاعفات البيتابايت (Petabyte (10^15 ولكي تعرف ضخامة هذا الرقم يكفي أن تعرف أن أقصى سعة تخزين للقرص الصلب على حاسبك الشخصي الآن تتراوح ما بين 500 جيجا بايت (500*9^10) وواحد أو ربما اثنين تيرابايت فقط والتي تحتاج منك سنوات لتملأها بالبيانات.

ولكن من أين أتت تلك البيانات فجأة؟

مصدر الصورة:

الحقيقة أنها لم تأتِ فجأة بل إنها نتاج طبيعي لما يسمى بـ(Datafication) وهو مصطلح لن تجد له مقابل باللغة العربية لكن يمكن أن يوازي “تراكم البيانات“. هذا التراكم كان نتاجًا لعدة أشياء كظهور وسائل التواصل الاجتماعي، تحويل الكتب والموسيقى ومقاطع الفيديو إلى نسخ رقمية digital وزيادة استخدام الإنترنت إلى جانب انخفاض سعر المستشعرات sensors التي باتت تستخدم في كل الأجهزة لقياس وتتبع كل شيء.

فكل نشاط رقمي تقوم به يترك خلفه أثرًا من البيانات الرقمية المتزايدة مع الوقت. فعلى سبيل المثال لا الحصر:

عندما كنت تقرأ كتابًا في السابق لم يكن ينتج عن نشاطك هذا أي بيانات، لكن الآن حينما تقوم بنفس النشاط باستخدام برنامج أو جهاز أو موقع إلكتروني لقراءة الكتب الإلكترونية كـKindle أو Goodreads مثلًا فإن نشاطك هذا ينتج عنه الكثير من البيانات التي يتم تسجيلها مثلًا كنوعية الكتب التي تفضل قراءتها وأسماء الكتب والمؤلفين ومتى هي الأوقات التي تعتاد القراءة فيها وسرعتك في القراءة أو معدل قراءتك وهكذا.

مثال آخر عندما كنت في السابق تستمع للموسيقى من خلال أقراص مدمجة لم يكن ينتج عن نشاطك هذا أي بيانات، لكن الآن حينما تقوم بنفس النشاط باستخدام هاتفك الآيفون iPhone أو مشغل رقمي digital music player أصبحت عاداتك في الاستماع أيضًا مسجلة كموسيقاك المفضلة والمطربين وترتيب الأغنيات ومواعيد استماعك ومعدلك وغير ذلك من البيانات.

وعلى ذكر الهاتف فلابد أيضًا أن نذكر أن الهاتف الذكي smart phone الذي يقوم باستمرار بتسجيل بيانات موقعك وسرعة تحركك ورسائلك النصية وأسماء معارفك الذين تتواصل معهم بشكل دوري وكيفية هذا التواصل.

يمكن دمج كل ذلك مع بلايين عمليات البحث باستخدام محركات البحث يوميًا وبلايين الجمل التي تكتب على وسائل التواصل الاجتماعي والمنشورات والتعليقات والإعجابات يوميًا وملايين التغريدات على تويتر يوميًا وما يقرب من المئة ساعة من مقاطع الفيديو التي يتم رفعها على يوتيوب كل دقيقة.

إنه لأمر مذهل ومجهد للذهن أيضًا. ولعلك تتساءل الآن ما مقدار التزايد في حجم تلك البيانات؟

إذًا لنقتبس المثال الذي ضربه إريك شميدت الرئيس التنفيذي لشركة جوجل حين قال “منذ بداية الحضارة وحتى عام 2003، استطاع البشر إنتاج 5 إيكسابايت من البيانات، والآن نحن ننتج 5 إيكسابايت من البيانات كل يومين، والسرعة تتزايد”.

والإكسابايت هو ما يعادل (18^10) وحدة تخزين للبيانات “بايت”، ولا نبالغ حين نقول إن ما أنتجته البشرية منذ بدء الخليقة حتى العام 2008 سوف يتم إنتاج حجم مساوٍ له كل 10 دقائق عما قريب بسبب تزايد عدد الأجهزة المتصلة بالإنترنت كل يوم أو ما يسمى بـ “Internet of things” الذي تحدثنا عنه في المقال السابق. ففي خلال عام 2008 فإن عدد الأجهزة المتصلة بالإنترنت قد فاق عدد مستخدمي الإنترنت من البشر. واليوم أكثر من 10 بليون جسم object متصل بالإنترنت ويتوقع أن يرتفع ذلك العدد ليصبح 50 بليون جسم بحلول عام 2020.

والحق أن سعة التخزين التكنولوجية بالعالم كانت بالكاد تتضاعف كل 40 شهرًا منذ الثمانينيات. أما الآن ففي عام 2012 أصبحت سعة التخزين 2.5 إكسابايت (2.5*18^10) يوميًا، وفي 2014 أصبحت سعة التخزين 2.3 زيتابايت (2.3 * 21^10) يوميًا والمزيد على الطريق.

باختصار فإن البيانات العملاقة هي هدف متحرك فما هو عملاق اليوم سوف يكون عاديًا غدًا.

ولهذه البيانات خصائص وسمات أساسية تشكلها وتعرف بها بين المتخصصين:

مصدر الصورة:

الـ”حجم” Volume وهو أمر منطقي فهو الذي يحدد ما إذا كانت هذه البيانات تصنف كبيانات عملاقة أم لا.

الـ”سرعة” Velocity وهي سرعة إنتاج ومعالجة البيانات للوفاء بالمطلوب منها بتقديم تفسير لمشكلة ما.

الـ”تنوع” Variety وهي الأصناف المختلفة للبيانات التي يتم تجميعها كالنصوص والصور ومقاطع الفيديو وسجلات المواقع الخ .

الـ”مصداقية” Veracity وهي جودة البيانات فدقة التحليل ترتبط بلا شك بأن تكون البيانات موثوق بها؛ فبعض البيانات لا يمكن السيطرة عليها كالاختصارات والأخطاء الإملائية والكلمات الدارجة وما إلى ذلك .

وأحيانًا يضاف إلى تلك الخصائص أيضًا variability ويقصد بها التضارب أو التناقض الذي يشكل مشكلة لمحللي البيانات والـ complexity أي تعقيد البيانات من حيث الترابط والعلاقات والـ value أو القيمة أي المدلول الذي يشير إليه تحليل البيانات فيما يخص المشكلة المطلوب بحثها فبدون تحويل تلك البيانات إلى قيمة لا توجد فائدة من تجميعها.

هذا الكم من البيانات يحوي الكثير من المعلومات المفيدة جدًا ليس في مجال العلوم فقط ولكن أيضًا مفيدة لقطاع المال والأعمال والقصور في التعامل معها يشكل عائقًا أمام محركات البحث تمامًا كما يعيق التقدم في كل تلك المجالات الأخرى. كل هذه البيانات من الصعب التعامل معها في زمن معقول نسبيًا باستخدام البرمجيات الحسابية العادية للتحليل والعرض ونظم إدارة البيانات على الحاسبات الشخصية. وتحتاج لأنواع جديدة من البرامج وأساليب التحليل (الـAnalytics التي أشرنا إليها سابقًا) والحواسب (الـCloud computing كما أشرنا) لكشف المعلومات القيمة التي تحتويها وتمكننا من فهم البشر والكوكب كله وتوقع تطورات وعواقب ما يحدث اليوم.

بقي الآن أن تعرف من يستخدم هذه البيانات الضخمة؟ وأي المجالات ستعتمد عليها؟ وربما أوجه النقد الموجهة لها أيضًا. كيف يتم تجميعها؟ كيف يتم تحليلها؟ ما هي التكنولوجيا المطروحة بالأسواق التي تزيد من سيطرتها على حياتنا؟

هذا ما سنعرفه في الأجزاء القادمة.

مصادر: