کلان داده (Big data)

کلان داده به داده های باحجم زیاد که در جریان فعالیت روزانه یک کسب وکار تولید میشود، اطلاق میگردد.

مقدار اطلاعات مهم نیست. آنچه سازمان با این داده ها انجام می دهد، مهم است.

کلان داده را برای ایجاد بینشی که منجر به تصمیم گیری بهتر و حرکت کسب و کار در مسیر استراتژیک شود، می توان تجزیه و تحلیل کرد.

چرا کلان داده مهم است؟

اهمیت کلان داده به مقدار آن نیست، به نحوه بکارگیری و اینکه چطور از آن استفاده می کنید، است. شما می توانید داده را از هر منبعی دریافت کنید و آن را برای پیدا کردن پاسخهایی که امکان ۱) کاهش هزینه، ۲) کاهش زمان ۳) توسعه محصول جدید و ارائه بهینه سازی، و ۴) تصمیم گیری هوشمند فراهم می کند تجزیه و تحلیل کنید .

هنگامی که کلان داده تحلیل می شود، فعالیتهای مرتبط با کسب و کار مانند فعالیتهای ذیل انجام می شود:

  • تعیین علل ریشه ای شکستها، مسائل و نقایص.
  • ارزیابی ریسکها در کمترین زمان ممکن
  • تشخیص رفتارهای متقلبانه قبل از تأثیرگذاری بر عملکرد سازمان.

کلان داده ها را با سه مشخصه تعریف می شوند.حجم (Volume)، سرعت (Velocity) و گوناگونی(Variety).
به این سه مشخصه ۳V گفته می شود.

حجم (Volume)

سازمانها اطلاعات را از منابع مختلف جمع آوری می کنند، از جمله تراکنش‌های تجاری، رسانه های اجتماعی، سنسورها و تجهیزات. در گذشته، ذخیره سازی این حجم داده ها مشکل بود. اما ظهور فناوری های جدید (مانند Hadoop) این مشکل را کاهش داده اند.

سرعت (Velocity)

سرعت تولید داده ها به حد بی سابقه ای افزایش یافته و باید به موقع مورد رسیدگی قرار گیرند. تگ های RFID، سنسورها و اندازه گیری های هوشمند، رسیدگی بلادرنگ به جریان تولید داده ها را باعث شده است.

گوناگونی(Variety)

داده ها انواع فرمت های گوناگونی دارند – از داده های ساختار یافته، عددی در پایگاه داده های سنتی تا اسناد متنی بدون ساختار، ایمیل، ویدئو، صدا، داده های سهام و معاملات مالی.

اخیرا در متون علمی دو مشخصه متغیر بودن (Variablity) و پیچیدگی (Complexity) به سه مورد فوق اضافه شده است.

متغیر بودن (Variablity)

جریان داده ها می تواند بسیار متغیر باشد. آیا در یک شبکه اجتماعی داده ها روند خاصی را دنبال می کنند؟ این روند متغیر و نامشخص مدیریت داده ها را سخت می کند.

پیچیدگی (Complexity)

امروزه داده ها از منابع مختلف دریافت می شود که ارتباط دادن، بازیابی، پاک سازی و تبدیل داده ها در سیستم ها را دشوار می کند. با این حال، لازم است سلسله مراتب و ارتباطات چندگانه بین داده ها در غیر اینصورت داده ها به سرعت می توانند از کنترل خارج شوند.