آشنایی با داده پژوهی (Data Science)

با ورود جهان به دوران داده های بزرگ، نیاز به ذخیره سازی این داده ها به چالش و نگرانی عمده صنایع و سازمانها تبدیل شد. تا ۲۰۱۰ تمرکز اصلی بر ایجاد چارچوب و راه حل برای ذخیره داده ها بود. اما به تدریج Hadoop و چارچوب های دیگر با موفقیت مشکل ذخیره سازی را حل کردند. از این رو تمرکز سازمانها به پردازش این داده ها معطوف شده است. راز موفقیت در این مسیر داده پژوهی (Data Science) است. تمام ایده هایی که در فیلم های علمی تخیلی هالیوودی می بینید. به کمک داده پژوهی می تواند به واقعیت تبدیل شود. داده پژوهی آینده هوش مصنوعی است. بنابراین، بسیار مهم است که این دانش را به خوبی درک کرده و بدانید چگونه آن را به کسب و کارتان اضافه کنید.

راز موفقیت در این مسیر داده پژوهی(Data Science) است. تمام ایده هایی که در فیلم های علمی تخیلی هالیوودی می بینید، به کمک داده پژوهی می تواند به واقعیت تبدیل شود. داده پژوهی آینده هوش مصنوعی است. بنابراین، بسیار مهم است که این علم جدید را به خوبی درک کرده و بدانید چگونه آن را به کسب و کارتان اضافه کنید.

تعریف داده پژوهی (Data Science)

استفاده از اصطلاح “داده پژوهی” به طور فزاینده ای رایج است، اما دقیقا معنی آن چیست؟ تفاوت بین BI و Data Science چیست؟

داده پژوهی ترکیبی از ابزارهای مختلف، الگوریتم ها، اصول یادگیری ماشین است که هدف آن کشف الگوهای پنهان از داده های خام است. تفاوت “داده پژوهی” با آمار نیز تفاوت بین توصیف و پیش بینی است.

Data Analyst v/s Data Science - Edureka

تصویر مقابل نیز تفاوت بین تحلیلگر داده ها و داده پژوه را بیان می کند. تحلیلگر داده ها معمولا توضیح می دهد که با پردازش تاریخچه داده ها چه اتفاقی در سازمان روی می دهد و چه تصمیماتی برای بهبود شرایط می توان گرفت. در مقابل یک داده پژوه علاوه بر تجزیه و تحلیل، از الگوریتم های مختلف پیشرفته یادگیری ماشین نیز برای شناسایی وقوع یک رویداد خاص در آینده استفاده می کند. داده پژوه به داده ها از زوایای متفاوتی که گاها ناشناخته هستند نگاه می کند.

تفاوت بین هوش تجاری و داده پژوهی

BI یا هوش سازمانی اساسا داده های قبلی را تجزیه و تحلیل می کند تا اطلاعات و دیدگاه های بعدی را برای توصیف روند تجاری بیان کند. BI شما را قادر می سازد داده ها را از منابع داخلی و خارجی تهیه کنید، آن را آماده کرده، پرسش ها را روی آن اجرا کرده و داشبورد را برای پاسخ به سوالات مانند تجزیه و تحلیل درآمد سه ماهه یا مشاغل کسب و کار ایجاد کنید. BI می تواند تاثیرات حوادث خاصی را در آینده نزدیک ارزیابی کند.

داده پژوهی یک رویکرد پیشرو است، یک روش اکتشافی با تمرکز بر تجزیه و تحلیل داده های گذشته یا جاری و پیش بینی نتایج آینده با هدف تصمیم گیری آگاهانه.
داده پژوهی به سوالات باز در مورد رویدادهای “چه” و “چگونه” پاسخ می دهد.

جدول زیر مقایسه دقیقتری بین این دو مفهوم ارائه می کند.

قابلیتهوش تجاری (BI) داده پژوهی
منابع دادهدارای ساختار
(اغلب با کمک SQL و انباره داده)
هم دارای ساختار و هم بدون ساختار
(شامل لاگ سیستمها، داده های پردازش ابری، SQL، NOSQL و متن)
رویکردآماری و تصویرسازیآمار ، یادگیری ماشین، تحلیل نمودار،شبکه عصبی، تشخیص زبان طبیعی (NLP)
تمرکزگذشته و حالحال و آینده
ابزار Pentaho, Microsoft BI, QlikView, R RapidMiner, BigML, Weka, R

نیاز به داده پژوهی (Data Science)

به طور سنتی، اطلاعاتی که ما داشتیم، بیشتر ساختار یافته و کوچک بود، که می توانست با استفاده از ابزارهای ساده BI تجزیه و تحلیل شود. اما امروزه بیشتر داده ها بدون ساختار یا نیمه ساختار یافته اند.

نمودار زیر نشان می دهد تا سال ۲۰۲۰ بیش از ۸۰ درصد داده ها بدون ساختار خواهند بود.

Flow of unstructured data - Edureka

منابع داده

داده ها از منابع مختلف مانند گزارش های مالی، فایل های متنی، فرم های چند رسانه ای، سنسورها و ابزارها تولید می شود. ابزار BI ساده قادر به پردازش این حجم بزرگ و انواع داده ها نیست. به همین دلیل ما نیاز به ابزار و الگوریتم های پیچیده و پیشرفته ای برای پردازش، تحلیل و طراحی بینش های معنادار از آن داریم.

به چند نمونه از منابع جدید داده در زیر اشاره می شود.

۱- بازاریابی و فروش

شما می توانید نیازهای دقیق مشتریان خود را بر اساس داده های موجود مانند تاریخچه گذشته مشتری، تاریخ خرید، سن و درآمد درک کنید. بدون تردید تمام این داده ها را قبلا داشته اید، اما آنچه که اکنون اتفاق افتاده حجم و تنوع این داده ها است که بکمک آن می توانید مدلسازی کرده و پیش بینی دقیقتری بدست آورد و نتیجتا پیشنهاد دقیقتری به مشتری برای خرید ارائه داد. آیا شگفت انگیز نیست چرا که بکمک آن مشتری و درآمد بیشتری نصیب کسب و کار شما خواهد داد؟

۲- خودروسازی

در یک اتومبیل خودران اطلاعات فراوانی وجود دارد که می تواند شما را به خانه ببرد.

اتومبیل های خودران اطلاعات را بصورت زنده از سنسورهای مختلف از جمله رادارها، دوربینها و لیزرها برای ایجاد یک نقشه از محیط اطراف خود جمع آوری می کنند و بر اساس این داده ها، تصمیم می گیرند کی سرعت را افزایش یا کاهش دهند، کی به مقصد می رسند و …. در اینجاست که الگوریتم های پیشرفته یادگیری ماشین وارد عمل می شوند.

۳- پیش بینی آب و هوا و وقایع طبیعی

داده های مختلف از کشتی ها، هواپیماها، رادار ها، ماهواره ها برای ساخت مدل ها جمع آوری و تجزیه و تحلیل می شوند. این مدل ها نه تنها آب و هوا را پیش بینی می کنند، بلکه همچنین به پیش بینی وقوع هر گونه فاجعه طبیعی نیز کمک می کند. این به شما کمک خواهد کرد تا اقدامات لازم را قبل از آن انجام دهید.

در تصویر زیر همه زمینه هایی که داده پژوهی در حال تحول است نمایش داده شده است.

Data Science Use Cases - Edureka

منبع : https://www.edureka.co/blog/what-is-data-science

مطالب مرتبط