از مباحث مهم برای یادگیری هوش تجاری و درک بهتر آن Data Science می باشد. علم داده ترکیبی از ابزارهای مختلف، الگوریتم ها و اصول machine learning با هدف کشف الگو های پنهان از داده های خام است. اما چگونه این تفاوت با آن که سال هاست که به صورت آماری انجام می دهند، متفاوت است؟
پاسخ آن در تفاوت بین توضیح و پیش بینی نهفته است.
همانطور که از تصویر بالا مشاهده می کنید، یک تحلیلگر داده معمولاً با پردازش تاریخچه داده ها، آن چه اتفاق می افتد را توضیح می دهد. از طرف دیگر، Data Scientist نه تنها برای کشف بینش از آن، تحلیل اکتشافی انجام می دهد، بلکه از الگوریتم های مختلف پیشرفته machine learning برای شناسایی وقوع یک رویداد خاص در آینده استفاده می کند. یک تحلیل گر داده، دیتاها را از زوایای مختلف بررسی می کند، گاهی اوقات نیز حتی زاویه هایی که قبلاً شناخته نشده اند!
بنابراین، Data Science در درجه اول برای تصمیم گیری و پیش بینی با استفاده از “تجزیه و تحلیل عامل سببی پیش بینی”، “تجزیه و تحلیل تجویزی” (علم پیش بینی به علاوه تصمیم گیری) و “machine learning” استفاده می شود.
- تجزیه و تحلیل عامل سببی پیش بینی – اگر مدلی می خواهید که بتواند احتمالات یک رویداد خاص را در آینده پیش بینی کند، باید از تحلیل های علّی پیش بینی استفاده کنید. فرض کنید، اگر پول خود را به صورت اعتباری تأمین می کنید، پس احتمال این که مشتریان سر وقت پرداخت های اعتباری خود را انجام دهند، باعث نگرانی شما می شود. در اینجا، می توانید مدلی بسازید که بتواند تجزیه و تحلیل پیش بینی کننده تاریخ پرداخت مشتری را انجام دهد تا پیش بینی کند آیا پرداخت های آینده به موقع خواهند بود یا خیر.
- تجزیه و تحلیل تجویزی – اگر مدلی می خواهید که خود، هوش تصمیم گیری داشته باشد و توانایی اصلاح آن را با توجه به پارامتر های داینامیک داشته باشد، مطمئناً به تجزیه و تحلیل تجویزی برای آن نیاز دارید. این زمینه ی نسبتاً جدید، همه چیز به نحو ارائه مشاوره بستگی دارد. به عبارت دیگر، این نه تنها طیف وسیعی از اقدامات تجویز شده و نتایج مرتبط با آن را پیش بینی می کند، بلکه پیشنهاداتی نیز برای شما دارد.
بهترین مثال در این زمینه اتومبیل خودران Google است. این خودرو از داده های جمع آوری شده توسط وسایل نقلیه دیگر می تواند برای آموزش اتومبیل های خودران خود استفاده کند. می تواند الگوریتم هایی را بر روی این داده ها اجرا کند تا هوش خود را به خوبی به نمایش بگذارد. این امر باعث می شود اتومبیل شما بتواند تصمیماتی مانند زمان چرخش، انتخاب مسیر، زمان کاهش سرعت را اتخاذ کند.
- Machine learning برای پیش بینی – اگر داده های معاملاتی یک شرکت مالی را دارید و باید مدلی برای تعیین روند آینده بسازید، الگوریتم های Machine learning بهترین گزینه هستند. این الگوی یادگیری تحت نظارت قرار می گیرد. دلیل این که نظارت نامیده می شود این است که شما قبلاً داده هایی داشته اید که بر اساس آن می توانید ماشین های خود را آموزش دهید. به عنوان مثال، یک مدل کشف تقلب می تواند با استفاده از سوابق تاریخی خرید های تقلبی آموزش ببیند.
- Machine learning برای کشف الگو – اگر پارامتر هایی ندارید که بتوانید بر اساس آن ها پیش بینی کنید، باید الگو های پنهان را در مجموعه داده ها پیدا کنید تا بتوانید پیش بینی های معنی داری داشته باشید. این چیزی نیست جز مدل بدون نظارت، زیرا هیچ بر چسب از پیش تعیین شده ای برای این گروه بندی ها ندارید. متداول ترین الگوریتم مورد استفاده برای کشف الگو، “خوشه بندی” است.بگذارید بگوییم شما در یک شرکت تلفنی مشغول به کار هستید و باید با قرار دادن آنتن در یک منطقه، شبکه ای ایجاد کنید. حال می توانید از روش خوشه بندی برای یافتن مکان های آنتن استفاده کنید تا اطمینان حاصل شود که قدرت سیگنال مطلوب را برای همه کاربران دریافت می کنید.
حال بیایید ببینیم که نسبت رویکرد های فوق الذکر برای تجزیه و تحلیل داده ها و همچنین Data Science چه تفاوتی دارند. همان طور که در تصویر زیر مشاهده می کنید، تجزیه و تحلیل داده شامل تجزیه و تحلیل توصیفی و پیش بینی حدودی است. از طرف دیگر، Data Science بیشتر در مورد تجزیه و تحلیل علّی پیش بینی و Machine learning است.
اکنون که می دانید Data Science دقیقاً چیست، حال وقتش است که چرایی نیاز ما به آن را بیشتر بشناسید.
چرا علم داده؟
- به طور سنتی، داده هایی که ما در اختیار داشتیم بیشتر دارای ساختار و اندازه کوچک بودند که با استفاده از ابزار های ساده BI قابل تحلیل می باشند. بر خلاف داده ها در سیستم های سنتی که بیشتر ساختار داشتند، امروزه بیشتر داده ها بدون ساختار یا به اصطلاح نیمه ساختاری هستند. بیایید نگاهی به روند داده ها در تصویر زیر بیاندازیم که نشان می دهد تا سال ۲۰۲۰، بیش از ۸۰٪ داده ها بدون ساختار بودند.
این داده ها از منابع مختلف مانند لاگ های مربوط به پرونده های مالی، پرونده های متنی، فرم های چند رسانه ای، حسگر ها و ابزار ها تولید می شوند. ابزار های ساده BI قادر به پردازش این حجم عظیم و تنوع داده نیستند. به همین دلیل است که برای پردازش، تجزیه و تحلیل و ترسیم بینش معنا دار از آن، به ابزار ها و الگوریتم های تحلیلی پیچیده و پیشرفته تری نیاز داریم.
- حال اگر بتوانید از اطلاعات موجود مانند سابقه مرور گذشته مشتری، سابقه خرید، سن و درآمد مشتری، نیاز های دقیق مشتریان خود را درک کنید، بدون شک شما همه این داده ها را زودتر نیز بدست آورده اید، اما اکنون با حجم گسترده و تنوع داده ها، می توانید مدل ها را به طور موثرتری آموزش دهید و محصول را با دقت بیشتری به مشتریان خود توصیه کنید. آیا شگفت آور نیست؟ آیا این مسئله تجارت بیشتری را برای سازمان شما ایجاد نمی کند؟
- بیایید سناریویی متفاوت برای درک نقش Data Science در تصمیم گیری در نظر بگیریم. حال اگر ماشین شما از هوش لازم برای رسیدن شما به خانه برخوردار باشد، چطور؟ اتومبیل های خودران، داده های زنده حسگرها از جمله رادارها، دوربین ها و لیزرها را برای ایجاد نقشه از محیط اطراف خود جمع می کنند. بر اساس این داده ها، تصمیماتی مانند زمان افزایش سرعت، زمان کاهش سرعت، زمان سبقت، دور زدن اتخاذ می شود که همه این موارد با استفاده از الگوریتم های پیشرفته machine learning امکان پذیر می شود.
- بیایید ببینیم چگونه Data Science می تواند در تجزیه و تحلیل های پیش بینی شده استفاده شود. بیایید این بار پیش بینی کردن هوا را به عنوان مثال در نظر بگیریم. داده های کشتی ها، هواپیما ها، رادار ها، ماهواره ها را می توان جمع آوری و برای ساخت مدل تجزیه و تحلیل از آن ها استفاده کرد. این مدل ها نه تنها آب و هوا را پیش بینی می کنند بلکه به پیش بینی وقوع هر گونه بلایای طبیعی نیز کمک می کنند. این به شما کمک می کند که از قبل اقدامات مناسبی را تعبیه کنید و جان بسیاری از افراد را از پیش نجات دهید.
بیایید نگاهی به نکات زیر بیندازیم تا تمام زمینه هایی را که Data Science در حال ساخت آن است را ببینیم.
- مسافرت
- قیمت گذاری هوشمند
- پرواز امروز را پیش بینی کنید
- بازاریابی
- گران فروشی
- فروش متقابل
- پیش بینی ارزش طول عمر مشتری
- ریزش
- مراقبت های بهداشتی
- پیش بینی بیماری
- اثربخشی دارو
- شبکه های اجتماعی
- تجزیه و تحلیل احساسات
- بازاریابی دیجیتال
- فروش
- پیشنهاد تخفیف
- پیش بینی تقاضا
- اتوماسیون
- اتومبیل های خودران
- هواپیمای بدون خلبان، پهباد
- اعتبار و بیمه
- ادعای پیش بینی
- کشف تقلب و ریسک
یک تحلیلگر داده کیست؟
تعاریف مختلفی در مورد Data Scientist ها (دانشمند داده) وجود دارد. به عبارتی دیگر، Data Scientist کسی است که هنر Data Science را تمرین می کند. اصطلاح “Data Scientist” پس از در نظر گرفتن این واقعیت که دانشمند داده، اطلاعات زیادی را از زمینه ها و برنامه های علمی اعم از آمار یا ریاضیات به دست می آورد، ابداع شده است.
Data Scientist چه کاری انجام می دهد؟
Data Scientist ها کسانی هستند که کاربرد علم داده را نشان می دهند و با تخصص قوی خود در برخی از رشته های علمی، مشکلات پیچیده مرتبط به داده را حل می کنند. آن ها با چندین عنصر مرتبط با ریاضیات، آمار، علوم کامپیوتر و غیره کار می کنند (اگر چه ممکن است در همه این زمینه ها متخصص نباشند). آن ها از آخرین فناوری ها در یافتن راه حل و نتیجه گیری برای رشد و توسعه سازمان بسیار آگاه هستند و از آن ها استفاده می کنند. Data Scientist داده ها را به شکل بسیار مفید تری در مقایسه با داده های خام موجود از فرم های ساختار یافته و غیر ساختاری ارائه می دهند.
اکنون اجازه بدهید که درباره BI بحث کنیم. من مطمئن هستم که تا به حال اصطلاح Business Intelligence یا همان هوش تجاری به گوش شما خورده است. غالبا Data Science با BI اشتباه گرفته می شود. من تضاد های مختصر و واضحی را بین این دو بیان خواهم کرد که به شما در درک بهتر هر دو کمک می کند. موارد پایین را با دقت نگاه کنید:
نکته
- هوش تجاری (BI) اساساً داده های قبلی موجود را تجزیه و تحلیل می کند تا بینش حال و آینده برای توصیف روند کسب و کار پیدا کند. در اینجا BI به شما این امکان را می دهد تا داده ها را از منابع خارجی و داخلی تهیه کنید، آن ها را آماده کنید، query ها را روی آن ها پیاده سازی کنید و داشبورد ایجاد کنید تا به سوالاتی مانند تجزیه و تحلیل درآمد سه ماهه یا مشکلات تجاری پاسخ دهید. BI می تواند تأثیر وقایع خاص را در آینده نزدیک برای شما ارزیابی کند.
- Data Science یک رویکرد آینده نگرانه تر است؛ روشی اکتشافی با تمرکز بر تجزیه و تحلیل داده های گذشته یا فعلی و پیش بینی نتایج آینده با هدف تصمیم گیری آگاهانه است. این سوالات راجع به وقایعی که با “چه” و “چگونه” شروع می شوند، پاسخ می دهد.
بیایید نگاهی به برخی از ویژگی های متضاد آن ها بیندازیم.
ویژگی ها | هوش تجاری | علم داده |
---|---|---|
رویکرد | آمار و بصری سازی | آمار ، یادگیری ماشین ، تجزیه و تحلیل نمودار ، برنامه نویسی عصبی (NLP) |
تمرکز | گذشته و حال | حال و آینده |
ابزارها | Pentaho, Microsoft BI, QlikView, R | RapidMiner, BigML, Weka, R |
منابع داده | ساختارمند (معمولاً Microsoft SQL) | ساختار یافته و ساختار نیافته (logs, فصای ابری, SQL, NoSQL, متن) |
همه این توضیحات تا به حال راجب خود Data Science بود، حالا بیایید چرخه زندگی Data Science را با هم بهتر درک کنیم.
یک اشتباه متداول در پروژه های Data Science، عجله در جمع آوری و تجزیه و تحلیل داده ها، بدون درک نیاز ها و یا حتی طرح صحیح برای مشکل تجاری مورد نظر است. بنابراین، برای شما بسیار مهم است که برای اطمینان از عملکرد پیوسته و روان پیش رفتن پروژه، تمام مراحل را در طول چرخه عمرData Science دنبال کنید.
چرخه زندگی Data Science
فاز ۱ – کشف: قبل از شروع پروژه، درک مشخصات مختلف، الزامات، اولویت ها و بودجه مورد نیاز مهم است. شما باید توانایی پرسیدن سوالات صحیح را داشته باشید. در اینجا، شما ارزیابی می کنید که آیا منابع مورد نیاز از نظر افراد، فناوری، زمان و داده ها برای پشتیبانی از پروژه مد نظر خود را دارید یا خیر. در این مرحله، شما همچنین باید مسئله مشاغل را تنظیم کرده و فرضیه های اولیه (IH) را برای آزمایش فرموله کنید.
فاز ۲ – آماده سازی داده ها: در این مرحله شما به یک Sand Box تحلیلی نیاز دارید که در آن بتوانید تجزیه و تحلیل را برای کل مدت پروژه انجام دهید. قبل از مدل سازی، باید داده ها را کشف، پیش پردازش و شرایط آن ها را تنظیم کنید. بعلاوه، شما ETLT (استخراج، تبدیل، بارگذاری و تبدیل) را برای ورود داده ها به Sand Box انجام خواهید داد. بیایید نگاهی به جریان تجزیه و تحلیل آماری در زیر بیندازیم.
برای خالص تر کردن، تبدیل و مجسم سازی داده ها می توانید از R استفاده کنید. این به شما کمک می کند تا با دید بهتر و بزرگ تر مسئله را بررسی کنید و بین متغیر ها رابطه برقرار کنید. پس از پاک کردن و آماده سازی داده ها، وقت آن رسیده است که تجزیه و تحلیل اکتشافی را روی آن انجام دهید. بیایید ببینیم که چگونه می توانید به آن دست پیدا کنید.
فاز ۳ – برنامه ریزی مدل: در اینجا، روش ها و تکنیک های ترسیم روابط بین متغیر ها را تعیین خواهید کرد. این روابط اساس الگوریتم هایی را ایجاد می کند که در مرحله بعدی پیاده سازی می کنید. شما از تجزیه و تحلیل داده های اکتشافی (EDA) با استفاده از فرمول های آماری مختلف و ابزار تجسم استفاده خواهید کرد.
بیایید نگاهی به ابزار های مختلف برنامه ریزی مدل بیندازیم.
- R دارای مجموعه کاملی از قابلیت های مدل سازی است و فضای خوبی برای ساخت مدل های تفسیری فراهم می کند.
- سرویس های SQL Analysis می توانند با استفاده از توابع داده کاوی متداول و مدل های اساسی پیش بینی، تجزیه و تحلیل database را انجام دهند.
- SAS / ACCESS می تواند برای دسترسی به داده ها از Hadoop استفاده کند و برای ایجاد نمودار های جریان، مدل تکرار پذیر و قابل استفاده مجدد بسازد.
اگر چه ابزار های زیادی در بازار وجود دارد اما R پر کاربرد ترین ابزار است.
اکنون که اطلاعاتی درباره ماهیت داده های خود پیدا کرده اید و تصمیم گرفته اید که چه الگوریتم هایی مورد استفاده قرار گیرند، در مرحله بعدی، شما الگوریتم را اعمال کرده و یک مدل ایجاد می کنید.
فاز ۴ — ساخت مدل: در این مرحله، مجموعه داده هایی را برای اهداف آموزشی و آزمایشی ایجاد خواهید کرد. در اینجا باید بررسی کنید که آیا ابزار های موجود شما برای اجرای مدل ها کافی می باشند یا به محیط مستحکم تری نیاز دارند (مانند پردازش سریع و موازی). برای ساخت مدل، روش های مختلف یادگیری مانند طبقه بندی، تداعی و خوشه بندی را تجزیه و تحلیل خواهید کرد.
شما می توانید از طریق ابزار های زیر به ساخت مدل بپردازید.
فاز ۵ — عملیاتی سازی: در این مرحله، شما گزارش های نهایی، جلسات توجیهی، کد و اسناد فنی را ارائه می دهید. علاوه بر این، گاهی اوقات یک پروژه آزمایشی نیز در یک محیط تولید در real-time اجرا می کنید. با این کار قبل از استقرار کامل، تصویری واضح از عملکرد و سایر محدودیت های مربوطه در مقیاس کوچک به شما ارائه می شود.
فاز ۶ – نتایج را اعلام کنید: اکنون ارزیابی اینکه آیا توانسته اید به هدفی که در مرحله اول برنامه ریزی کرده اید، برسید مهم است. بنابراین، در آخرین مرحله، شما تمام یافته های کلیدی را شناسایی می کنید، با سهامدارانتان ارتباط بر قرار می کنید و بر اساس معیار های تدوین شده در فاز ۱، موفقیت یا شکست نتایج پروژه را بررسی و تعیین می کنید.
مطالعه موردی: پیشگیری از دیابت
” اگر بتوانیم وقوع دیابت را پیش بینی کنیم و قبل از آن اقدامات مناسبی برای جلوگیری از آن انجام دهیم، چه می کنیم؟ “
در این مورد، ما وقوع دیابت را با استفاده از کل چرخه زندگی که قبلاً بحث کردیم پیش بینی خواهیم کرد. اجازه دهید مرحله به مرحله بررسی کنیم.
مرحله ۱:
- در ابتدا، ما داده ها را بر اساس سابقه پزشکی بیمار همانطور که در فاز ۱ بحث شد، جمع آوری خواهیم کرد. می توانید به نمونه داده های زیر مراجعه کنید.
- همانطور که می بینید، ما ویژگی های مختلفی داریم که در زیر ذکر شده است.
ویژگی ها:
npreg – تعداد دفعات بارداری
glucose – غلظت گلوکز پلاسما
bp – فشار خون
skin – ضخامت پوست بند سه سر
bmi – شاخص توده بدن
ped – عملکرد شجره نامه دیابت
age – سن
income – درآمد
مرحله ۲:
- اکنون، پس از دستیابی به داده ها، باید دیتا را برای تجزیه و تحلیل مرتب و آماده کنیم.
- این داده ها دارای تناقضات زیادی مانند مقادیر از دست رفته، ستون های خالی، مقادیر ناگهانی و قالب داده نادرست است که باید مرتب شوند.
- در اینجا، ما داده ها را در یک جدول واحد تحت ویژگی های مختلف سازماندهی کرده ایم که ساختار سازی آن ها بهتر به نظر می رسد.
- بیایید نگاهی به نمونه داده های زیر بیندازیم.
این داده ها ناسازگاری زیادی دارند.
- در ستون npreg، “one” با حروف نوشته شده است، در حالی که باید به شکل عددی مانند ۱ باشد.
- در ستون bp یکی از مقادیر ۶۶۰۰ است که حداقل (برای انسان) غیر ممکن است; زیرا bp نمی تواند به چنین مقدار عظیمی برسد.
- همان طور که مشاهده می کنید ستون درآمد خالی است و همچنین در پیش بینی دیابت معنی ندارد. بنابراین وجود آن در اینجا زائد است و باید از جدول حذف شود.
بنابراین، ما با حذف اشتباهات، پر کردن مقادیر صفر و درست کردن نوع داده، این داده ها را مرتب و پیش پردازش می کنیم. اگر به یاد داشته باشید، این مرحله دوم ما است که پیش از پردازش داده انجام می شود.
در آخر، داده های سالم را همانطور که در زیر نشان داده شده است، بدست می آوریم که می توانند برای تجزیه و تحلیل استفاده شوند.
مرحله ۳:
حال اجازه دهید مقداری تجزیه و تحلیل انجام دهیم، همانطور که قبلاً در فاز ۳ بحث شد.
- ابتدا داده ها را بارگذاری می کنیم و توابع آماری مختلفی را روی آن اعمال می کنیم. به عنوان مثال، زبان R تابعی مانند describe دارد که تعداد مقادیر از دست رفته و مقادیر منحصر به فرد را به ما ارائه می دهد. همچنین می توانیم از تابع summary استفاده کنیم که اطلاعات آماری مانند مقادیر میانگین، دامنه، حداقل و حداکثر را به ما می دهد.
- سپس، ما از تکنیک های بصری مانند هیستوگرام (Histograms)، نمودار های خطی (line graphs)، نمودار های جعبه ای (box plots) استفاده می کنیم تا ایده مناسبی از توزیع داده ها بدست آوریم.
مرحله ۴:
اکنون، بر اساس بینش های حاصل از مرحله قبلی، بهترین گزینه برای این نوع مشکلات درخت تصمیم (decision tree ) است:
- از آن جا که، ما در حال حاضر ویژگی های اصلی برای تجزیه و تحلیل مانند npreg ، bmi و … را در اختیار داریم، بنابراین ما از روش یادگیری نظارت شده برای ساختن یک مدل در اینجا استفاده خواهیم کرد.
- بعلاوه، ما به ویژه از درخت تصمیم استفاده کرده ایم زیرا همه ویژگی ها را یک جا مورد توجه قرار می دهد، مانند خصوصیاتی که رابطه خطی و هم چنین رابطه غیر خطی دارند. در این مورد، ما یک رابطه خطی بین npreg و سن داریم، در حالی که رابطه غیر خطی بین npreg و ped هم وجود دارد.
- مدل های درخت تصمیم نیز بسیار قوی هستند زیرا می توانیم از ترکیبات مختلف ویژگی ها برای ساختن درخت تصمیم های مختلف استفاده کنیم و در نهایت یکی را که حداکثر کارایی را دارا می باشد، پیاده سازی کنیم.
بیایید نگاهی به درخت تصمیم خود بیندازیم.
در این جا، مهم ترین پارامتر سطح گلوکز است، بنابراین ریشه ما یک گره است. اکنون، گره فعلی و مقدار آن پارامتر مهم بعدی را تعیین می کند. این کار ادامه می یابد تا زمانی که از نظر مثبت یا منفی نتیجه بگیریم. Pos به این معنی است که تمایل به دیابت مثبت است و منفی به معنای منفی بودن دیابت می باشد.
مرحله ۵:
در این مرحله، ما یک پروژه آزمایشی کوچک را برای بررسی مناسب بودن نتایج خود اجرا خواهیم کرد. همچنین در صورت وجود به دنبال محدودیت های عملکردی خواهیم بود. اگر نتایج دقیق نباشند، باید مدل را دوباره طراحی و بازسازی کنیم.
مرحله ۶:
هنگامی که پروژه را با موفقیت اجرا کردیم، خروجی را برای گسترش کامل به اشتراک خواهیم گذاشت.
دانشمند دیتا بودن، خیلی سخت تر از چیزی که به نظر می رسد، است. بنابراین، بیایید ببینیم برای دانشمند بودن چه چیزی نیاز داریم. یک دانشمند داده به مهارت هایی که در زیر نشان داده شده است نیاز دارد.
همان طور که در تصویر بالا مشاهده می کنید، شما باید مهارت های سخت و مختلفی را کسب کنید. برای تجزیه و تحلیل و تجسم داده ها، باید در آمار و ریاضیات مهارت کافی داشته باشید. نیازی به گفتن نیست که Machine Learning قلب علم داده را تشکیل می دهد و از شما می خواهد در آن مهارت داشته باشید. همچنین، شما باید درک درستی از دامنه ای که در آن کار می کنید داشته باشید تا مشکلات تجاری را به وضوح درک کنید. وظیفه شما به اینجا ختم نمی شود. شما باید بتوانید الگوریتم های مختلفی را که نیاز به مهارت های کد گذاری خوبی دارند، پیاده سازی کنید. سر انجام، هنگامی که تصمیمات اساسی خاصی را اتخاذ کردید، مهم است که آن ها را به سهام دارانتان تحویل دهید. پس ارتباطات اجتماعی نیز جزو اساسی ترین نیاز ها می باشد.