چرخه حیات پروژه‌های تحلیل داده (قسمت اول)

 چرخه حیات پروژه‌های تحلیل داده

زمانی که شما با کلان داده‌ها کار می‌کنید، پیروی از یک نقشه‌ی راه مشخص می‌تواند برای شما مفید باشد. صرف‌نظر از این‌که یک متخصص علم داده بخواهد تحلیل را با انگیزه نشان‌دادن یک مفهوم به شکل داده‌های بصری یا ساخت یک مدل اطلاعاتی انجام دهد، روند و فرآیند تحلیل مهم است. داشتن یک نقشه‌ی راه مشخص برای پروژه‌های تحلیل داده کمک می‌کند تا تیم های مختلف درون سازمان همگام شوند و از ایجاد هرگونه تاخیر در انجام کارها جلوگیری شود.

 

هدف نهایی هر پروژه تحلیل داده، تولید محصول تاثیرگذاری از جنس داده است. نتایج قابل‌استفاده در پایان هر پروژه تحلیل داده به عنوان یک محصول داده‌ای شناخته می‌شود. یک محصول داده‌ای می‌تواند هرچیزی باشد، داشبورد اطلاعاتی، مجموعه پیشنهادات یا هرچیزی که روند تصمیم‌گیری در کسب‌وکارها را برای حل یک مشکل، تسهیل کند. با این حال برای رسیدن به هدف نهایی تولید محصولات داده‌ای متخصصین علوم داده باید یک روند درست و مشخص را مرحله‌ به‌ مرحله طی کنند. همچنین یک محصول داده‌ای باید بتواند در یافتن پاسخ برای سوال اصلی کسب‌وکار کمک کند. چرخه عمر پروژه‌های تحلیل داده نباید صرفاً بر روی فرآیند تمرکز داشته باشد، بلکه باید تاکید بیشتری بر روی محصول داشته باشد. در این مقاله به تشریح روند استاندارد پروژه‌های علوم داده که توسط متخصصین آن انجام می‌شود، می‌پردازیم.

 

پروژه‌های تحلیل داده یک چرخه حیات مناسب که در آن مراحل مشخص و شفاف باشند، مانند چرخه حیات توسعه نرم افزار، ندارند. معمولاً پروژه‌های تحلیل داده با تاخیر در تحویل و درجا زدن دست و پنجه نرم می‌کنند زیرا برخی از مراحل در چرخه حیات یک پروژه تحلیل داده، غیر خطی، تکراری و یا در ارتباط با تیم دیگری در سازمان است. برای متخصصین علوم داده بسیار دشوار است که در ابتدا تعیین کنند کدام راه برای شروع خوب است. اگرچه ممکن است فرآیند چرخه حیاط بسیاری از پروژه‌های تحلیل داده شفاف نباشند اما متخصصین علوم داده باید یک چرخه حیات استاندارد را برای رسیدن به خروجی انتخاب کنند.

 

افراد غالبا چرخه حیات یک پروژه علوم داده را با یک پروژه مهندسی نرم افزار اشتباه می گیرند، در صورتی که نباید این‌گونه باشد چراکه علم داده با مهندسی متفاوت است. هیچ فرآیند چرخه حیات کاملا مناسبی برای  پروژه‌های تحلیل داده وجود ندارد بنابراین متخصصین علوم داده باید مناسب ترین چرخه را با توجه به نیازهای سازمان خود انتخاب کنند. با این وجود استاندارد ترین چرخه حیاتی که برای پروژه‌های تحلیل داده وجود دارد CRISP-DM است که از قدیمی ترین و محبوب ترین ها است. این روش برای پروژه‌های داده‌کاوی طراحی و توسعه داده شد، اما امروزه متخصصین علوم داده با اندکی تغییرات آن را برای پروژه‌های تحلیل داده استفاده می‌کنند.

 

طبق آخرین نظرسنجی KDnuggets که سوال آن "شما چه متودولوژی برای آنالیز، داده‌کاوی و تحلیل داده استفاده می‌کنید؟" بود، مشخص شد که 43% درصد شرکت‌کنندگان در نظرسنجی از متودولوژی/چرخه حیات CRISP-DM استفاده می‌کنند.

هر مرحله در چرخه حیات یک پروژه به مهارت‌های مختلف از متخصصین علم داده و همچنین به ابزارهای مختلف نیاز دارد. فرآیند تحلیل داده  با طرح یک سوال در سازمان آعاز می‌شود و تا انتها روند کلی را هدایت می کند.

 

یک چرخه حیات استاندارد از پروژه های علم داده

چرخه حیات پروژه های تحلیل داده شبیه به چرخه حیات  CRISP-DMاست که 6 مرحله استاندارد زیر را برای پروژه های داده‌کاوی تعریف می‌کند:

  • درک کسب‌وکار
  • درک داده‌ها
  • تهیه داده‌ها
  • مدل‌سازی
  • ارزیابی
  • استقرار

 

 چرخه حیات پروژه‌های علوم داده کمی بیشتر از  CRISP-DMاست با اندکی تغییرات:

  • جمع آوری داده‌ها
  • آماده‌سازی داده‌ها
  • فرضیه و مدل‌سازی
  • ارزیابی و تفسیر
  • استقرار
  • عملیات
  • بهینه‌سازی