چرخه حیات پروژه‌های تحلیل داده (قسمت اول)

چرخه حیات پروژه‌های تحلیل داده

 

چرخه‌ی حیات پروژه‌های تحلیل داده

 

زمانی که شما با کلان‌داده‌ها کار می‌کنید، پیروی از یک نقشه‌ی راه مشخص می‌تواند برای شما مفید باشد. صرف‌نظر از این‌که یک متخصص علم داده بخواهد با انگیزه‌ی نشان‌دادن یک مفهوم به شکل داده‌های بصری یا ساخت یک مدل اطلاعاتی تحلیل کند، روند و فرآیند تحلیل مهم است. در پروژه‌های تحلیل داده، داشتن یک نقشه‌ی راه مشخص، به همگام‌سازی تیم‌های مختلف درون سازمان و جلوگیری از هرگونه تاخیر کمک می‌کند.

 

هدف نهایی هر پروژه‌ی تحلیل داده، تولید محصولی تاثیرگذار از جنس داده است. نتایج قابل‌استفاده در پایان هر پروژه‌ی تحلیل داده، یک محصول داده‌ای به حساب می‌آید. یک محصول داده‌ای می‌تواند هر چیزی اعم از داشبورد اطلاعاتی، مجموعه‌ی پیشنهادها و یا هرچیزی که روند تصمیم‌گیری در کسب‌وکارها را برای حل یک مشکل، تسهیل کند، باشد. با این حال، متخصصین علوم داده باید به‌ صورت مرحله‌ به‌ مرحله، روندی درست و مشخص را برای رسیدن به هدف نهایی تولید محصولات داده‌ای طی کنند. همچنین یک محصول داده‌ای باید بتواند در یافتن پاسخ برای سوال اصلی کسب‌وکار کمک کند. چرخه‌ی عمر پروژه‌های تحلیل داده نباید صرفاً متمرکز بر فرایند بوده، بلکه تاکید آن، باید بیشتر بر روی محصول باشد. در این مقاله، به تشریح روند استاندارد پروژه‌های علوم داده که توسط متخصصین آن انجام می‌شود، می‌پردازیم.

 

پروژه‌های تحلیل داده یک چرخه‌ی حیات مناسب مانند چرخه‌ی حیات توسعه‌ی نرم افزار که در آن مراحل، مشخص و شفاف باشند، ندارند. معمولاً پروژه‌های تحلیل داده با تاخیر در تحویل و درجا زدن دست و پنجه نرم می‌کنند؛ چراکه برخی از مراحل در چرخه‌ی حیات یک پروژه‌ی تحلیل داده، غیر خطی، تکراری و یا در ارتباط با تیم دیگری در سازمان است. در ابتدا، تعیین مناسب‌ترین و بهترین راه برای شروع، برای متخصصین علوم داده بسیار دشوار است. اگرچه ممکن است فرآیند چرخه‌ی حیاتِ بسیاری از پروژه‌های تحلیل داده شفاف نباشند؛ اما متخصصین علوم داده باید یک چرخه حیات استاندارد را برای رسیدن به خروجی انتخاب کنند. 

 

افراد غالبا چرخه‌ی حیات یک پروژه‌ی علوم داده را با یک پروژه‌ی مهندسی نرم‌افزار اشتباه می‌گیرند؛ در صورتی که نباید این‌گونه باشد؛ چرا که علم داده، با مهندسی متفاوت است. هیچ فرآیند چرخه‌ی حیاتِ کاملا مناسبی برای پروژه‌های تحلیل داده وجود ندارد. بنابراین متخصصین علوم داده باید مناسب‌ترین چرخه را با توجه به نیازهای سازمان خود انتخاب کنند. با این وجود، استانداردترین چرخه‌ی حیاتی که برای پروژه‌های تحلیل داده وجود دارد CRISP-DM است که از قدیمی‌ترین و محبوب‌ترین‌ها است. این روش برای پروژه‌های داده‌کاوی طراحی و توسعه داده شد؛ اما امروزه متخصصین علوم داده با اندکی تغییرات، از آن برای پروژه‌های تحلیل داده استفاده می‌کنند. 

طبق آخرین نظرسنجی KDnuggets با سوال “شما از چه متدولوژی‌ای برای آنالیز داده، داده‌کاوی و تحلیل داده استفاده می‌کنید؟"، مشخص شد که 43% درصد شرکت‌کنندگان در نظرسنجی از متدولوژی چرخه‌ی حیات CRISP-DM استفاده می‌کنند.

در هر مرحله از چرخه‌ی حیات یک پروژه، به مهارت‌های مختلف از جمله تخصص در علم داده و نیز به ابزارهای مختلف نیاز است. فرآیند تحلیل داده، با طرح یک سوال در سازمان آغاز شده و تا انتها روند کلی را هدایت می‌کند.

 

یک چرخه‌ی حیات استاندارد از پروژه‌های علم داده

چرخه‌ی حیات پروژه‌های تحلیل داده، شبیه به چرخه‌ی حیات CRISP-DM است که 6 مرحله استاندارد زیر را برای پروژه‌های داده‌کاوی تعریف می‌کند:

  • درک کسب‌ و کار
  • درک داده‌ها
  • تهیه‌ی داده‌ها
  • مدل‌سازی
  • ارزیابی
  • استقرار

 

اما چرخه‌ی حیات پروژه‌های علوم داده کمی بیشتر از CRISP-DM است، با اندکی تغییرات:

  • جمع‌آوری داده‌ها
  • آماده‌سازی داده‌ها
  • فرضیه و مدل‌ سازی
  • ارزیابی و تفسیر
  • استقرار
  • عملیات
  • بهینه‌سازی

در قسمت دوم مقاله‌ی چرخه حیات پروژه‌های تحلیل داده به تشریح هر هفت مرحله‌ی چرخه‌ حیات پروژه‌های تحلیل داده، پرداختیم.