چرخه حیات پروژه‌های تحلیل داده

چرخه حیات پروژه‌های تحلیل داده (قسمت اول)

زمانی که شما با کلان‌داده‌ها کار می‌کنید، پیروی از یک نقشه‌ی راه مشخص می‌تواند برای شما مفید باشد. صرف‌نظر از این‌که یک متخصص علم داده بخواهد با انگیزه‌ی نشان‌دادن یک مفهوم به شکل داده‌های بصری یا ساخت یک مدل اطلاعاتی تحلیل کند، روند و فرآیند تحلیل مهم است. در پروژه‌های تحلیل داده، داشتن یک نقشه‌ی راه مشخص، به همگام‌سازی تیم‌های مختلف درون سازمان و جلوگیری از هرگونه تاخیر کمک می‌کند.

چرخه‌ی حیات پروژه‌های تحلیل داده

هدف نهایی هر پروژه‌ی تحلیل داده، تولید محصولی تاثیرگذار از جنس داده است. نتایج قابل‌استفاده در پایان هر پروژه‌ی تحلیل داده، یک محصول داده‌ای به حساب می‌آید. یک محصول داده‌ای می‌تواند هر چیزی اعم از داشبورد اطلاعاتی، مجموعه‌ی پیشنهادها و یا هرچیزی که روند تصمیم‌گیری در کسب‌وکارها را برای حل یک مشکل، تسهیل کند، باشد. با این حال، متخصصین علوم داده باید به‌ صورت مرحله‌ به‌ مرحله، روندی درست و مشخص را برای رسیدن به هدف نهایی تولید محصولات داده‌ای طی کنند. همچنین یک محصول داده‌ای باید بتواند در یافتن پاسخ برای سوال اصلی کسب‌وکار کمک کند. چرخه‌ی عمر پروژه‌های تحلیل داده نباید صرفاً متمرکز بر فرایند بوده، بلکه تاکید آن، باید بیشتر بر روی محصول باشد. در این مقاله، به تشریح روند استاندارد پروژه‌های علوم داده که توسط متخصصین آن انجام می‌شود، می‌پردازیم.

پروژه‌های تحلیل داده یک چرخه‌ی حیات مناسب مانند چرخه‌ی حیات توسعه‌ی نرم افزار که در آن مراحل، مشخص و شفاف باشند، ندارند. معمولاً پروژه‌های تحلیل داده با تاخیر در تحویل و درجا زدن دست و پنجه نرم می‌کنند؛ چراکه برخی از مراحل در چرخه‌ی حیات یک پروژه‌ی تحلیل داده، غیر خطی، تکراری و یا در ارتباط با تیم دیگری در سازمان است. در ابتدا، تعیین مناسب‌ترین و بهترین راه برای شروع، برای متخصصین علوم داده بسیار دشوار است. اگرچه ممکن است فرآیند چرخه‌ی حیاتِ بسیاری از پروژه‌های تحلیل داده شفاف نباشند؛ اما متخصصین علوم داده باید یک چرخه حیات استاندارد را برای رسیدن به خروجی انتخاب کنند. 

افراد غالبا چرخه‌ی حیات یک پروژه‌ی علوم داده را با یک پروژه‌ی مهندسی نرم‌افزار اشتباه می‌گیرند؛ در صورتی که نباید این‌گونه باشد؛ چرا که علم داده، با مهندسی متفاوت است. هیچ فرآیند چرخه‌ی حیاتِ کاملا مناسبی برای پروژه‌های تحلیل داده وجود ندارد. بنابراین متخصصین علوم داده باید مناسب‌ترین چرخه را با توجه به نیازهای سازمان خود انتخاب کنند. با این وجود، استانداردترین چرخه‌ی حیاتی که برای پروژه‌های تحلیل داده وجود دارد CRISP-DM است که از قدیمی‌ترین و محبوب‌ترین‌ها است. این روش برای پروژه‌های داده‌کاوی طراحی و توسعه داده شد؛ اما امروزه متخصصین علوم داده با اندکی تغییرات، از آن برای پروژه‌های تحلیل داده استفاده می‌کنند. 

طبق آخرین نظرسنجی KDnuggets با سوال “شما از چه متدولوژی‌ای برای آنالیز داده، داده‌کاوی و تحلیل داده استفاده می‌کنید؟”، مشخص شد که 43% درصد شرکت‌کنندگان در نظرسنجی از متدولوژی چرخه‌ی حیات CRISP-DM استفاده می‌کنند.

در هر مرحله از چرخه‌ی حیات یک پروژه، به مهارت‌های مختلف از جمله تخصص در علم داده و نیز به ابزارهای مختلف نیاز است. فرآیند تحلیل داده، با طرح یک سوال در سازمان آغاز شده و تا انتها روند کلی را هدایت می‌کند.

یک چرخه‌ی حیات استاندارد از پروژه‌های علم داده

چرخه‌ی حیات پروژه‌های تحلیل داده، شبیه به چرخه‌ی حیات CRISP-DM است که 6 مرحله استاندارد زیر را برای پروژه‌های داده‌کاوی تعریف می‌کند:

  • درک کسب‌ و کار
  • درک داده‌ها
  • تهیه‌ی داده‌ها
  • مدل‌سازی
  • ارزیابی
  • استقرار

اما چرخه‌ی حیات پروژه‌های علوم داده کمی بیشتر از CRISP-DM است، با اندکی تغییرات:

  • جمع‌آوری داده‌ها
  • آماده‌سازی داده‌ها
  • فرضیه و مدل‌ سازی
  • ارزیابی و تفسیر
  • استقرار
  • عملیات
  • بهینه‌سازی

هفت مرحله‌ی چرخه‌ی حیات پروژه‌های علوم داده

چرخه‌ی حیات پروژه‌های علوم داده شامل هفت مرحله است که در این مقاله، به تشریح اقدام‌های لازم در هر مرحله از آن خواهیم پرداخت. برخی از منابع، اولین مرحله را درک نیازهای کسب‌وکار می‌دانند؛ اما در این مقاله با این پیش‌فرض که شناخت و آگاهی پیرامون کسب‌وکار بسیار قبل‌تر حاصل شده است، از آن به عنوان یک مرحله از چرخه‌ی حیات پروژه‌های علوم داده، یاد نکردیم. ما برای درک و تفهیم بیشتر و راحت‌تر شما نسبت به این مراحل، تصمیم گرفتیم تا توضیح این مراحل را همراه با یک مثال تحت عنوان “تحلیل رفتار مشتریان یک فروشگاه اینترنتی، برای ارائه‌ی تخفیف در محصولی خاص به گروهی خاص از آن‌ها” برای شما توضیح دهیم، دقت کنید که نه می‌دانیم کدام محصول شامل تخفیف شده و نه می‌دانیم که به چه گروهی قرار است تخفیف داده شود.

مرحله‌ی اول؛ جمع‌آوری داده‌ها

پر واضح است که شما برای شروع پروژه‌ی تحلیل، به داده نیاز دارید. اولین قدم در چرخه‌ی حیات پروژه‌های تحلیل داده این است که شخصی مناسب را که بر اساس سوال اصلی سازمان می‌داند چه اطلاعاتی را در چه زمانی جمع‌آوری کند، شناسایی کنیم. لازم نیست که این شخص یک متخصص علم داده باشد، همین که تفاوت بین مجموعه‌های مختلف داده را دانسته و نسبت به تصمیم‌گیری‌های سخت سرمایه‌گذاری در سازمان آگاه باشد، می‌تواند فرد مناسبی برای این کار باشد.

پروژه‌های تحلیل داده با شناسایی منابع مختلفِ جمع‌آوری داده آغاز می‌شود. این منابع می‌توانند وب‌سرورها، داده‌های فضای مجازی، داده‌هایی که در فضای آنلاین به صورت api هستند و یا داده‌های تمیز شده‌ای که در اکسل وارد شده‌ و وجود دارند، باشند. 

دو چالش اصلی که اغلب متخصصان علم داده در مرحله‌ی جمع‌آوری داده با آن روبه‌رو هستند، یکی ردیابی محل دقیق جمع‌آوری هر خوشه یا دسته از داده‌ها است و مورد دیگر این‌که آیا این داده‌های جمع‌آوری شده به روز هستند یا نه.

مثال:

در این مرحله ما نیاز داریم تا همه‌ی داده‌های در دسترس و تاثیرگذار در هدف نهایی را جمع‌آوری کنیم. داده‌هایی مانند اطلاعات خریدهای قبلی همه‌ی مشتریان، اطلاعات فروش هر محصول، اطلاعات دموگرافی مشتریان، میزان بازخورد پروموشن‌های قبلی، اطلاعات شرایط اقتصادی حاکم بر بازار در بازه‌های زمانی مختلف و … .

مرحله‌ی دوم؛ آماده‌سازی داده‌ها

به این مرحله، مرحله‌ی تمیز کردن داده‌ها و یا تقسیم‌بندی داده‌ها گفته می‌شود. متخصصین علم داده اغلب گلایه می‌کنند که این کار که شامل شناسایی گونه‌ها، موضوع‌ها و کیفیت‌های مختلف داده‌ها می‌شود، یکی از خسته‌کننده‌ترین و زمان‌برترین کارها است. داده‌های به‌دست‌آمده در مرحله‌ی اول معمولا به علت امکان وجود تناقض‌ها و خطاها، قابل استفاده در قالب مدل‌سازی نیستند.

پس از جمع‌آوری داده‌ها، متخصصین باید داده‌ها را یا از طریق ویرایش دستی در یک شیت یا نوشتن کد، تمیز کنند. در این مرحله از چرخه‌ی حیات پروژه، هیچ بینش معناداری ایجاد نمی‌شود؛ اما با این حال، متخصصین می‌توانند از طریق جمع‌آوری منظم داده‌ها تشخیص دهند که چه ضعف‌هایی در مرحله‌ی جمع‌آوری داده‌ها وجود داشته، چه فرضیه‌هایی باید در نظر گرفته شده و از چه مدل‌هایی باید برای تولید نتایج تحلیل استفاده کنند. داده‌ها پس از اصلاح و ویرایش مجدد می‌توانند به فرمت‌های csv یا json یا هر فرمت دیگری تبدیل شده تا بارگذاری آن‌ها در ابزارهای مختلف تحلیل داده آسان باشد.

آنالیز داده‌های تمیز شده با هدف اکتشاف، بخش مهمی از این مرحله را تشکیل می‌دهد؛ زیرا می‌تواند به شناسایی داده‌های دور افتاده، ناهنجاری‌ها و الگوهایی که در مراحل بعدی استفاده می‌شوند، کمک کند. هدف اصلی این مرحله، استخراج ویژگی‌ها در قالب‌های قابل استفاده است.

از نکات مهم دیگر در این مرحله، می‌توان به کنار گذاشتن بخشی از داده‌ها برای آزمایش در مرحله‌ی ارزیابی و تفسیر اشاره کرد.

مثال:

در این مرحله، داده‌هایی که در موقعیتی خاص اتفاق افتاده و به ظاهر طبیعی نیستند، از قبیل اطلاعات خریدهای بسیار قدیمی، خریدهایی که مرجوع شدند، خرید کالاهایی که دیگر موجود نیستند و یا داده‌های غیر قابل استناد مانند خرید صد لپ‌تاپ در یک فاکتور، حذف شده و داده‌های تمیز شده‌ی قابل استفاده، برای مرحله‌ی بعد آماده می‌شوند. برای مثال، داده‌های شش ماه اخیر را برای آزمایش در مرحله‌ی ارزیابی و تفسیر کنار می‌گذاریم. 

مرحله‌ی سوم؛ فرضیه‌ها و مدل‌سازی

در این مرحله، تعدادی پارامتر (بازه‌ی زمانی تحلیل، تعداد دسته‌های مشتریان و …) مشخص شده و در اختیار الگوریتم یادگیری ماشین قرار می‌گیرد و هرکدامشان که نتیجه‌ی بهتری داد، برای مدل‌سازی انتخاب می‌شود. در این مرحله، از بین کل مشتریان، دامنه‌ی مشتریانی که برای هدف پروژه قرار است انتخاب شوند، محدود شده تا به دسته‌ای خاص از مشتریان برسیم. همچنین الگوریتم یادگیری ماشین بررسی می‌کند که کدام بازه‌ی زمانی و کدام محصول برای انجام پروژه مناسب است.

غالبا این برنامه‌ها به زبان python ،perl ،r و یا matlab هستند. برای شناسایی مدل یادگیری ماشین که متناسب با نیاز سازمان باشد، از تکنیک‌های مختلف یادگیری ماشین استفاده می‌شود. تمامی مدل‌های یادگیری ماشین با مجموعه داده‌های آموزشی، آموزش داده می‌شوند.

مثال:

استخراج ویژگی آماری، مدل‌سازی رفتار مشتری و دسته‌بندی آن‌ها بر اساس تعداد خرید، مبلغ خرید و تازگی خرید در این مرحله انجام می‌شود. در واقع، در این مرحله توانستیم پس از مشخص کردن ویژگی‌های مشابهِ دسته‌بندی‌های مختلف، تحویل آن به الگوریتم یادگیری ماشین و گرفتن بهترین نتیجه‌ی ممکن، انتخاب کنیم که قرار است به کدام دسته از مشتریان چه محصولی را در چه زمانی تخفیف دهیم. فرض کنیم به این نتیجه رسیدیم که گوشی نوت 10 سامسونگ را به دسته‌ی مشتریان «در معرض خطر (at risk)»  با پانزده درصد تخفیف ارائه دهیم. با این فرض مثال را ادامه می‌دهیم.

مرحله‌ی چهارم؛ ارزیابی و تفسیر

معیارهای ارزشیابیِ متفاوتی برای ارزیابی عملکرد یادگیری ماشین وجود دارد. یک سوال متداول که متخصصان هنگام ارزیابی عملکرد یک مدل یادگیری ماشین دارند، این است که از کدام مجموعه داده باید برای اندازه‌گیری عملکرد یادگیری ماشین استفاده کنند. در پاسخ باید گفت از همان دسته داده‌هایی که در مرحله‌ی آماده‌سازی به عنوان داده‌های تست برای ارزیابی در این مرحله کنار گذاشته شدند، استفاده می‌شود. نگاه به معیارهای عملکرد بر روی مجموعه داده‌های آموزش‌دیده مفید است؛ اما لزوما همیشه درست نیست؛ زیرا به علت تطبیق مدل با مجموعه داد‌ه‌های آموزشی در گذشته، عدد به‌دست‌آمده امکان دارد خیلی خوشبینانه باشد.

مثال:

معیاری که در مثال حاضر کارکرد دارد، دقت شباهت یا دقت درست بودن نتایجی است که از ارزیابی مدل‌سازی انجام شده با داده‌های 6 ماه اخیر که در مرحله‌ی آماده‌سازی داده‌ها کنار گذاشته شدند، حاصل می‌شود. باید با ارزیابی در این مرحله دید که آیا مشتریانی که در دسته‌ی «در معرض خطر» قرار دارند، در شش ماه گذشته گوشی نوت 10 سامسونگ را خریده‌اند یا خیر. اگر خریده باشند، نشانه‌ی بالا بودن دقت بوده و الگوریتم یادگیری ماشین در مرحله‌ی فرضیه و مدل‌سازی درست عمل کرده است و در غیر این صورت، باید مجدداً مدل‌سازی انجام شود.

مرحله‌ی پنجم؛ استقرار

این مرحله، نخستین برخورد مشتری با محصول است. احتمال دارد در این مرحله مدل یادگیری ماشین قبل از استقرار، مجدداً کدنویسی شود؛ چرا که امکان دارد زبان برنامه‌ای که تیم تحلیل داده انتخاب کرده است، با محیط نرم‌افزار پیاده‌سازی متفاوت باشد. از دیگر اقدام‌های شایسته و مناسب این مرحله، می‌توان به این اشاره کرد که پیش استقرار و اجرای نهایی مدل یادگیری ماشین، در یک محیط پیش‌تولید، آزمایش و تست شده تا اندک ضعف‌های نهایی آن در صورت وجود برطرف شود.

مثال:

در این مرحله، محصول مورد نظر واقعا وارد سایت اصلیِ اجرا و پیاده‌سازی شده و به سایر سیستم‌های فروش، حسابداری، مدیریت تخفیف‌ها، اس‌ام‌اس سنتر و … نیز متصل می‌شود.

مرحله‌ی ششم؛ عملیات

این مرحله شامل توسعه‌ی طرحی برای نظارت و حفظ محصولِ پروژه‌ی تحلیل داده در درازمدت است. گاهی رفتار مشتریان بر اساس یک اتفاق عوض می‌شود. به همین دلیل نیاز است تا به صورت آنلاین، عملکرد و مخصوصا کاهش عملکرد به طور شفاف کنترل شود. متخصصین می‌توانند آن‌چه را که در این پروژه‌ی تحلیل داده تجربه کردند، بایگانی کرده تا در آینده پروژه‌های مشابه را با سرعت بیشتری انجام دهند.

مثال:

در این مرحله، واقعاً پیشنهاد تخفیف پانزده درصد در گوشی نوت 10 سامسونگ به دسته‌ی مشتریان «در معرض خطر» داده شده و بررسی خواهد شد که چند درصد از مشتریان در دسته‌ی «در معرض خطر»، در حال خرید گوشی نوت 10 سامسونگ از طریق تخفیف پانزده درصدی بوده و در صورت تغییر در روند مدنظر میانگین روزانه‌ی خرید، حتما و سریعاً دلیل آن پیگیری شود.

مرحله‌ی هفتم؛ بهینه‌سازی

این، آخرین مرحله از هر پروژه‌ی تحلیل داده است که شامل بازآفرینی مدل یادگیری ماشین در تولید است. امکان دارد منابع اطلاعاتی جدیدی وارد شده و اقدام‌هایی جهت حفظ عملکرد مدل یادگیری ماشین یا بهینه‌سازی آن انجام شود.

داشتن یک چرخه‌ی حیاتی که برای هر پروژه‌ی تحلیل داده به خوبی تعریف شده باشد، باعث می‌شود متخصصین علم داده کمتر خسته و اذیت شوند. چرخه‌ی حیاتی که در بالا ذکر شد، ثابت و قطعی نیست و بر اساس افزایش بهره‌وری در یک پروژه، با نیازهای خاص آن سازمان می‌تواند تغییر کند.

مثال:

در این مرحله، دلیل این که مشتریان در دسته‌ی «در معرض خطر»، گوشی نوت 10 سامسونگ را با پانزده درصد تخفیف خرید نکرده‌ یا میزان خریدشان رضایت‌بخش نبوده، بررسی شده و برای بهینه‌سازی در پروموشن‌های بعدی استفاده می‌شود. مثلا امکان دارد نرخ دلار نسبت به زمان انجام تحلیل افزایش پیدا کرده و مشتریان حتی با پانزده درصد تخفیف نیز محصول پیشنهادی را نخرند.

اشتراک‌گذاری

مقالات مرتبط

تصمیم‌گیری داده‌محور، راه نجات سازمان‌ها در بحران کرونا
مقالات تحلیل داده

تصمیم‌گیری داده‌محور، راه نجات سازمان‌ها در بحران کرونا

روز‌های کرونایی را یکی‌پس‌ازدیگری پشت سر می‌گذاریم و احتمالا یکی از چیزهایی که بخش نه‌چندان کوچکی از تفکرات روزانه‌ی ما را به خود اختصاص داده است، مشکلاتی است که این پاندمی در زندگی ما به وجود آورده؛ از زدن ماسک و رعایت بی‌سابقه‌ی دیگر مسائل بهداشتی گرفته تا مشکلات و محدودیت‌های معیشتی که گریبان‌گیر عده‌ی نه‌چندان کمی از جمعیت کشور شده است. تأثیرات اولیه‌ی کرونا، بی‌شک تأثیراتی است که بر سلامت آحاد جامعه می‌گذارد؛ اما این بیماری تأثیرات ثانویه‌ای نیز دارد که از مهم‌ترین‌ آن‌ها، می‌توان به تأثیراتی که بر اقتصاد جامعه می‌گذارد، اشاره کرد. برای مثال، برخی از شرکت‌ها در حالی شاهد قطع زنجیره‌های تأمین خود هستند که برخی دیگر با تقاضاهای شدید مواجه شده که هر دوی آن‌ها منجر به مختل‌شدن نیروهای کار

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *