زمانی که شما با کلاندادهها کار میکنید، پیروی از یک نقشهی راه مشخص میتواند برای شما مفید باشد. صرفنظر از اینکه یک متخصص علم داده بخواهد با انگیزهی نشاندادن یک مفهوم به شکل دادههای بصری یا ساخت یک مدل اطلاعاتی تحلیل کند، روند و فرآیند تحلیل مهم است. در پروژههای تحلیل داده، داشتن یک نقشهی راه مشخص، به همگامسازی تیمهای مختلف درون سازمان و جلوگیری از هرگونه تاخیر کمک میکند.
چرخهی حیات پروژههای تحلیل داده
هدف نهایی هر پروژهی تحلیل داده، تولید محصولی تاثیرگذار از جنس داده است. نتایج قابلاستفاده در پایان هر پروژهی تحلیل داده، یک محصول دادهای به حساب میآید. یک محصول دادهای میتواند هر چیزی اعم از داشبورد اطلاعاتی، مجموعهی پیشنهادها و یا هرچیزی که روند تصمیمگیری در کسبوکارها را برای حل یک مشکل، تسهیل کند، باشد. با این حال، متخصصین علوم داده باید به صورت مرحله به مرحله، روندی درست و مشخص را برای رسیدن به هدف نهایی تولید محصولات دادهای طی کنند. همچنین یک محصول دادهای باید بتواند در یافتن پاسخ برای سوال اصلی کسبوکار کمک کند. چرخهی عمر پروژههای تحلیل داده نباید صرفاً متمرکز بر فرایند بوده، بلکه تاکید آن، باید بیشتر بر روی محصول باشد. در این مقاله، به تشریح روند استاندارد پروژههای علوم داده که توسط متخصصین آن انجام میشود، میپردازیم.
پروژههای تحلیل داده یک چرخهی حیات مناسب مانند چرخهی حیات توسعهی نرم افزار که در آن مراحل، مشخص و شفاف باشند، ندارند. معمولاً پروژههای تحلیل داده با تاخیر در تحویل و درجا زدن دست و پنجه نرم میکنند؛ چراکه برخی از مراحل در چرخهی حیات یک پروژهی تحلیل داده، غیر خطی، تکراری و یا در ارتباط با تیم دیگری در سازمان است. در ابتدا، تعیین مناسبترین و بهترین راه برای شروع، برای متخصصین علوم داده بسیار دشوار است. اگرچه ممکن است فرآیند چرخهی حیاتِ بسیاری از پروژههای تحلیل داده شفاف نباشند؛ اما متخصصین علوم داده باید یک چرخه حیات استاندارد را برای رسیدن به خروجی انتخاب کنند.
افراد غالبا چرخهی حیات یک پروژهی علوم داده را با یک پروژهی مهندسی نرمافزار اشتباه میگیرند؛ در صورتی که نباید اینگونه باشد؛ چرا که علم داده، با مهندسی متفاوت است. هیچ فرآیند چرخهی حیاتِ کاملا مناسبی برای پروژههای تحلیل داده وجود ندارد. بنابراین متخصصین علوم داده باید مناسبترین چرخه را با توجه به نیازهای سازمان خود انتخاب کنند. با این وجود، استانداردترین چرخهی حیاتی که برای پروژههای تحلیل داده وجود دارد CRISP-DM است که از قدیمیترین و محبوبترینها است. این روش برای پروژههای دادهکاوی طراحی و توسعه داده شد؛ اما امروزه متخصصین علوم داده با اندکی تغییرات، از آن برای پروژههای تحلیل داده استفاده میکنند.
طبق آخرین نظرسنجی KDnuggets با سوال “شما از چه متدولوژیای برای آنالیز داده، دادهکاوی و تحلیل داده استفاده میکنید؟”، مشخص شد که 43% درصد شرکتکنندگان در نظرسنجی از متدولوژی چرخهی حیات CRISP-DM استفاده میکنند.
در هر مرحله از چرخهی حیات یک پروژه، به مهارتهای مختلف از جمله تخصص در علم داده و نیز به ابزارهای مختلف نیاز است. فرآیند تحلیل داده، با طرح یک سوال در سازمان آغاز شده و تا انتها روند کلی را هدایت میکند.
یک چرخهی حیات استاندارد از پروژههای علم داده
چرخهی حیات پروژههای تحلیل داده، شبیه به چرخهی حیات CRISP-DM است که 6 مرحله استاندارد زیر را برای پروژههای دادهکاوی تعریف میکند:
- درک کسب و کار
- درک دادهها
- تهیهی دادهها
- مدلسازی
- ارزیابی
- استقرار
اما چرخهی حیات پروژههای علوم داده کمی بیشتر از CRISP-DM است، با اندکی تغییرات:
- جمعآوری دادهها
- آمادهسازی دادهها
- فرضیه و مدل سازی
- ارزیابی و تفسیر
- استقرار
- عملیات
- بهینهسازی
هفت مرحلهی چرخهی حیات پروژههای علوم داده
چرخهی حیات پروژههای علوم داده شامل هفت مرحله است که در این مقاله، به تشریح اقدامهای لازم در هر مرحله از آن خواهیم پرداخت. برخی از منابع، اولین مرحله را درک نیازهای کسبوکار میدانند؛ اما در این مقاله با این پیشفرض که شناخت و آگاهی پیرامون کسبوکار بسیار قبلتر حاصل شده است، از آن به عنوان یک مرحله از چرخهی حیات پروژههای علوم داده، یاد نکردیم. ما برای درک و تفهیم بیشتر و راحتتر شما نسبت به این مراحل، تصمیم گرفتیم تا توضیح این مراحل را همراه با یک مثال تحت عنوان “تحلیل رفتار مشتریان یک فروشگاه اینترنتی، برای ارائهی تخفیف در محصولی خاص به گروهی خاص از آنها” برای شما توضیح دهیم، دقت کنید که نه میدانیم کدام محصول شامل تخفیف شده و نه میدانیم که به چه گروهی قرار است تخفیف داده شود.
مرحلهی اول؛ جمعآوری دادهها
پر واضح است که شما برای شروع پروژهی تحلیل، به داده نیاز دارید. اولین قدم در چرخهی حیات پروژههای تحلیل داده این است که شخصی مناسب را که بر اساس سوال اصلی سازمان میداند چه اطلاعاتی را در چه زمانی جمعآوری کند، شناسایی کنیم. لازم نیست که این شخص یک متخصص علم داده باشد، همین که تفاوت بین مجموعههای مختلف داده را دانسته و نسبت به تصمیمگیریهای سخت سرمایهگذاری در سازمان آگاه باشد، میتواند فرد مناسبی برای این کار باشد.
پروژههای تحلیل داده با شناسایی منابع مختلفِ جمعآوری داده آغاز میشود. این منابع میتوانند وبسرورها، دادههای فضای مجازی، دادههایی که در فضای آنلاین به صورت api هستند و یا دادههای تمیز شدهای که در اکسل وارد شده و وجود دارند، باشند.
دو چالش اصلی که اغلب متخصصان علم داده در مرحلهی جمعآوری داده با آن روبهرو هستند، یکی ردیابی محل دقیق جمعآوری هر خوشه یا دسته از دادهها است و مورد دیگر اینکه آیا این دادههای جمعآوری شده به روز هستند یا نه.
مثال:
در این مرحله ما نیاز داریم تا همهی دادههای در دسترس و تاثیرگذار در هدف نهایی را جمعآوری کنیم. دادههایی مانند اطلاعات خریدهای قبلی همهی مشتریان، اطلاعات فروش هر محصول، اطلاعات دموگرافی مشتریان، میزان بازخورد پروموشنهای قبلی، اطلاعات شرایط اقتصادی حاکم بر بازار در بازههای زمانی مختلف و … .
مرحلهی دوم؛ آمادهسازی دادهها
به این مرحله، مرحلهی تمیز کردن دادهها و یا تقسیمبندی دادهها گفته میشود. متخصصین علم داده اغلب گلایه میکنند که این کار که شامل شناسایی گونهها، موضوعها و کیفیتهای مختلف دادهها میشود، یکی از خستهکنندهترین و زمانبرترین کارها است. دادههای بهدستآمده در مرحلهی اول معمولا به علت امکان وجود تناقضها و خطاها، قابل استفاده در قالب مدلسازی نیستند.
پس از جمعآوری دادهها، متخصصین باید دادهها را یا از طریق ویرایش دستی در یک شیت یا نوشتن کد، تمیز کنند. در این مرحله از چرخهی حیات پروژه، هیچ بینش معناداری ایجاد نمیشود؛ اما با این حال، متخصصین میتوانند از طریق جمعآوری منظم دادهها تشخیص دهند که چه ضعفهایی در مرحلهی جمعآوری دادهها وجود داشته، چه فرضیههایی باید در نظر گرفته شده و از چه مدلهایی باید برای تولید نتایج تحلیل استفاده کنند. دادهها پس از اصلاح و ویرایش مجدد میتوانند به فرمتهای csv یا json یا هر فرمت دیگری تبدیل شده تا بارگذاری آنها در ابزارهای مختلف تحلیل داده آسان باشد.
آنالیز دادههای تمیز شده با هدف اکتشاف، بخش مهمی از این مرحله را تشکیل میدهد؛ زیرا میتواند به شناسایی دادههای دور افتاده، ناهنجاریها و الگوهایی که در مراحل بعدی استفاده میشوند، کمک کند. هدف اصلی این مرحله، استخراج ویژگیها در قالبهای قابل استفاده است.
از نکات مهم دیگر در این مرحله، میتوان به کنار گذاشتن بخشی از دادهها برای آزمایش در مرحلهی ارزیابی و تفسیر اشاره کرد.
مثال:
در این مرحله، دادههایی که در موقعیتی خاص اتفاق افتاده و به ظاهر طبیعی نیستند، از قبیل اطلاعات خریدهای بسیار قدیمی، خریدهایی که مرجوع شدند، خرید کالاهایی که دیگر موجود نیستند و یا دادههای غیر قابل استناد مانند خرید صد لپتاپ در یک فاکتور، حذف شده و دادههای تمیز شدهی قابل استفاده، برای مرحلهی بعد آماده میشوند. برای مثال، دادههای شش ماه اخیر را برای آزمایش در مرحلهی ارزیابی و تفسیر کنار میگذاریم.
مرحلهی سوم؛ فرضیهها و مدلسازی
در این مرحله، تعدادی پارامتر (بازهی زمانی تحلیل، تعداد دستههای مشتریان و …) مشخص شده و در اختیار الگوریتم یادگیری ماشین قرار میگیرد و هرکدامشان که نتیجهی بهتری داد، برای مدلسازی انتخاب میشود. در این مرحله، از بین کل مشتریان، دامنهی مشتریانی که برای هدف پروژه قرار است انتخاب شوند، محدود شده تا به دستهای خاص از مشتریان برسیم. همچنین الگوریتم یادگیری ماشین بررسی میکند که کدام بازهی زمانی و کدام محصول برای انجام پروژه مناسب است.
غالبا این برنامهها به زبان python ،perl ،r و یا matlab هستند. برای شناسایی مدل یادگیری ماشین که متناسب با نیاز سازمان باشد، از تکنیکهای مختلف یادگیری ماشین استفاده میشود. تمامی مدلهای یادگیری ماشین با مجموعه دادههای آموزشی، آموزش داده میشوند.
مثال:
استخراج ویژگی آماری، مدلسازی رفتار مشتری و دستهبندی آنها بر اساس تعداد خرید، مبلغ خرید و تازگی خرید در این مرحله انجام میشود. در واقع، در این مرحله توانستیم پس از مشخص کردن ویژگیهای مشابهِ دستهبندیهای مختلف، تحویل آن به الگوریتم یادگیری ماشین و گرفتن بهترین نتیجهی ممکن، انتخاب کنیم که قرار است به کدام دسته از مشتریان چه محصولی را در چه زمانی تخفیف دهیم. فرض کنیم به این نتیجه رسیدیم که گوشی نوت 10 سامسونگ را به دستهی مشتریان «در معرض خطر (at risk)» با پانزده درصد تخفیف ارائه دهیم. با این فرض مثال را ادامه میدهیم.
مرحلهی چهارم؛ ارزیابی و تفسیر
معیارهای ارزشیابیِ متفاوتی برای ارزیابی عملکرد یادگیری ماشین وجود دارد. یک سوال متداول که متخصصان هنگام ارزیابی عملکرد یک مدل یادگیری ماشین دارند، این است که از کدام مجموعه داده باید برای اندازهگیری عملکرد یادگیری ماشین استفاده کنند. در پاسخ باید گفت از همان دسته دادههایی که در مرحلهی آمادهسازی به عنوان دادههای تست برای ارزیابی در این مرحله کنار گذاشته شدند، استفاده میشود. نگاه به معیارهای عملکرد بر روی مجموعه دادههای آموزشدیده مفید است؛ اما لزوما همیشه درست نیست؛ زیرا به علت تطبیق مدل با مجموعه دادههای آموزشی در گذشته، عدد بهدستآمده امکان دارد خیلی خوشبینانه باشد.
مثال:
معیاری که در مثال حاضر کارکرد دارد، دقت شباهت یا دقت درست بودن نتایجی است که از ارزیابی مدلسازی انجام شده با دادههای 6 ماه اخیر که در مرحلهی آمادهسازی دادهها کنار گذاشته شدند، حاصل میشود. باید با ارزیابی در این مرحله دید که آیا مشتریانی که در دستهی «در معرض خطر» قرار دارند، در شش ماه گذشته گوشی نوت 10 سامسونگ را خریدهاند یا خیر. اگر خریده باشند، نشانهی بالا بودن دقت بوده و الگوریتم یادگیری ماشین در مرحلهی فرضیه و مدلسازی درست عمل کرده است و در غیر این صورت، باید مجدداً مدلسازی انجام شود.
مرحلهی پنجم؛ استقرار
این مرحله، نخستین برخورد مشتری با محصول است. احتمال دارد در این مرحله مدل یادگیری ماشین قبل از استقرار، مجدداً کدنویسی شود؛ چرا که امکان دارد زبان برنامهای که تیم تحلیل داده انتخاب کرده است، با محیط نرمافزار پیادهسازی متفاوت باشد. از دیگر اقدامهای شایسته و مناسب این مرحله، میتوان به این اشاره کرد که پیش استقرار و اجرای نهایی مدل یادگیری ماشین، در یک محیط پیشتولید، آزمایش و تست شده تا اندک ضعفهای نهایی آن در صورت وجود برطرف شود.
مثال:
در این مرحله، محصول مورد نظر واقعا وارد سایت اصلیِ اجرا و پیادهسازی شده و به سایر سیستمهای فروش، حسابداری، مدیریت تخفیفها، اساماس سنتر و … نیز متصل میشود.
مرحلهی ششم؛ عملیات
این مرحله شامل توسعهی طرحی برای نظارت و حفظ محصولِ پروژهی تحلیل داده در درازمدت است. گاهی رفتار مشتریان بر اساس یک اتفاق عوض میشود. به همین دلیل نیاز است تا به صورت آنلاین، عملکرد و مخصوصا کاهش عملکرد به طور شفاف کنترل شود. متخصصین میتوانند آنچه را که در این پروژهی تحلیل داده تجربه کردند، بایگانی کرده تا در آینده پروژههای مشابه را با سرعت بیشتری انجام دهند.
مثال:
در این مرحله، واقعاً پیشنهاد تخفیف پانزده درصد در گوشی نوت 10 سامسونگ به دستهی مشتریان «در معرض خطر» داده شده و بررسی خواهد شد که چند درصد از مشتریان در دستهی «در معرض خطر»، در حال خرید گوشی نوت 10 سامسونگ از طریق تخفیف پانزده درصدی بوده و در صورت تغییر در روند مدنظر میانگین روزانهی خرید، حتما و سریعاً دلیل آن پیگیری شود.
مرحلهی هفتم؛ بهینهسازی
این، آخرین مرحله از هر پروژهی تحلیل داده است که شامل بازآفرینی مدل یادگیری ماشین در تولید است. امکان دارد منابع اطلاعاتی جدیدی وارد شده و اقدامهایی جهت حفظ عملکرد مدل یادگیری ماشین یا بهینهسازی آن انجام شود.
داشتن یک چرخهی حیاتی که برای هر پروژهی تحلیل داده به خوبی تعریف شده باشد، باعث میشود متخصصین علم داده کمتر خسته و اذیت شوند. چرخهی حیاتی که در بالا ذکر شد، ثابت و قطعی نیست و بر اساس افزایش بهرهوری در یک پروژه، با نیازهای خاص آن سازمان میتواند تغییر کند.
مثال:
در این مرحله، دلیل این که مشتریان در دستهی «در معرض خطر»، گوشی نوت 10 سامسونگ را با پانزده درصد تخفیف خرید نکرده یا میزان خریدشان رضایتبخش نبوده، بررسی شده و برای بهینهسازی در پروموشنهای بعدی استفاده میشود. مثلا امکان دارد نرخ دلار نسبت به زمان انجام تحلیل افزایش پیدا کرده و مشتریان حتی با پانزده درصد تخفیف نیز محصول پیشنهادی را نخرند.