آشنایی با دیتاساینس (علم داده) – قسمت دوم | دات دیتا

آشنایی با دیتاساینس (علم داده) – قسمت دوم

اگر تا کنون مطالعه ای در مورد دیتاساینس داشتید حتما نمودار ون “درو کانوی” رو دیدید. من این نمودار رو به یه polar چارت تغییر دادم که نشون بدم تو هر حوزه میزان تخصص هم مهم است. چون برخلاف آنچه تو نمودار درو کانوی میبیند مساله این نیست که این تخصص وجود داره یا خیر؟ بلکه میزان آشنایی و تخصص در هر حوزه هم مهم است که اگر با نمودار قطبی آشنا باشید، میدونید که هر راس مثلث میزان مهارت در هر حوزه رو هم نشون میده.
تو این پست میخوام درباره مفهوم هر یک از این تخصص های لازم برای دیتاساینس صحبت کنم.

ریاضی و آمار اصلی ترین پایه های سواد داده (Data Literacy) هستند.

پس اولین قدم، یادگیری سواد داده هست. میتونیم سواد کار با داده رو به سه سطح دانش تقسیم کنیم:
اولین سوالی که باید پاسخ دهیم،آیا تکنیکهای لازم وجود دارند؟ بدیهی که اگر ندونیم که کاری امکان پذیر است یا خیر یا یک امکان وجود دارد یا خیر، نمیتونیم اون کار رو به روش مناسب انجام بدیم یا از اون امکان استفاده کنیم . مثلا اگر به عنوان یک دیتا ساینتیست بدونیم که برای دسته بندی مشتریان مشابه یک روش آماری به نام کلاسترینگ (خوشه بندی) وجود دارد، خوب به راحتی از این روش استفاده میکنیم. در غیر اینصورت انجام دسته بندی مشتریان کار ساده ای نخواهد بود.


گام بعدی، چگونه این تکنیکها را بکار ببریم؟ علاوه بر اینکه باید بدونیم چه امکاناتی برای کار روی داده ها در اختیار داریم باید بدانیم چگونه آنها را به استفاده کنیم. در واقع بتونیم کدهای قابل اجرا بنویسیم که تکنیکهای مورد نظر ما رو روی داده ها اعمال کنند. به عنوان مثال برای گروه بندی مشتریان که در مثال قبلی بهش اشاره کردم میتونیم از الگوریتم K-means که یکی از معروفترین الگوریتمهای کلاسترینگ محسوب میشه استفاده کنیم. پس باید ابتدا بدونیم این الگوریتم وجود داره و برای حل مساله ما میتونه کمکمون کنه، دوم اینکه بدونیم چطوری میشه با زبان برنامه نویسی پایتون یا آر اون رو پیاده سازی کرد و علاوه بر همه اینها چطوری میشه پارامترهای این الگوریتم رو تنظیم کرد. مثلا مقدار بهینه تعداد کلاستر ها چندتاست؟


مورد آخر اینه که کدوم روش رو از بین روشهای موجود انتخاب کنیم؟ بدیهی که برای حل یک مساله روشهای مختلفی وجود داره اینکه کدوم راه حل نسبت به همه راه حلهای در دسترس، بهینه تر است، سوال مهمی است که باید به اون پاسخ بدیم.

بانک های اطلاعاتی و برنامه نویسی
خوب واضحه ما نیازمند ابزارها و فناوری هایی هستیم که داده ها رو جمع آوری و در بانکهای اطلاعاتی ذخیره کنیم. و سپس با نوشتن کدهایی که از هر نظر بهینه هستند، مشابه کاری که مهندسین نرم افزار انجام میدهند، از این داده ها دانش استخراج کنیم و با تهیه گزارشهای شفاف و دقیق، از این داده ها برای اخذ تصمیمات هوشمندانه استفاده کنیم. دو زبان برنامه نویسی که در دیتاساینس کاربرد دارند Python و R هستند که بی شک بدلیل مزایای پایتون این زبان کاربرد بیشتری داره.
برای هر دو زبان پکیج های بسیاری وجود داره که هر کاری به ذهنتون برسه قابل انجام هست. فقط پایتون چون اکوسیستم وسیعتر و قوی داره هم کاربردش بیشتره و هم در حل بعضی از مسایل تنها زبان برنامه نویسی قابل استفاده است. همونطور که اشاره کردم ذخیره و بازیابی اطلاعات در بانکهای اطلاعاتی نیز جز لاینفک دیتا ساینس محسوب میشه که برای این منظور باید با اصول دیتابیس و SQL و همچنین NoSQL آشنا باشید. ابزارهای دیگری هم تو این حوزه مثل گیت و گیت هاب وجود داره که نمیخوام در اینجا مطرحشون کنم.
اما سوالی که ممکنه پیش بیاد آیا بدون کدنویسی هم میشه دیتاساینتیست شد (برای اونهایی که به کدنویسی علاقه ندارند و یا فکر میکنن که یادگیری کدنویسی سخت هست)؟ جواب سوال بله است. برای پروژه های کوچک بخصوص تو حوزه هوش تجاری Business Intelligence میشه از نرم افزارهایی مثل اکسل یا Tableau استفاده کرد. اما برای کارهای جدی و پروژه های حرفه ای نیاز به کدنویسی هست. بدیهی است که هر چه ابعاد پروژه بزرگتر باشه، پیچیدگی های کدنویسی بیشتر میشه و ابزارهای مختلفی باید بکار گرفت. اما به نظرم اگر کدنویسی رو زیر نظر یک استاد خبره اصولی یاد بگیرید ساده و لذت بخش خواهد بود. و می تونید پیشرفت بیشتری تو حوزه دیتاساینس بکنید.


آشنایی با حوزه کسب و کار – Domain Knowledge
آشنایی با فرایندهای موجود در کسب و کاری که قراره برای اون کار دیتاساینس انجام بدید و دانش کافی نسبت به اون بیزنس بسیار ضروری است. مثلا ممکنه مدیر یک شرکت از شما بپرسه چرا نرخ کاستومر چرن ما بالاست به عبارت ساده تر چرا مشتریان ما رو ترک میکنند. اما تو زبان برنامه نویسی پایتون پکیچی بنام “WHY ARE CUSTOMERS CHURNING” وجود نداره که شما اون رو تو برنامه تون ایمپورت کنید و جواب این سوال رو با نوشتن چهار خط کد بدید. بلکه این وظیفه شماست که با کسب شناخت کافی نسبت به ماهیت کسب و کار و فرآیندهای اون و بکارگیری داده های موجود و یا جمع آوری داده های مرتبط، راه حل مناسبی برای پاسخ به این سوال پیدا کنید. Domain Knowledge یا Business Understanding یا درک کسب و کار نقطه ای است که دنیای دیتاساینس با نیازهای واقعی و کاربردی کسب و کارها تلاقی پیدا میکنه.
با شناخت بهتر کسب و کاری که برای اون کار میکنید، این توانایی رو دارین که سوالات مرتبط تر و کاربردی تری بپرسید (اصطلاحا to the point questions) چرا که درک بهتری از وضعیت سازمان و نیازهای ذینفعان خواهید داشت. مدیران کسب و کارها دوست دارند که به زبان اونها باهاشون صحبت بشه. اگر شما وارد اتاقی که مدیران نشستن بشید و شروع کنید از اصلاحات تخصصی دیتاساینس استفاده کنید که هیچ کس ازش سر درنیاره مطمینا به دردسر میفتید! اما وقتی نتایج پروژه دیتا ساینس رو با درک و شناختی که از مشکلات و مسایل پیرامون کسب و کار دارید به صورت یک داستان قابل فهم برای مدیران ارایه بدید، مطمئنا بهتر میتونید خودتون رو تو دلشون جا کنید.

موارد دیگری هم تو پولار چارت وجود داره که در اینجا میخوام به طور خلاصه به اونها اشاره کنم.
ابتدا Analyst: مهمترین کار دیتا آنالیست ها پیدا کردن داده های مناسب در سطح سازمان و کسب و کار و یافتن راهکاری برای تبدیل داده ها به نحوی که بتوان از آنها برای حل مساله استفاده کرد، که ما بهش Transformation می گوییم. و بعد از اون با ایجاد داشبوردهای مدیریتی، به صورت بصری یا ویژوال، نتایج رو در اختیار کاربران قرار می دهند تا بشه تو فرایند تصمیم گیری ازشون استفاده کرد. مثلا ممکنه از یک آنالیست درخواست بشه که یک دشبورد بسازه که به صورت خودکار تغییرات مربوط به تعداد سابسکرایبرها رو نشون بده و این قابلیت رو داشته باشه که بشه سابسکرایبرهای یک منطقه جغرافیایی مشخص رو فیلتر کرد.


مورد بعدی Machine Learning هست. در شرکتهای بزرگ علاوه بر موقعیت های شغلی حوزه دیتا مثال دیتاساینتیست، دیتا انجینیر و دیتا آنالیست، معمولا افرادی با عنوان شغلی Machine Learning Engineer وجود دارند که وظیفه شون توسعه مدلهای یادگیری ماشین و اجرای اونها در محیط اجرای واقعی که ما بهش Production میگیم، به صورت دایمی هست.
معمولا کار ماشین لرنینگ انجینیر ها بیشتر نزدیک به Software Developer ها هست. در واقع اینها کدنویس های بهتری هستند و می تونند مدلهای ماشین لرنینگ بهینه تری رو پیاده سازی کنند. مثالی که میتونم از پروژه هایی مربوط به ماشین لرنینگ ارایه بدم این مورد هست. فرض کنید یک شرکت از مهندس یادگیری ماشینش خواسته که مدلی بسازه تا به صورت بلادرنگ احتمال تکمیل فرایند خرید رو برای هر مشتری که الان روی وب سایت در حال دیدن محصولات هست رو پیش بینی کنه. پس این مهندس ما باید با استفاده از دیتاهایی که در گذشته از رفتار خرید دیگر مشتریان جمع آوری شده یک مدل ماشین لرنینگ رو آموزش بده تا این مدل به صورت دایم وظیفه ای که از اون خواسته شده رو بدون هیچ مشکل و خطایی به نحو مطلوب انجام بده.

مورد آخر Decision Science هست. یک دیسیژن ساینتیست، داده های خام کسب و کار رو تبدیل به اطلاعات میکنه تا مدیران سازمان با استفاده از این اطلاعات تصمیمات بهتری بگیرن. این کار نیازمند این است که آشنایی خوبی با روشهای مختلف آماری و ریاضیات داشته باشیم و از روند تصمیم گیری در کسب و کارها داشته باشیم، سر در بیاریم. توانایی در ایجاد پرزنتیشن های خلاقانه و گرافهایی که به سادگی نتایج رو در اختیار افراد غیر فنی قرار بده از دیگر توانایی هایی هست که این افراد باید داشته باشند. مثلا تیم فروش میخواد تصمیم بگیره که چه محصولاتی رو برای شب یلدا تو سبد فروش ویژه قرار بده که بیشترین سود رو داشته باشه و وفاداری مشتریان رو هم بیشتر کنه. یک دیسیژن ساینتیست میتونه با استفاده از داده های موجود مربوط به فروش محصولات در گذشته و همچنین در صورت نیاز ایجاد یه پرسشنامه و بکارگیری اصول علم رفتارشناسی و انجام دیتا انلسیس به بهترین سبد محصول ممکن دست پیدا کنه که میتونه با ارائه اون در قالب یک پرزنتیشن به مدیر بازاریابی و فروش اونها رو در کسب موفقیت بیشتر کمک کنه. آزمایش A/B یا همون A/B Test هم از نمونه کارهایی هست که در این قسمت میشه بهش اشاره کرد. کاربرد ای بی تست برای این هست که ببنیم تغییری که میخوایم در محصولمون یا وب سایتمون اعمال کنیم یا عنوانی که برای پست وبلاگمون یا سابجکت ایملیمون انتخاب کنیم اثر بخشی کافی رو داره یا خیر؟ هر جا که ما بخوایم بین دو مورد انتخاب هوشمندانه کنیم، ای/ بی تست کابرد داره.

در قسمتهای بعدی، به جنبه های دیگر دیتاساینس و مسیر یادگیری و اشتغال اون خواهم پرداخت. همچنین میتونید از طریق این لینک به ویدیو وبینار آشنایی با دیتاساینس در یوتیوب دسترسی پیدا کنید. در اونجا به طور کامل در این باره صحبت کردم.

دیدگاه خود را بنویسید:

آدرس ایمیل شما نمایش داده نخواهد شد.

فوتر سایت

سایدبار کشویی