برای تازه واردین به دنیای دیتاساینس، واژه های Data Science و Data Engineering اغلب گیج کننده هستند و گاهی نیز به اشتباه یکسان تلقی می شوند. در اینجا میخواهم تمایز این دو زمینه شغلی در حوزه دیتا را که کاملا مجزا از یکدیگرند را روشن نمایم.
دیتاساینس علمی است محاسباتی به منظور استخراج بینشهای کاربردی و معنی دار از داده های خام، که از طریق برقراری ارتباط موثر بین این بینشها به دنبال ایجاد ارزش افزوده برای کسب و کارها و سازمانها است. در مقابل مهندسی داده ها -Data Engineering- یک زمینه مهندسی که به ایجاد و نگهداری سیستمهایی می پردازد که برای پردازش و ذخیره Big Data نیاز هستند.
در هر دو این زمینه های شغلی مرتبط با داده ها، شما با این سه نوع داده ها سر و کار خواهید داشت:
- داده های ساختیافته: اینگونه داده ها را میتوان در سیستمهای بانک اطلاعاتی رابطه ای (RDBMS) که در آینده بیشتر به آنها خواهیم پرداخت ذخیره نمود. داده های مربوط به تراکنشهای مالی را میتوان در این دسته بندی قرار داد.
- داده های غیرساختیافته: داده هایی که امکان ذخیره سازی آنها در روش ساختیافته وجود ندارد. مانند داده های متن توییت ها و ایمیلها.
- داده های شبه ساختیافته: داده هایی را که نمیتوان در سیستمهای بانک اطلاعاتی ساختیافته ذخیره نمود اما میتوان با استفاده از تگ ها -Tags- به آنها ترتیب و ساختار سلسله مراتبی اعمال نمود. فایلهای JSON و XML نمونه هایی از اینگونه داده ها هستند.
اغلب مردم معتقدند که دیتا ساینس صرفا مختص سازمانهای بسیار بزرگ است که با صرف بودجه های عظیم میتوانند روشهای دیتا ساینس را به منظور بهبود و توسعه کسب و کارشان پیاده سازی نمایند، اما باید بگویم که اینگونه نیست. در واقع داده های پیرامون ما این نیاز را برای همه افراد جامعه ایجاد نموده اند که نیازهای روزمره شان را از مسافر تاکسی اینترنتی گرفته که انتظار دارد راننده تاکسی دقیقا در زمان و مکانی که اپلیکیشن پیش بینی کرده است او را سوار کند تا مشتری فروشگاه های اینترنتی که انتظار دارد بسترهای فروش اینترنتی به او بهترین جایگزین محصولی را که نیاز دارد را پیشنهاد دهند تا با مقایسه آنها با یکدیگر بهترین انتخاب را در خرید داشته باشد، برآورده نمایند.
داده ها و بینش هایی که می توان از آنها استخراج نمود، به صورت گسترده ای پیرامون ما هستند و نیاز داریم که آنان را بکار گیریم. امروزه سازمانها دریافته اند که در دریایی از داده ها احاطه شده اند که یا باید در آن شنا کنند و کسب و کار خود را نجات دهند و یا باید غرق شوند و در فضای رقابتی موجود عرصه را به رقبا واگذارند. آنچه بدیهی است، شناسایی داده ها و نحوه بکارگیری آنها نیاز اصلی همه کسب و کارها در همه زمینه هاست.
حال اجازه دهید به این سوال بپردازیم که آنچه تا کنون در این مقاله گفته شد چگونه می تواند زندگی افراد عادی را متاثر سازد؟ به این سوال از دو منظر میتوان پاسخ داد. اول اینکه با توجه به رشد سریع فناوری اطلاعات از کارمندان سازمانها این انتظار می رود که خود را هر چه سریعتر با این تحولات همگام سازند، چرا که همه سازمانها با سرعت هر چه تمام درگیر استفاده از فناوری های اینچنینی و بکارگیری بینشهایی که از این داده ها و ابزارها می توان استخراج نمود، هستند. از سوی دیگر میتوان به این موضوع اشاره کرد که اگر از قافله تکنوکرات ها جا بمانیم باید هر لحظه منتظر دیدن نام خود در لیست تعدیلی های ماه بعد باشیم.