جورچین علم داده ها

ج

برای بکارگیری علم داده ها (Data Science) به معنای واقعی کلمه، باید دانش تحلیلی از نحوه بکارگیری ریاضی، آمار و کدنویسی برای کار با داده ها و همچنین تخصص در زمینه خاصی که میخواهید کار دیتا ساینس انجام دهید داشته باشید. بدون داشتن دانش کافی نسبت به زمینه تخصصی که داده های آن می بایست تحلیل شوند، هر چند ممکن است خود را یک ریاضیدان یا آمار دان بدانید، اما نمی توانید کار با داده ها را به عنوان دانشمند داده ها (Data Scientist) آغاز کنید. بدلیل افزایش تصاعدی نیاز به استخراج بینش از داده ها، همه کسب و کارها و زمینه های مختلف که با داده ها سروکار دارند، نیازمند علم داده ها هستند. به همین دلیل، شکلهای مختلف دیتا ساینس ظهور کردند. موارد زیر تعدادی از زمینه های تخصصی هستند که از دیتا ساینس استفاده می کنند: فناوری تبلیغات، بانکداری الکترونیک، سلامت و پزشکی، مهندسی محیط زیست، جغرافیایی، خرده فروشی ها و کارخانه های داروسازی.

اما به راستی چه کسی دانشمند داده ها (Data Scientist) است؟ در این مطلب به تبیین نقش دانشمندان داده ها خواهیم پرداخت.

شغل مهندسین داده جمع آوری حجم عظیمی از داده های ساختیافته، نیمه ساختیافته و غیر ساختیافته است که سیستمهای بانک اطلاعاتی معمول به تنهایی قادر به نگهداری و پردازش آنها نیستند. در مقاله مقدمه ای بر علم داده ها به این نکته اشاره کردم که وظایف مهندسین داده ها انجام می دهند از کاری که در علم داده ها انجام می شود کاملا مجزا است، در علم داده ها بیشتر بر روی آنالیز، پیش بینی و مصورسازی داده ها تاکید می شود. صرف نظر از این تمایز، در فرآیند تجزیه و تحلیل داده ها، هنگامی که یک دانشمند داه ها مشغول جمع آوری، پرس و جوی اطلاعات و استفاده از داد ها است، کاری مشابه مهندس داده ها انجام می دهد. اگر چه ممکن است بینشهای ارزشمندی از یک منبع داده ها بدست آید، اما در اغلب موارد با ترکیب چندین منبع مرتبط می توان تصمیمات مبتنی بر داده های بهتری را اخذ نمود. یک دیتا ساینتیست (Data Scientist) می تواند با چندین مجموع داده ها که در یک بانک اطلاعاتی (Database) یا حتی چندین انبار داده های مختلف ذخیره گردیده اند کار کند. امروزه اغلب مهندسین و دانشمندان داده ها بر روی داده هایی که بر روی بسترهای مبتنی بر ابر ذخیره گردیده اند کارهای پردازشی انجام می دهند. اساسا مهم نیست داده ها چگونه با یکدیگر ترکیب شده ه اند یا کجا ذخیره شده اند، اگر می خواهید کار دیتا ساینس انجام دهید همواره باید داده ها را پرس و جو (Query) کنید، پرس و جو یعنی نوشتن دستوراتی که مجموعه داده های دلخواه (Datasets) شما را از سیستم ذخیره سازی داده ها واکشی نماید. در اغلب این مواقع به زبان پرس و جوی ساختیافته (Structured Query Language) یا SQL برای پرس و جوی داده ها نیاز دارید. خواه از برنامه های کاربردی استفاده کنید یا تحلیل های دلخواهتان را با استفاده از زبانهای برنامه نویسی همچون Python یا R انجام دهید، شما می توانید از تعداد مشخصی فرمت های فایل که توسط جامعه جهانی پذیرفته شده اند، استفاده نمایید.

  • فایلهای CSV (Comma-Separated Values): اغلب برنامه های کاربردی که به منظور تحلیل داده ها بکار می روند از این فرمت فایل پشتیبانی می کنند، همچنین زبانهای برنامه نویسی کتابخانه هایی برای پشتیبانی از این فایلها دارند.
  • اسکریپت ها: اغلب دانشمندان داده کار با زبانهای برنامه نویسی R و Python را به منظور تحلیل و مصور سازی داده ها می دانند. این فایلهای اسکریپت به پسوندهای .r و .py ختم می شوند.
  • فایلهای برنامه های کاربردی: Excel یک ابزار بسیار مفید برای تحلیل سریع و آسان مجموعه داده های کوچک تا متوسط است. نرم افزارهایی مانند ArcGIS و QGIS برای تحلیل داده های جغرافیایی بکار می روند و فرمت فایلهای مخصوص به خود را دارند.
  • فایلهای برنامه نویسی وب: در صورتی که میخواهید تصویرسازی داده ها را با داده های مبتنی بر وب انجام دهید، ممکن است بخواهید با کتابخانه جاوااسکریپتی مانند D3.js کار کنید. خروجی کاری که با D3.js انجام می دهید در یک فایل html ذخیره می شود.

درباره نویسنده

محمدمهدی لطفی نژاد

ارسال دیدگاه

نوشته‌های تازه

آخرین دیدگاه‌ها

بایگانی

دسته‌ها

اطلاعات