مدتهاست که ما در دریایی از داده هایی که توسط کامپیوترها، ابزارهای موبایل، دوربینهای دیجیتال، انواع سنسورها، و حتی ساعتهای هوشمند و دیگر انواع فناوریهای پوشیدنی تولید می شوند، غرق شده ایم. در هر تعاملی که با دنیای مجازی همچون شبکه های اجتماعی داریم و یا فایلی که بر روی کامپیوتر ذخیره میکنیم، عکس هایی که با دوربینهای دیجیتال میگیریم، و هر پرس و جویی که به بانکهای اطلاعاتی یا موتورهای جستجو ارسال میکنیم، در حقیقت در حال تولید داده ها هستیم.
اگر چه غوطه ور شدن در دریایی از داده ها چیز جدیدی نیست، ممکن است متوجه شده باشید که این پدیده در حال سرعت گرفتن است. سونامی داده ها ی ساختیافته و غیرساختیافته، سیلی را به راه انداخته که دنیای مجازی و حقیقی ما را دگرگون کرده است و ما را به عصر جدیدی بنام Big Data وارد کرده است.
سوالی که در اینجا مطرح می شود، این است که دلیل تولید این همه داده چیست؟ چرا باید منابع با ارزش مان را برای تولید و جمع آوری داده ها بکار ببریم؟ اگر چه کمی بیش از یک دهه پیش در موقعیتی نبودیم که از حجم انبوهی از این داده های تولید شده، استفاده نماییم، اما امروزه خیلی چیزها تغییر کرده است. متخصصینی که ما آنان را مهندس داده -Data Engineers- می نامیم پیوسته راه های جدید و نوآورانه ای را برای یافتن منابع داده ها، جمع آوری آن و متراکم سازی حجم انبوهی از داده ها را بکار میبرند تا اینکه متخصصان دیگری که دانشمند داده -Data Scientist- نامیده می شوند از این داده ها بینش های-insights- کاربردی و ارزشمندی استخراج نموده که منجر به ایجاد تحول در سازمانها و کسب و کارها گردند.
شاید بتوان گفت، علم داده ها -Data Science- علم بهینه سازی فرآیندها و منابع است. دیتاساینس با استخراج بینش از داده ها به ما کمک میکند تا تصمیمات مبتنی بر داده ها اتخاذ نماییم و یا پیش بینی هایی نماییم که به فهم بهتر و توسعه کسب و کار، سرمایه گزاری، سلامت و حتی سبک زندگی فردی و اجتماعی مان کمک نماید. بکارگیری این بینش ها را میتوان به قابلیت دید در تاریکی تشبیه کرد.
فارغ از اینکه برای چه منظوری از دیتاساینس استفاده میکنیم، میتوان آن را مجموعه ای از روش های علمی دانست که به پیش بینی بهترین مسیر از جایی که هستیم به جایی که باید باشیم و همچنین موانعی که در این مسیر وجود دارد، کمک می نماید.