اصطلاح دیتا ساینس (Data science) یا علم داده اولین بار در دهه 1960 میلادی معرفی شد، دانشی که قرار بود به تجزیه و تحلیل دادههای محدود آن دوران کمک کند. بنیانگذاران دیتا ساینس هیچ تخمینی از حجم دادههایی که قرار است در 50 سال آینده تولید شود نداشتند؛ آنان هیچگاه تصور نمیکردند دیتا ساینس تا این اندازه به توسعه علم آیندگان کمک کند.
معنی لغوی این واژه در زبان فارسی «علم داده» است و به دانشی اشاره دارد که به انسان در فهم و تفسیر حجم دادهها در حوزههای متنوع کمک میکند. امروزه علم داده در کنار علوم کامپیوتر و دانش آمار در حال توسعه است و تاکنون توانسته بینشها و پیشبینیهای ارزندهای را برای بشریت به ارمغان بیاورد؛ از معروفترین حوزههای فعالیت دیتا ساینس میتوان به علوم پزشکی، کسبوکار، صنایع نظامی، ستاره شناسی، علم ریاضیات و… اشاره کرد. با آموزشگاه مهندسی کندو همراه باشید.
آمار و نقش آن در دیتا ساینس
دیتا ساینس وابستگی عمیقی به دانش آمار و مدلهای آماری دارد. پایههای این دانش با علم آمار و محاسبات ریاضی شکل گرفت و طی سالها توسعه مداوم، به خلق پیشرفتهترین فناوریهای روز دنیا نظیر هوش مصنوعی، یادگیری ماشین و اینترنت اشیا منجر شد.
با گسترش علم داده در حوزه کسبوکار، اطلاعات مشتریان به شکل گستردهای در دستهبندی مختلف نظیر رفتار و روندهای خرید جمعآوری شد؛ پس از آن، با توسعه اینترنت و ظهور فناوری اینترنت اشیا، حجم اطلاعات دریافتی در شرکتهای بزرگ با رشد چشمگیری روبهرو شد. سیلی از اطلاعات به سوی کسبوکارها روانه شد و مفهوم کلان داده یا Big data نیز بر همین اساس ایجاد شد.
شرکتهای بزرگ با استفاده از کلان دادهها و دیتا ساینس توانستند سود خود را افزایش دهند و تصمیمات بهتری اتخاذ کنند؛ این پیشرفتها دلیلی شد تا دانشمندان حوزههای مختلفی نظیر پزشکی، مهندسی و علوم اجتماعی نیز به فکر استخراج کلان دادهها و تحلیل آنها با دیتا ساینس بیافتند.
متخصص دیتا ساینس کیست؟
بسیاری تصور میکنند متخصصان علم داده همان دانشمندان آمار هستند؛ در حالی که تفاوتهای بزرگی بین متخصصان این دو حوزه وجود دارد. یک دانشمند علم داده بر خلاف آماردانها، درک خوبی از معماری نرم افزار دارد و معمولا با چندین زبان یادگیری برنامه نویسی آشنایی دارد (حداقل یک زبان برنامه نویسی و یک زبان کوئری).
متخصصان داده ضمن شناسایی و تعریف مشکلات یک حوزه، منابع و ویژگیهای کلیدی اطلاعات آن حوزه را شناسایی میکنند؛ آنگاه چهارچوبی برای استخراج و نمایش دادههای مورد نیاز طراحی میکنند.
مهندسان داده معمولا از نرم افزار برای استخراج دادهها از پایگاه داده، پردازش و مدلسازی آماری استفاده میکنند. از زبانهای کوئری نظیر اس کیو ال برای استخراج داده از دیتابیس و زبانهای برنامه نویسی نظیر آموزش زبان برنامه نویسی پایتون برای پردازش و مدلسازی دادهها استفاده میشود.
هدف غایی متخصصان علم داده این است که با استفاده از اصول دیتا ساینس و الگوریتمهای آن، بینشی عمیق از اطلاعات پیشرو کسب کنند.
تاریخچه دیتا ساینس
حال که با مفاهیم ابتدایی علم داده آشنا شدید، زمان آشنایی با تاریخچه آن است. برای معرفی تاریخچه این دانش میتوان رویدادهای بیشماری را بیان کرد؛ ما در اینجا تلاش خواهیم کرد با معرفی مهمترین رویدادهای این حوزه، تاریخچه دیتا ساینس را به شیوه خط زمانی (TimeLine) توضیح دهیم.
سال 1962 میلادی، جان تاکی مقالهای با عنوان «آیندهی دادهکاوی» (The Future of Data Analysis) را منتشر کرد که در آن به تحولی در آیندۀ دنیای آمار اشاره داشت. وی اذعان کرد: «… هنگامی که من توسعه علم آمار را مشاهده میکردم، دلیلی برای تحیر و شک داشتم… من به این احساس رسیدهام که علاقه حقیقی من در دادهکاوی است.”
جالب است بدانید تاکی زمانی به ادغام علم آمار با فناوری کامپیوتر اشاره کرد که کامپیوترها برای اولین بار به منظور حل مشکلات ریاضی و کار با آمار مورد استفاده قرار گرفته بودند.
سال 1974، فردی به نام پیتر ناوِر کتاب «بررسی مختصر روشهای کامپیوتری» را تالیف کرد. وی در کتاب خود بارها از اصطلاح دیتا ساینس استفاده کرد و تعاریف پیچیده و جدیدی را در این حوزه ارائه داد. ناور در بخش از کتاب خود میگوید:
“سودمندی دادهها و فرآیندهای داده از کاربرد آنها در ساخت و مدیریت مدلهای واقعی نشات گرفته است.”
سال 1977، انجمن بینالمللی محاسبات آماری (IASC) تشکیل شد. ماموریت این انجمن در طی اولین بیانیه آن، اینچنین اعلام شد: «ماموریت انجمن IASC این است که روشهای سنتی آمار را به تکنولوژیهای کامپیوتری مدرن و دانش کارشناسان این حوزه پیوند بزند تا از این طریق دادهها را به اطلاعات و دانش تبدیل کند.»
در همین سال، جان تاکی دومین مقاله خود را با عنوان «دادهکاوی اکتشافی» منتشر کرد؛ وی در این مقاله به اهمیت استفاده از دیتا برای انتخاب فرضیههای مناسب برای آزمایش پرداخت؛ او همچنین معتقد بود که دادهکاوی تائیدی و دادهکاوی اکتشافی باید در کنار یکدیگر مورد استفاده قرار گیرند.
سال 1989، دانش اکتشاف از پایگاههای داده شکل گرفت. این دانش در کنفرانس ACM SIGKDD درباب اکتشاف دانش و استخراج داده به تکامل رسید؛ کنفرانسی که به صورت یک کارگاه برگزار شد.
سال 1994، نشریه اقتصادی Business Week مقالهای را با عنوان «بازاریابی پایگاه داده» منتشر کرد. متن عجیب این مقاله حاکی از آن بود که کمپینهای جدیدی به منظور جمعآوری حجم زیادی از اطلاعات افراد جامعه آغاز شدهاند؛ هدف نهایی آنها نیز آغاز یک کمپین نوآورانه بازاریابی است. چنین حجمی از اطلاعات در بهترین حالت مدیران بسیاری از کمپانیها را سردرگم میکرد؛ آنان باید با استفاده از این حجم عظیم اطلاعات که عموماً ارتباط خاصی بایکدیگر نداشتند، تصمیمگیری میکردند.
سال 1991، جیکوب زهوی با اشاره به اینکه برای مدیریت کلان دادهها نیاز به ابزار جدیدی وجود دارد، در مقالهای خود با عنوان Mining Data for Nuggets of Knowledge نوشت:
«مقیاس پذیری یک مسئله بزرگ در استخراج دادههاست… روشهای آماری مرسوم برای حجم اندکی از اطلاعات مناسب هستند؛ با این حال، پایگاههای داده در دنیای امروز شامل میلیونهای ردیف و تعداد زیادی ستونهای اطلاعاتی هستند… دیگر چالش فنی، توسعه روشهایی است که بتوانند در تجزیه و تحلیل کلان دادهها بهتر عمل کنند؛ به طوری که روابط غیرخطی و ارتباط بین عناصر مختلف را تشخیص دهند… ابزارهای استخراج داده ممکن است برای رسیدگی به تصمیمات وبسایتها مجبور به توسعه باشند.»
سال 2001، سیستم SaaS ایجاد شد که پیش آمدی بر قابلیتهای استفاده از فضای ابری بود.
در همین سال پروفسور ویلیام کلیوند، برنامههایی برای آموزش دیتا ساینس به متخصصان مطابق با نیازهای آینده ارائه کرد. او یک برنامه عملیاتی با عنوان «علم داده: یک برنامه عملیاتی برای گسترش حوزههای فنی علم آمار» ارائه داد؛ کلیوند در این برنامه چگونگی گسترش تجربیات فنی و محدوده دادهکاوی را توضیح داد. طرح او برای تحقیقات دولتی و شرکتی نیز کاربرد داشت.
سال 2002، کمیته علوم داده و تکنولوژی، انتشار نشریه دیتا ساینس را آغاز کرد. این نشریه بر مسائلی نظیر تعریف سیستمهای داده، انتشار آنها در اینترنت، کاربردها و مسائل حقوقی تمرکز داشت. مقالات مجله دیتا ساینس توسط ویراستاران و دستورالعملهای ویژهای تائید شده بودند.
سال 2006، هادوپ 0.1.0 به عنوان اولین پایگاه داده منبع باز منتشر شد. هادوپ بر پایه Nouch و دیگر پایگاههای داده اوپن سورس بنیانگذاری شده بود. این نرمافزار دو مشکل اصلی متخصصان علوم داده را با کلان دادهها برطرف کرد؛ اول ذخیره سازی حجم عظیمی از اطلاعات و سپس تجزیه و تحلیل دادههای ذخیره شده. درحالحاضر، آپاچی هادوپ یک کتابخانه نرم افزاری منبع باز است که به کاربران اجازه جستوجو در کلان دادهها را میدهد.
سال 2008، عنوان «متخصص داده» به یک کلمه رایج و یک لغت رسمی تبدیل شد. دی جی پاتیل و جف هامرباخر استفاده از این کلمه را به ترتیب در لینکدین و فیس بوک آغاز کردند.
سال 2011، تقاضای شغلی برای متخصصان داده 1500 درصد افزایش یافت. این افزایش درمورد سمینارها و کنفرانسهای مربوط به این حوزه نیز صادق بود که عموما با محوریت دیتا ساینس و کلان داده برگزار میشدند. دیتا ساینس خود را عنوان منبعی سودآور معرفی کرده بود و در بزرگترین شرکتهای جهان استفاده میشد.
در همین سال جیمز دیکسون، مدیر ارشد فناوری شرکت Pentaho مفهوم دریاچههای داده را به عنوان جایگزینی برای انبارهای داده معرفی کرد. او تفاوتی میان انبار داده و دریاچه داده تعیین کرد؛ در حالی که انبارهای داده، اطلاعات را پیش از ورود دستهبندی میکردند، دیکسون این کار را هدر دادن وقت و انرژی میدانست؛ پس دریاچههای داده را معرفی کرد که با استفاده از پایگاههای غیرارتباطی و بدون نیاز به دستهبندی، دادهها را دریافت و به شکل بسیار سادهتری ذخیره میکردند.
سال 2012، دانشگاه هاروارد شغل متخصص داده را به عنوان جذابترین شعل قرن 21 اعلام کرد.
سال 2013، IBM آماری را به اشتراک گذاشت که نشانگر یک نتیجه خارق العاده بود؛ 90% دادههای جهان تنها طی دوسال گذشته تولید و ذخیرهسازی شده بود.
سال 2015، سیستم تشخیص صدای گوگل با استفاده از فناوری یادگیری عمیق، جهش عملکرد 49% را ثبت کرد که در نوع خودش منحصربهفرد بود.
در همین سال، جَک کلارک از بلومبرگ نوشت: سالی برجسته برای هوش مصنوعی رقم خورد؛ پروژههای نرم افزاری گوگل با استفاده از این تکنولوژی به 2700 پروژه افزایش یافت.
دیتا ساینس در دنیای امروز
در طی 30 سال گذشته علم داده به طرز چشمگیری رشد کرده و بسیاری از کسبوکارها و سازمانهای جهان را در برگرفته است. دیتا ساینس امروزه توسط دولتمردان، متخصصان ژنتیک، مهندسان و حتی ستارهشناسان مورد استفاده قرار میگیرد. بکارگیری کلان دادهها در طی توسعه علم داده را نمیتوان به آسانی یک «افزایش مقیاس» تلقی کرد؛ بلکه باید آن را تغییر رویکرد سیستمی در تجزیه و تحلیل دادهها دانست.
دیتا ساینس به بخش مهمی از کسبوکار و تحصیلات آکادمیک تبدیل شده است. از نظر فنی، این دانش شامل تفسیر ماشین، رباتیک، تشخیص گفتار، صنایع دیجیتال و موتورهای جستوجو است. از نظر حوزههای تحقیقاتی نیز علم داده به دانش بیولوژیک، حوزه سلامت، اطلاعات پزشکی، علوم انسانی و علوم اجتماعی ورود پیدا کرده است و به طور مستقیم بر صنعت، دولت، کسبوکار و حوزه مالی تاثیر میگذارد.
محض کنجکاوی باید بدانید که دیتا ساینس میتواند تاثیرات مخربی نیز داشته باشد. با توسعه این دانش و استفاده از آن در صنایع مختلف به جای نیروی کار، اگرچه ریسک اشتباهات کاهش مییابد و فعالیتها به شکل دقیقتر و درستتری انجام میشوند؛ اما مسئله اینجاست که با حذف نیروی انسانی، تکلیف خلاقیت منحصربهفرد انسانها چه میشود؟ اصلیترین عاملی که تا به امروز باعث پیشرفت بشر شده و حتی خود دیتا ساینس نیز وجودش را مرهون آن است.
به عبارت دیگر، اگرچه پیشرفت علم داده و هوش مصنوعی موجب فعالیت محافظهکارانه شرکتها خواهد شد؛ اما میتواند جلوی پیشرفت واقعی که حاصل از جسارت و خطرپذیری ذاتی انسان است را بگیرد. اسکات هافمن از گوگل میگوید:
«یکی از موضوعاتی که ما وقت زیادی صرف گفت و گو درباره آن کردیم، این بود که چگونه از نیاز خود به پیشرفتهای بزرگ محافظت کنیم. این مسئله بسیار دشوار است؛ اگرچه ابزارهای آزمایشی جدید برای مهندسان تیم بسیار جذاب هستند، اما آنها را به سمت تغییرات کوچک و محافظهکارانه سوق میدهد. مشکل اینجاست که ما هم این تغییرات کوچک را میخواهیم و هم به جهشهای بزرگ نیاز داریم.»
منابع: