تاریخچه دیتاساینس از آغاز تا کنون |کندو

اصطلاح دیتا ساینس (Data science) یا علم داده اولین بار در دهه 1960 میلادی معرفی شد، دانشی که قرار بود به تجزیه و تحلیل داده‌های محدود آن دوران کمک کند. بنیان‌گذاران دیتا ساینس هیچ تخمینی از حجم داده‌هایی که قرار است در 50 سال آینده تولید شود نداشتند؛ آنان هیچ‌گاه تصور نمی‌کردند دیتا ساینس تا این اندازه به توسعه علم آیندگان کمک کند.

معنی لغوی این واژه در زبان فارسی «علم داده» است و به دانشی اشاره دارد که به انسان در فهم و تفسیر حجم داده‌ها در حوزه‌های متنوع کمک می‌کند. امروزه علم داده در کنار علوم کامپیوتر و دانش آمار در حال توسعه است و تاکنون توانسته بینش‌ها و پیش‌بینی‌های ارزنده‌ای را برای بشریت به ارمغان بیاورد؛ از معروف‌ترین حوزه‌های فعالیت دیتا ساینس می‌توان به علوم پزشکی، کسب‌وکار، صنایع نظامی، ستاره شناسی، علم ریاضیات و… اشاره کرد. با آموزشگاه مهندسی کندو همراه باشید.

آمار و نقش آن در دیتا ساینس

دیتا ساینس وابستگی عمیقی به دانش آمار و مدل‌های آماری دارد. پایه‌های این دانش با علم آمار و محاسبات ریاضی شکل گرفت و طی سال‌ها توسعه مداوم، به خلق پیشرفته‌ترین فناوری‌های روز دنیا نظیر هوش مصنوعی، یادگیری ماشین و اینترنت اشیا منجر شد.

با گسترش علم داده در حوزه کسب‌وکار، اطلاعات مشتریان به شکل گسترده‌ای در دسته‌بندی مختلف نظیر رفتار و روندهای خرید جمع‌آوری شد؛ پس از آن، با توسعه اینترنت و ظهور فناوری اینترنت اشیا، حجم اطلاعات دریافتی در شرکت‌های بزرگ با رشد چشمگیری روبه‌رو شد. سیلی از اطلاعات به سوی کسب‌وکارها روانه شد و مفهوم کلان داده یا Big data نیز بر همین اساس ایجاد شد.

شرکت‌های بزرگ با استفاده از کلان داده‌ها و دیتا ساینس توانستند سود خود را افزایش دهند و تصمیمات بهتری اتخاذ کنند؛ این پیشرفت‌ها دلیلی شد تا دانشمندان حوزه‌های مختلفی نظیر پزشکی، مهندسی و علوم اجتماعی نیز به فکر استخراج کلان داده‌ها و تحلیل آن‌ها با دیتا ساینس بیافتند.

متخصص دیتا ساینس کیست؟

بسیاری تصور می‌کنند متخصصان علم داده همان دانشمندان آمار هستند؛ در حالی که تفاوت‌های بزرگی بین متخصصان این دو حوزه وجود دارد. یک دانشمند علم داده بر خلاف آماردان‌ها، درک خوبی از معماری نرم افزار دارد و معمولا با چندین زبان یادگیری برنامه نویسی آشنایی دارد (حداقل یک زبان برنامه نویسی و یک زبان کوئری).

متخصصان داده ضمن شناسایی و تعریف مشکلات یک حوزه، منابع و ویژگی‌های کلیدی اطلاعات آن حوزه را شناسایی می‌کنند؛ آنگاه چهارچوبی برای استخراج و نمایش داده‌های مورد نیاز طراحی می‌کنند.

مهندسان داده معمولا از نرم افزار برای استخراج داده‌ها از پایگاه داده، پردازش و مدلسازی آماری استفاده می‌کنند. از زبان‌های کوئری نظیر اس کیو ال برای استخراج داده از دیتابیس و زبان‌های برنامه نویسی نظیر آموزش زبان برنامه نویسی پایتون برای پردازش و مدلسازی داده‌ها استفاده می‌شود.

هدف غایی متخصصان علم داده این است که با استفاده از اصول دیتا ساینس و الگوریتم‌های آن، بینشی عمیق از اطلاعات پیش‌رو کسب کنند.

تاریخچه دیتا ساینس

حال که با مفاهیم ابتدایی علم داده آشنا شدید، زمان آشنایی با تاریخچه آن است. برای معرفی تاریخچه این دانش می‌توان رویدادهای بیشماری را بیان کرد؛ ما در اینجا تلاش خواهیم کرد با معرفی مهم‌ترین رویدادهای این حوزه، تاریخچه دیتا ساینس را به شیوه خط زمانی (TimeLine) توضیح دهیم.

سال 1962 میلادی، جان تاکی مقاله‌ای با عنوان «آینده‌ی داده‌کاوی» (The Future of Data Analysis) را منتشر کرد که در آن به تحولی در آیندۀ دنیای آمار اشاره داشت. وی اذعان کرد: «… هنگامی که من توسعه علم آمار را مشاهده می‌کردم، دلیلی برای تحیر و شک داشتم… من به این احساس رسیده‌ام که علاقه حقیقی من در داده‌کاوی است.”

جالب است بدانید تاکی زمانی به ادغام علم آمار با فناوری کامپیوتر اشاره کرد که کامپیوترها برای اولین بار به منظور حل مشکلات ریاضی و کار با آمار مورد استفاده قرار گرفته بودند.

سال 1974، فردی به نام پیتر ناوِر کتاب «بررسی مختصر روش‌های کامپیوتری» را تالیف کرد. وی در کتاب خود بارها از اصطلاح دیتا ساینس استفاده کرد و تعاریف پیچیده و جدیدی را در این حوزه ارائه داد. ناور در بخش از کتاب خود می‌گوید:

“سودمندی داده‌‌ها و فرآیندهای داده از کاربرد آن‌ها در ساخت و مدیریت مدل‌های واقعی نشات گرفته است.”

سال 1977، انجمن بین‌المللی محاسبات آماری (IASC) تشکیل شد. ماموریت این انجمن در طی اولین بیانیه آن، این‌چنین اعلام شد: «ماموریت انجمن IASC این است که روش‌های سنتی آمار را به تکنولوژی‌های کامپیوتری مدرن و دانش کارشناسان این حوزه پیوند بزند تا از این طریق داده‌ها را به اطلاعات و دانش تبدیل کند.»

در همین سال، جان تاکی دومین مقاله خود را با عنوان «داده‌کاوی اکتشافی» منتشر کرد؛ وی در این مقاله به اهمیت استفاده از دیتا برای انتخاب فرضیه‌های مناسب برای آزمایش پرداخت؛ او همچنین معتقد بود که داده‌کاوی تائیدی و داده‌کاوی اکتشافی باید در کنار یکدیگر مورد استفاده قرار گیرند.

سال 1989، دانش اکتشاف از پایگاه‌های داده شکل گرفت. این دانش در کنفرانس ACM SIGKDD درباب اکتشاف دانش و استخراج داده به تکامل رسید؛ کنفرانسی که به صورت یک کارگاه برگزار شد.

سال 1994، نشریه اقتصادی Business Week مقاله‌ای را با عنوان «بازاریابی پایگاه داده» منتشر کرد. متن عجیب این مقاله حاکی از آن بود که کمپین‌های جدیدی به منظور جمع‌آوری حجم زیادی از اطلاعات افراد جامعه آغاز شده‌اند؛ هدف نهایی آن‌ها نیز آغاز یک کمپین نوآورانه بازاریابی است. چنین حجمی از اطلاعات در بهترین حالت مدیران بسیاری از کمپانی‌ها را سردرگم می‌کرد؛ آنان باید با استفاده از این حجم عظیم اطلاعات که عموماً ارتباط خاصی بایکدیگر نداشتند، تصمیم‌گیری می‌کردند.

سال 1991، جیکوب زهوی با اشاره به اینکه برای مدیریت کلان داده‌ها نیاز به ابزار جدیدی وجود دارد، در مقاله‌ای خود با عنوان Mining Data for Nuggets of Knowledge نوشت:

«مقیاس پذیری یک مسئله بزرگ در استخراج داده‌هاست… روش‌های آماری مرسوم برای حجم اندکی از اطلاعات مناسب هستند؛ با این حال، پایگاه‌های داده در دنیای امروز شامل میلیون‌های ردیف و تعداد زیادی ستون‌های اطلاعاتی هستند… دیگر چالش فنی، توسعه روش‌هایی است که بتوانند در تجزیه و تحلیل کلان داده‌ها بهتر عمل کنند؛ به طوری که روابط غیرخطی و ارتباط بین عناصر مختلف را تشخیص دهند… ابزارهای استخراج داده ممکن است برای رسیدگی به تصمیمات وب‌سایت‌ها مجبور به توسعه باشند.»

سال 2001، سیستم SaaS ایجاد شد که پیش آمدی بر قابلیت‌های استفاده از فضای ابری بود.

در همین سال پروفسور ویلیام کلیوند، برنامه‌هایی برای آموزش دیتا ساینس به متخصصان مطابق با نیازهای آینده ارائه کرد. او یک برنامه عملیاتی با عنوان «علم داده: یک برنامه عملیاتی برای گسترش حوزه‌های فنی علم آمار» ارائه داد؛ کلیوند در این برنامه چگونگی گسترش تجربیات فنی و محدوده داده‌کاوی را توضیح داد. طرح او برای تحقیقات دولتی و شرکتی نیز کاربرد داشت.

سال 2002، کمیته علوم داده و تکنولوژی، انتشار نشریه دیتا ساینس را آغاز کرد. این نشریه بر مسائلی نظیر تعریف سیستم‌های داده، انتشار آن‌ها در اینترنت، کاربردها و مسائل حقوقی تمرکز داشت. مقالات مجله دیتا ساینس توسط ویراستاران و دستورالعمل‌های ویژه‌ای تائید شده بودند.

سال 2006، هادوپ 0.1.0 به عنوان اولین پایگاه داده منبع باز منتشر شد. هادوپ بر پایه Nouch و دیگر پایگاه‌های داده اوپن سورس بنیانگذاری شده بود. این نرم‌افزار دو مشکل اصلی متخصصان علوم داده را با کلان داده‌ها برطرف کرد؛ اول ذخیره سازی حجم عظیمی از اطلاعات و سپس تجزیه و تحلیل داده‌های ذخیره شده. درحال‌حاضر، آپاچی هادوپ یک کتابخانه نرم افزاری منبع باز است که به کاربران اجازه جست‌وجو در کلان داده‌ها را می‌دهد.

سال 2008، عنوان «متخصص داده» به یک کلمه رایج و یک لغت رسمی تبدیل شد. دی جی پاتیل و جف هامرباخر استفاده از این کلمه را به ترتیب در لینکدین و فیس بوک آغاز کردند.

سال 2011، تقاضای شغلی برای متخصصان داده 1500 درصد افزایش یافت. این افزایش درمورد سمینارها و کنفرانس‌های مربوط به این حوزه نیز صادق بود که عموما با محوریت دیتا ساینس و کلان داده برگزار می‌شدند. دیتا ساینس خود را عنوان منبعی سودآور معرفی کرده بود و در بزرگ‌ترین شرکت‌های جهان استفاده می‌شد.

در همین سال جیمز دیکسون، مدیر ارشد فناوری شرکت Pentaho مفهوم دریاچه‌های داده را به عنوان جایگزینی برای انبارهای داده معرفی کرد. او تفاوتی میان انبار داده و دریاچه داده تعیین کرد؛ در حالی که انبارهای داده، اطلاعات را پیش از ورود دسته‌بندی می‌کردند، دیکسون این کار را هدر دادن وقت و انرژی می‌دانست؛ پس دریاچه‌های داده را معرفی کرد که با استفاده از پایگاه‌های غیرارتباطی و بدون نیاز به دسته‌بندی، داده‌ها را دریافت و به شکل بسیار ساده‌تری ذخیره می‌کردند.

سال 2012، دانشگاه هاروارد شغل متخصص داده را به عنوان جذاب‌ترین شعل قرن 21 اعلام کرد.

سال 2013، IBM آماری را به اشتراک گذاشت که نشانگر یک نتیجه خارق العاده بود؛ 90% داده‌های جهان تنها طی دوسال گذشته تولید و ذخیره‌سازی شده بود.

سال 2015، سیستم تشخیص صدای گوگل با استفاده از فناوری یادگیری عمیق، جهش عملکرد 49% را ثبت کرد که در نوع خودش منحصربه‌فرد بود.

در همین سال، جَک کلارک از بلومبرگ نوشت: سالی برجسته برای هوش مصنوعی رقم خورد؛ پروژه‌های نرم افزاری گوگل با استفاده از این تکنولوژی به 2700 پروژه افزایش یافت.

دیتا ساینس در دنیای امروز

در طی 30 سال گذشته علم داده به طرز چشمگیری رشد کرده و بسیاری از کسب‌وکارها و سازمان‌های جهان را در برگرفته است. دیتا ساینس امروزه توسط دولت‌مردان، متخصصان ژنتیک، مهندسان و حتی ستاره‌شناسان مورد استفاده قرار می‌گیرد. بکارگیری کلان داده‌ها در طی توسعه علم داده را نمی‌توان به آسانی یک «افزایش مقیاس» تلقی کرد؛ بلکه باید آن را تغییر رویکرد سیستمی در تجزیه و تحلیل داده‌ها دانست.

دیتا ساینس به بخش مهمی از کسب‌وکار و تحصیلات آکادمیک تبدیل شده است. از نظر فنی، این دانش شامل تفسیر ماشین، رباتیک، تشخیص گفتار، صنایع دیجیتال و موتورهای جست‌وجو است. از نظر حوزه‌های تحقیقاتی نیز علم داده به دانش بیولوژیک، حوزه سلامت، اطلاعات پزشکی، علوم انسانی و علوم اجتماعی ورود پیدا کرده است و به طور مستقیم بر صنعت، دولت، کسب‌وکار و حوزه مالی تاثیر می‌گذارد.

محض کنجکاوی باید بدانید که دیتا ساینس می‌تواند تاثیرات مخربی نیز داشته باشد. با توسعه این دانش و استفاده از آن در صنایع مختلف به جای نیروی کار، اگرچه ریسک اشتباهات کاهش می‌یابد و فعالیت‌ها به شکل دقیق‌تر و درست‌تری انجام می‌شوند؛ اما مسئله اینجاست که با حذف نیروی انسانی، تکلیف خلاقیت منحصربه‌فرد انسان‌ها چه می‌شود؟ اصلی‌ترین عاملی که تا به امروز باعث پیشرفت بشر شده و حتی خود دیتا ساینس نیز وجودش را مرهون آن است.

به عبارت دیگر، اگرچه پیشرفت علم داده و هوش مصنوعی موجب فعالیت محافظه‌کارانه شرکت‌ها خواهد شد؛ اما می‌تواند جلوی پیشرفت واقعی که حاصل از جسارت و خطرپذیری ذاتی انسان است را بگیرد. اسکات هافمن از گوگل می‌گوید:

«یکی از موضوعاتی که ما وقت زیادی صرف گفت و گو درباره آن کردیم، این بود که چگونه از نیاز خود به پیشرفت‌های بزرگ محافظت کنیم. این مسئله بسیار دشوار است؛ اگرچه ابزارهای آزمایشی جدید برای مهندسان تیم بسیار جذاب هستند، اما آن‌ها را به سمت تغییرات کوچک و محافظه‌کارانه سوق می‌دهد. مشکل اینجاست که ما هم این تغییرات کوچک را می‌خواهیم و هم به جهش‌های بزرگ نیاز داریم.»

منابع:

A Brief History of Data Science

دیتا ساینس از آغاز تاکنون

آنچه در این مطلب می‌خوانید:

دیتا ساینس از آغاز تاکنون

آمار و نقش آن در دیتا ساینس

متخصص دیتا ساینس کیست؟

تاریخچه دیتا ساینس

دیتا ساینس در دنیای امروز

اشتراک گذاری

علی وکیلی

تماس از تهران

تماس از شهرستان‌