ریاضیات را میتوان سنگ بنای همه رشتههای علوم معاصر دانست به طوری که امروزه همه روشهای علم داده مدرن مانند یادگیری ماشین (Machine Learning) دارای زیرساخت عمیقی از ریاضیات هستند. البته که یک دانشمند در زمینه علوم داده باید بر مهارتهایی دیگر مانند برنامهنویسی و قدرت داوری در مورد مسائل تجاری تسلط داشته و همچنین برای رشد در این حوزه دارای ذهنیت منحصر به فرد تحلیل و کاوشگرانه در مورد دادهها باشد. با توجه به این که کسب اطلاع از زیرساختهای دانش هزینههای زیادی در بر دارد، کسب اطلاع از سازوکارهای ریاضی برای علم داده باعث میشود که یک فرد در مقایسه با همکاران خود در رده بالاتری قرار بگیرد. با این مطلب از بلاگ آموزشگاه مهندسی کندو همراه باشید.
اهمیت ریاضی برای علم داده چیست؟
اهمیت ریاضی برای علم داده برای افرادی که به تازگی، به خصوص از سایر رشتهها وارد این حوزه میشوند، بسیار زیاد است. با اینکه افراد تحصیل کرده در سایر رشتهها برای فعالیت در علم داده به مهارت در زمینه کار با نرمافزارهای صفحه گسترده، محاسبات عددی و سایر موارد نیاز دارند اما مهارت ریاضی برای علم داده (Data Science) ماهیت کاملا متفاوتی دارد.
در علوم کامپیوتر تأکید اصلی بر روی استفاده از دادهها به منظور رفع یک نیاز فوری است و معمولا کاوش عمیقی صورت نگرفته و به سرعت از آنها عبور میشود اما در علم داده به کاوش عمیق علمی نیاز است. به همین دلیل از ابزارها و تکنیکهای خاصی در این علم استفاده میشود که مختص فرایند علمی هستند:
- مدلسازی فیزیکی یا اطلاعاتی یک فرایند با کاوش دینامیک نهفته آن
- فرضیهسازی
- تخمین در مورد کیفیت منبع داده به صورت مطمئن
- کمیسازی عدم قطعیت در خصوص داده و پیشبینیها
- شناسایی الگوهای پنهان با استفاده از جریان اطلاعات
- درک محدودیتهای یک مدل
- درک اثبات ریاضیاتی و انتزاع منطقی تشکیل دهنده آن
در خصوص ریاضی برای علم داده باید به این موضوع اشاره کرد که علم داده با توجه به ماهیت ذاتی که دارد به یک حوزه موضوعی خاص وابسته نبوده و امکان سر و کار داشتن آن با پدیدههای بسیار متنوع وجود دارد. در ادامه با برخی از موضوعات که برای مطالعه در حوزه علم داده اولویت بیشتری دارند آشنا میشویم.
تابعها، متغیرها، معادلهها و گرافها
این حوزه از ریاضی برای علم داده مباحث مقدماتی از معادله یک خط تا قضیه دو جملهای را در برمیگیرد و شامل موارد زیر است:
- توابع لگاریتم، توابع نمایی، اعداد گویا
- مفاهیم و قضیههای هندسی مقدماتی، مباحث مثلثات
- اعداد حقیقی، مختلط و مشخصات مقدماتی
- سریها، سری هندسی، تصاعد حسابی و نامعادلات
- رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانهای، کروی و مقاطع مخروطی
در خصوص زمینههای کاربرد این حوزه از ریاضی برای علم داده باید گفت برای درک چگونگی جسستجو روی پایگاه داده با چند میلیون آیتم آشنایی با مفاهیم دودویی ضروری است. شناخت لگاریتمها و معادلات بازگشتی برای درک دینامیک این مسئله و تابعهای متناوب و نزول نمایی برای تحلیل سری زمانی الزامی است.
آمار
آگاهی و برخورداری از دانش قوی آمار و ریاضی برای علم داده غیر قابل انکار است. بسیاری از متخصصان یادگیری آماری را برای یادگیری ماشین کلاسیک (بدون شبکه عصبی) الزامی میدانند. از مهمترین مفاهیم ضروری این حوزه میتوان به موارد زیر اشاره کرد:
- آمار توصیفی و جمعبندی دادهها، گرایش به مرکز، واریانس، کوواریانس، همبستگی
- احتمال مقدماتی: ایده مقدماتی، امید ریاضی، حسابان احتمال، قضیه بیز، احتمال شرطی
- تابعهای توزیع احتمال شامل تابع توزیع یکنواخت، نرمال، دوجملهای، کای 2، توزیع t استیودنت و قضیه حد مرکزی
- نمونهگیری، اندازهگیری، خطا، تولید عدد تصادفی
- تست کردن فرضیه، تست A/B، بازههای اطمینان، مقادیر P
- آنووا (ANOVA)، آزمون T
- رگرسیون خطی، منظمسازی (regularization)
در خصوص زمینههای کاربرد این حوزه از ریاضی برای علم داده میتوان به مصاحبههای شغلی اشاره کرد. در صورتی که در مصاحبه نشان دهید بر این مفاهیم مسلط هستید، میتوانید مصاحبه شونده را تحت تأثیر قرار دهید.
جبر خطی
یکی از شاخههای ضروری ریاضی برای علم داده، جبر خطبی است که به منظور درک طرز کار الگوریتمهای یادگیری ماشین به کار گرفته میشود. از پیشنهاد دوستی در فیسبوک گرفته تا توصه موسیقی در اسپاتیفای و غیره با استفاده از یادگیری انتقال عمیق انجام میشود که شامل ماتریسها و جبر خطی است. از مهمترین مفاهیم ضروری در این حوزه میتوان به موارد زیر اشاره کرد:
- مشخصات مقدماتی ماتریس و بردارها: ضرب اسکالر، تبدیل خطی، ترانهاده، مزدوج، رتبه، دترمینان
- ضرب داخلی و خارجی، قاعده دستکاری ماتریس و الگوریتمهای مختلف، معکوس ماتریس
- ماتریسهای خاص: ماتریس مربع، ماتریس همانی، ماتریس مثلثی، ایدههایی در مورد ماتریس خلوت و متراکم، بردارهای یکه، ماتریس متقارن، هرمیتیان، ماتریسهای هرمیتی، هرمیتی اریب و ماتریس یکانی
- مفهوم فاکتورگیری از ماتریس، تجزیه LU، حذف گاوسی، گادئوس-جردن، حل سیستم معادلات خطی Ax=b.
- فضای بردار، پایه، اسپن، تعامد، یکامتعامد بودن، کمترین مربع خطی
- مقدار ویژه، بردار ویژه، قطریسازی، تجزیه مقدار منفرد
در خصوص زمینههای کاربرد این حوزه از ریاضی برای علم داده میتوان به تجزیه مقدار منفرد به منظور دستیابی به بازنمایی ابعادی فشرده مجموعه داده با پارامترهای کمتر اشاره کرد. به طور کلی همه الگوریتمهای مربوط به شبکه عصبی، از تکنیک جبر خطی برای نمایش و پردازش ساختارهای شبکه و عملیات یادگیری استفاده میکنند.
بیشتر بخوانید: آموزش الگوریتم و فلوچارت {راهنمای جامع آموزشی}
حسابان
افراد زیادی عاشق این حوزه ریاضی برای علم داده بوده و افرادی هم از آن متنفر هستند. جزو هر کدام از این دسته که باشید باید گفت که حسابان در بخشهای مختلفی از علم داده و یادگیری ماشین نقش مهمی ایفا میکند. به طوری که در سادهترین راهحل میتوان حضور حسابان را حس کرد. از مهمترین مفاهیم این حوزه در علم داده میتوان به موارد زیر اشاره کرد:
- تابعهای تکمتغیره، حد و پیوستگی، مشتقپذیری
- قضیه مقدار میانگین، صور نامعین، قاعده هوپیتال
- ماکزیمم و مینیمم تابع
- قاعده ترکیب و زنجیری
- سری تیلور، مفاهیم مجموعیابی/ انتگرالگیری از سری نامتناهی
- قضیههای بنیادی و مقدار میانگین حسابان انتگرال، ارزیابی انتگرالهای معین و ناسره
- تابعهای بتا و گاما
- تابعهای چند متغیره، مشتقهای جزئی
- مقدماتی از معادلههای دیفرانسیل معمولی و جزئی
در خصوص کاربرد این حوزه از ریاضی برای علم داده میتوان به روش گرادیان کاهشی (Gradient Descent) به منظور یافتن کمینه تابع زیان اشاره کرد. برای درک طرز کار این روش آشنایی با مفاهیم مرتبط با حسابان مانند گرادیان، مشتق، حد و قاعده زنجیری الزامی است.
ریاضیات گسسته
این شاخه از ریاضی برای علم داده آن چنان که باید مورد توجه قرار نمیگیرد؛ اما با توجه به اینکه همه کارها در علم داده مدرن به کمک سیستمهای محاسباتی انجام میشود به همین دلیل ریاضیات گسسته تشکیل دهنده هسته مرکزی این سیستمها است. از مهمترین مفاهیم این حوزه که در علم داده به کار گرفته میشود میتوان به موارد زیر اشاره کرد:
- مجموعهها، زیرمجموعهها، مجموعههای توانی
- تابعهای شمارش، ترکیبها، شمارشپذیری
- تکنیکهای اثبات مقدماتی شامل استقرا و اثبات از طریق مثال نقض
- مقدماتی از استقرا، استنتاج، و منطق گزارهای
- ساختمانهای داده مقدماتی شامل پشته، گراف، آرایهها، جداول هش، درختها
- مشخصات گراف: اجزای متصل، درجه، مفاهیم بیشینه جریان، برش کمینه، رنگآمیزی گراف
- روابط و معادلههای بازگشتی
- رشد تابع و مفهوم نمادگذاری (O(n
آشنایی با مشخصات گراف در تحلیلهای شبکه اجتماعی و الگوریتم سریع به منظور جستجو و پیمایش شبکه از مهمترین موارد کاربرد این حوزه از ریاضی برای علم داده است.
موضوعات بهینهسازی و تحقیق عملیات
در خصوص این دو حوزه از ریاضی در علم داده باید به این نکته اشاره کرد که داشتن درک اولیه نسبت به این دو تکنیک قدرتمند نقش بسیار مهمی در زمان آموزش یادگیری ماشین ایفا میکند. در خصوص یادگیری ماشین باید گفت که هدف همه الگوریتمهای آن کمینهسازی نوعی از خطای تخمن است که در معرض برخی محدودیتها قرار دارد و به عنوان یک مسئله بهینهسازی به حساب میآید. از جمله موضوعات مهم در این حوزه میتوان به موارد زیر اشاره کرد:
- مقدماتی از بهینهسازی، شیوه فرمولبندی مسئله
- مقدار بیشینه، مقدار کمینه، تابع محدب، پاسخ سراسری
- برنامهریزی خطی، الگوریتم سیمپلکس
- برنامهریزی عدد صحیح
- برنامهریزی محدود، مسئله کولهپشتی
- تکنیکهای بهینهسازی تصادفی مانند تپه نوردی، تبرید شبیهسازیشده، الگوریتم ژنتیک
در دوره دیتا ساینس کندو، بخشی از این مباحث را به شکل تجزیهوتحلیل آماری و پیشپردازش دیتا و در قالب پروژههای عملی یاد خواهید گرفت.
سخن آخر
علم داده در دنیای امروز به یک فناوری پرطرفدار تبدیل شده و افرادی که علاقمند به یادگیری این علم و آموزش برنامه نویسی هستند باید دانش خود را در زمینه ریاضیات و آمار تقویت کنند؛ این موضوع نشان میدهد که ریاضی برا علم داده از اهمیت زیادی برخوردار است و افراد برای موفقیت در این حوزه باید با مفاهیم زیادی از علم ریاضی آشنایی داشته باشند. علم داده به عنوان یکی از علوم نوین در عصر حاضر حول محور ریاضیات و آمار در چرخش است و مفاهیم مربوط به این دو علم را از نو بر روی دادهها تعریف میکند.
سوالات متداول
مفاهیم ریاضی برای علم داده کدامند؟
تابعها، متغیرها، معادلهها و گرافها، آمار، جبر خطی، حسابان، ریاضیات گسسته و موضوعات بهینهسازی و تحقیق عملیات که میتوانید در آموزش پایتون هم بخشی از این مباحث را برای علم داده یاد بگیرید.
اهمیت ریاضی در علم داده چیست؟
در علوم کامپیوتر تأکید اصلی بر روی استفاده از دادهها به منظور رفع یک نیاز فوری است اما در علم داده به کاوش عمیق علمی نیاز است که اهمیت علم ریاضی را نشان میدهد.
مهمترین کاربرد آمار در علم داده چیست؟
تسلط در مصاحبههای شغلی؛ در صورتی که در مصاحبه نشان دهید بر این مفاهیم مسلط هستید، میتوانید مصاحبه شونده را تحت تأثیر قرار دهید.