مباحث آمار و ریاضی مورد نیاز برای علم داده

آنچه در این مطلب می‌خوانید:

ریاضیات را می‌توان سنگ بنای همه رشته‌های علوم معاصر دانست به طوری که امروزه همه روش‌های علم داده مدرن مانند یادگیری ماشین (Machine Learning) دارای زیرساخت عمیقی از ریاضیات هستند. البته که یک دانشمند در زمینه علوم داده باید بر مهارت‌هایی دیگر مانند برنامه‌نویسی و قدرت داوری در مورد مسائل تجاری تسلط داشته و همچنین برای رشد در این حوزه دارای ذهنیت منحصر به فرد تحلیل و کاوشگرانه در مورد داده‌ها باشد. با توجه به این که کسب اطلاع از زیرساخت‌های دانش هزینه‌های زیادی در بر دارد، کسب اطلاع از سازوکارهای ریاضی برای علم داده باعث می‌شود که یک فرد در مقایسه با همکاران خود در رده بالاتری قرار بگیرد. با این مطلب از بلاگ آموزشگاه مهندسی کندو همراه باشید.

اهمیت ریاضی برای علم داده چیست؟

اهمیت ریاضی برای علم داده برای افرادی که به تازگی، به خصوص از سایر رشته‌ها وارد این حوزه می‌شوند، بسیار زیاد است. با اینکه افراد تحصیل کرده در سایر رشته‌ها برای فعالیت در علم داده به مهارت در زمینه کار با نرم‌افزارهای صفحه گسترده، محاسبات عددی و سایر موارد نیاز دارند اما مهارت ریاضی برای علم داده (Data Science) ماهیت کاملا متفاوتی دارد.

مباحث آمار و ریاضی مورد نیاز برای علم داده 1

در علوم کامپیوتر تأکید اصلی بر روی استفاده از داده‌ها به منظور رفع یک نیاز فوری است و معمولا کاوش عمیقی صورت نگرفته و به سرعت از آن‌ها عبور می‌شود اما در علم داده به کاوش عمیق علمی نیاز است. به همین دلیل از ابزارها و تکنیک‌های خاصی در این علم استفاده می‌شود که مختص فرایند علمی هستند:

  • مدلسازی فیزیکی یا اطلاعاتی یک فرایند با کاوش دینامیک نهفته آن
  • فرضیه‌سازی
  • تخمین در مورد کیفیت منبع داده به صورت مطمئن
  • کمی‌سازی عدم قطعیت در خصوص داده و پیش‌بینی‌ها
  • شناسایی الگوهای پنهان با استفاده از جریان اطلاعات
  • درک محدودیت‌های یک مدل
  • درک اثبات ریاضیاتی و انتزاع منطقی تشکیل دهنده آن

در خصوص ریاضی برای علم داده باید به این موضوع اشاره کرد که علم داده با توجه به ماهیت ذاتی که دارد به یک حوزه موضوعی خاص وابسته نبوده و امکان سر و کار داشتن آن با پدیده‌های بسیار متنوع وجود دارد. در ادامه با برخی از موضوعات که برای مطالعه در حوزه علم داده اولویت بیشتری دارند آشنا می‌شویم.

تابع‌ها، متغیرها، معادله‌ها و گراف‌ها

این حوزه از ریاضی برای علم داده مباحث مقدماتی از معادله یک خط تا قضیه دو جمله‌ای را در برمی‌گیرد و شامل موارد زیر است:

  • توابع لگاریتم، توابع نمایی، اعداد گویا
  • مفاهیم و قضیه‌های هندسی مقدماتی، مباحث مثلثات
  • اعداد حقیقی، مختلط و مشخصات مقدماتی
  • سری‌ها، سری هندسی، تصاعد حسابی و نامعادلات
  • رسم گراف و نمودار، مختصات دکارتی، قطبی، استوانه‌ای، کروی و مقاطع مخروطی

در خصوص زمینه‌های کاربرد این حوزه از ریاضی برای علم داده باید گفت برای درک چگونگی جسستجو روی پایگاه داده با چند میلیون آیتم آشنایی با مفاهیم دودویی ضروری است. شناخت لگاریتم‌ها و معادلات بازگشتی برای درک دینامیک این مسئله و تابع‌های متناوب و نزول نمایی برای تحلیل سری زمانی الزامی است.

مباحث آمار و ریاضی مورد نیاز برای علم داده 3

آمار

آگاهی و برخورداری از دانش قوی آمار و ریاضی برای علم داده غیر قابل انکار است. بسیاری از متخصصان یادگیری آماری را برای یادگیری ماشین کلاسیک (بدون شبکه عصبی) الزامی می‌دانند. از مهم‌ترین مفاهیم ضروری این حوزه می‌توان به موارد زیر اشاره کرد:

  • آمار توصیفی و جمع‌بندی داده‌ها، گرایش به مرکز، واریانس، کوواریانس، همبستگی
  • احتمال مقدماتی: ایده مقدماتی، امید ریاضی، حسابان احتمال، قضیه بیز، احتمال شرطی
  • تابع‌های توزیع احتمال شامل تابع توزیع یکنواخت، نرمال، دوجمله‌ای، کای 2، توزیع t استیودنت و قضیه حد مرکزی
  • نمونه‌گیری، اندازه‌گیری، خطا، تولید عدد تصادفی
  • تست کردن فرضیه، تست A/B، بازه‌های اطمینان، مقادیر P
  • آنووا (ANOVA)، آزمون T
  • رگرسیون خطی، منظم‌سازی (regularization)

در خصوص زمینه‌های کاربرد این حوزه از ریاضی برای علم داده ‌می‌توان به مصاحبه‌های شغلی اشاره کرد. در صورتی که در مصاحبه نشان دهید بر این مفاهیم مسلط هستید، می‌توانید مصاحبه شونده را تحت تأثیر قرار دهید.

جبر خطی

یکی از شاخه‌های ضروری ریاضی برای علم داده، جبر خطبی است که به منظور درک طرز کار الگوریتم‌های یادگیری ماشین به کار گرفته می‌شود. از پیشنهاد دوستی در فیسبوک گرفته تا توصه موسیقی در اسپاتیفای و غیره با استفاده از یادگیری انتقال عمیق انجام می‌شود که شامل ماتریس‌ها و جبر خطی است. از مهم‌ترین مفاهیم ضروری در این حوزه می‌توان به موارد زیر اشاره کرد:

  • مشخصات مقدماتی ماتریس و بردارها: ضرب اسکالر، تبدیل خطی، ترانهاده، مزدوج، رتبه، دترمینان
  • ضرب داخلی و خارجی، قاعده دستکاری ماتریس و الگوریتم‌های مختلف، معکوس ماتریس
  • ماتریس‌های خاص: ماتریس مربع، ماتریس همانی، ماتریس مثلثی، ایده‌هایی در مورد ماتریس خلوت و متراکم، بردارهای یکه، ماتریس متقارن، هرمیتیان، ماتریس‌های هرمیتی، هرمیتی اریب و ماتریس یکانی
  • مفهوم فاکتورگیری از ماتریس، تجزیه LU، حذف گاوسی، گادئوس-جردن، حل سیستم معادلات خطی Ax=b.
  • فضای بردار، پایه، اسپن، تعامد، یکامتعامد بودن، کمترین مربع خطی
  • مقدار ویژه، بردار ویژه، قطری‌سازی، تجزیه مقدار منفرد

در خصوص زمینه‌های کاربرد این حوزه از ریاضی برای علم داده می‌توان به تجزیه مقدار منفرد به منظور دستیابی به بازنمایی ابعادی فشرده مجموعه داده با پارامترهای کمتر اشاره کرد. به طور کلی همه الگوریتم‌های مربوط به شبکه عصبی، از تکنیک جبر خطی برای نمایش و پردازش ساختارهای شبکه و عملیات یادگیری استفاده می‌کنند.

بیشتر بخوانید: آموزش الگوریتم و فلوچارت {راهنمای جامع آموزشی}

مباحث آمار و ریاضی مورد نیاز برای علم داده 5

حسابان

افراد زیادی عاشق این حوزه ریاضی برای علم داده بوده و افرادی هم از آن متنفر هستند. جزو هر کدام از این دسته که باشید باید گفت که حسابان در بخش‌های مختلفی از علم داده و یادگیری ماشین نقش مهمی ایفا می‌کند. به طوری که در ساده‌ترین راه‌حل می‌توان حضور حسابان را حس کرد. از مهم‌ترین مفاهیم این حوزه در علم داده می‌توان به موارد زیر اشاره کرد:

  • تابع‌های تک‌متغیره، حد و پیوستگی، مشتق‌پذیری
  • قضیه مقدار میانگین، صور نامعین، قاعده هوپیتال
  • ماکزیمم و مینیمم تابع
  • قاعده ترکیب و زنجیری
  • سری تیلور، مفاهیم مجموع‌یابی/ انتگرال‌گیری از سری نامتناهی
  • قضیه‌های بنیادی و مقدار میانگین حسابان انتگرال، ارزیابی انتگرال‌های معین و ناسره
  • تابع‌های بتا و گاما
  • تابع‌های چند متغیره، مشتق‌های جزئی
  • مقدماتی از معادله‌های دیفرانسیل معمولی و جزئی

در خصوص کاربرد این حوزه از ریاضی برای علم داده می‌توان به روش گرادیان کاهشی (Gradient Descent) به منظور یافتن کمینه تابع زیان اشاره کرد. برای درک طرز کار این روش آشنایی با مفاهیم مرتبط با حسابان مانند گرادیان،‌ مشتق، حد و قاعده زنجیری الزامی است.

ریاضیات گسسته

این شاخه از ریاضی برای علم داده آن چنان که باید مورد توجه قرار نمی‌گیرد؛ اما با توجه به اینکه همه کارها در علم داده مدرن به کمک سیستم‌های محاسباتی انجام می‌شود به همین دلیل ریاضیات گسسته تشکیل دهنده هسته مرکزی این سیستم‌ها است. از مهم‌ترین مفاهیم این حوزه که در علم داده به کار گرفته می‌شود می‌توان به موارد زیر اشاره کرد:

  • مجموعه‌ها، زیرمجموعه‌ها، مجموعه‌های توانی
  • تابع‌های شمارش، ترکیب‌ها، شمارش‌پذیری
  • تکنیک‌های اثبات مقدماتی شامل استقرا و اثبات از طریق مثال نقض
  • مقدماتی از استقرا، استنتاج، و منطق گزاره‌ای
  • ساختمان‌های داده مقدماتی شامل پشته، گراف، آرایه‌ها، جداول هش، درخت‌ها
  • مشخصات گراف: اجزای متصل، درجه، مفاهیم بیشینه جریان، برش کمینه، رنگ‌آمیزی گراف
  • روابط و معادله‌های بازگشتی
  • رشد تابع و مفهوم نمادگذاری (O(n

آشنایی با مشخصات گراف در تحلیل‌های شبکه اجتماعی و الگوریتم سریع به منظور جستجو و پیمایش شبکه از مهم‌ترین موارد کاربرد این حوزه از ریاضی برای علم داده است.

موضوعات بهینه‌سازی و تحقیق عملیات

در خصوص این دو حوزه از ریاضی در علم داده باید به این نکته اشاره کرد که داشتن درک اولیه نسبت به این دو تکنیک قدرتمند نقش بسیار مهمی در زمان آموزش یادگیری ماشین ایفا می‌کند. در خصوص یادگیری ماشین باید گفت که هدف همه الگوریتم‌های آن کمینه‌سازی نوعی از خطای تخمن است که در معرض برخی محدودیت‌ها قرار دارد و به عنوان یک مسئله بهینه‌سازی به حساب می‌آید. از جمله موضوعات مهم در این حوزه می‌توان به موارد زیر اشاره کرد:

  • مقدماتی از بهینه‌سازی، شیوه فرمول‌بندی مسئله
  • مقدار بیشینه، مقدار کمینه، تابع محدب، پاسخ سراسری
  • برنامه‌ریزی خطی، الگوریتم سیمپلکس
  • برنامه‌ریزی عدد صحیح
  • برنامه‌ریزی محدود، مسئله کوله‌پشتی
  • تکنیک‌های بهینه‌سازی تصادفی مانند تپه نوردی، تبرید شبیه‌سازی‌شده، الگوریتم ژنتیک

در دوره دیتا ساینس کندو، بخشی از این مباحث را به شکل تجزیه‌وتحلیل آماری و پیش‌پردازش دیتا و در قالب پروژه‌های عملی یاد خواهید گرفت.

مباحث آمار و ریاضی مورد نیاز برای علم داده 7

سخن آخر

علم داده در دنیای امروز به یک فناوری پرطرفدار تبدیل شده و افرادی که علاقمند به یادگیری این علم و آموزش برنامه نویسی هستند باید دانش خود را در زمینه ریاضیات و آمار تقویت کنند؛ این موضوع نشان می‌دهد که ریاضی برا علم داده از اهمیت زیادی برخوردار است و افراد برای موفقیت در این حوزه باید با مفاهیم زیادی از علم ریاضی آشنایی داشته باشند. علم داده به عنوان یکی از علوم نوین در عصر حاضر حول محور ریاضیات و آمار در چرخش است و مفاهیم مربوط به این دو علم را از نو بر روی داده‌ها تعریف می‌کند.

مباحث آمار و ریاضی مورد نیاز برای علم داده 9

سوالات متداول

مفاهیم ریاضی برای علم داده کدامند؟

تابع‌ها، متغیرها، معادله‌ها و گراف‌ها،‌ آمار، جبر خطی، حسابان، ریاضیات گسسته و موضوعات بهینه‌سازی و تحقیق عملیات که می‌توانید در آموزش پایتون هم بخشی از این مباحث را برای علم داده یاد بگیرید.

اهمیت ریاضی در علم داده چیست؟

در علوم کامپیوتر تأکید اصلی بر روی استفاده از داده‌ها به منظور رفع یک نیاز فوری است اما در علم داده به کاوش عمیق علمی نیاز است که اهمیت علم ریاضی را نشان می‌دهد.

مهم‌ترین کاربرد آمار در علم داده چیست؟

تسلط در مصاحبه‌های شغلی؛ در صورتی که در مصاحبه نشان دهید بر این مفاهیم مسلط هستید، می‌توانید مصاحبه‌ شونده را تحت تأثیر قرار دهید.

اشتراک گذاری

0 0 رای ها
امتیازدهی به این محتوا
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
0
افکار شما را دوست داریم، لطفا نظر دهید.x