جهان امروز، جهان داده است و ذخیره سازی و استفاده بهینه از داده یکی از چالش های اصلی سازمان ها در یک دهه گذشته بوده است. ازاین رو در سال های اخیر، تمرکز اصلی متخصصان داده و شرکت های متخصص داده روی ساختن چهارچوب ها و راه حل هایی برای مدیریت داده ها (از استخراج و ذخیره سازی تا تحلیل و استراتژی های داده محور) بوده است. علم داده (Data Science) در حقیقت حلقۀ اتصال و هدایت گر این وضعیت است. نقش علم داده و متخصصان علوم داده، امروز تا جایی برجسته شده است که حتی عده ای باور دارند تمام ایده هایی که در فیلم های علمی-تخیلی هالیوود دیده می شود، می تواند به وسیلۀ علم داده به واقعیت تبدیل شود. اغراق نیست که بگوییم امروز، یکی از بیشترین استفاده ها از داده و علم داده در حوزه کسب و کار است. ما در این یادداشت سعی کرده ایم توضیح دهیم که علم داده چیست و چه کاربردهایی (خصوصاً برای کسب وکارها) دارد. در انتهای این جستار، شما با مفهوم علم داده آشنا خواهید شد و درمی یابید چگونه می توان از داده های خرد و کلان به بینش های کاربردی و استراتژی های داده محور در کسب وکارها رسید.
پیش نیازهای علم داده
پیش از اینکه ببینیم علم داده چیست، لازم است بدانیم که در علم داده مفاهیم و موضوعات کلیدی و پایه ای هست که باید با آن ها آشنا شویم. البته در این یادداشت ما بنا نداریم وارد تعریف این مفاهیم و موضوعات شویم، اما ضرورت دارد بدانیم که این ها چه چیزهایی هستند.
یادگیری ماشین (Machine Learning)
یادگیری ماشین را می توان به عنوان ستون فقرات علم داده معرفی کرد. یادگیری ماشین، روشی برای تحلیل داده ها است که مدل های تحلیلی را به صورت خودکار ایجاد می کند. این علم، شاخه ای از هوش مصنوعی است که مبتنی بر این ایده است که سیستم ها می توانند با حداقل دخالت انسان از داده ها بیاموزند، الگوها را شناسایی کنند و بر اساس آن تصمیم بگیرند. دانشمند داده باید دانش خوب و عمیقی از یادگیری ماشین و همچنین مفاهیم مرتبط با آن داشته باشد.
مدل سازی (Modeling)
مدل های ریاضی به شما کمک می کنند بر اساس آنچه از داده ها می دانید، محاسبات سریع و پیش بینی انجام دهید. مدل سازی بخشی از یادگیری ماشین است و به معنی شناسایی مناسب ترین الگوریتم ها برای حل مسئله و نحوۀ آموزش مدل ها است.
آمار (Statistics)
آمار هستۀ اصلی علم داده است. دانش خوب درزمینۀ آمار به شما کمک کند هوشمندانه تر رفتار کرده و نتایج معنی دارتری کسب کنید.
برنامه نویسی (Programming)
برای اجرای یک پروژۀ موفق در حوزۀ داده، به سطحی مشخص از برنامه نویسی نیاز است. رایج ترین زبان های برنامه نویسی پایتون (Python) و آر (R) هستند. به علت یادگیری آسان و پشتیبانی از چندین کتابخانۀ علم داده و یادگیری ماشین، پایتون در بین مهندسان داده بسیار محبوب است.
پایگاه داده (Database)
یک دانشمند توانمند داده باید نحوۀ کار پایگاه داده ، مدیریت آن و نحوۀ استخراج داده از آن را به خوبی بداند. شاید برای پوشش دادن تمام نقش های داده در یک سازمان و کسب وکار داده محور لازم باشد که مفاهیم و موضوعات دیگری نیز مطرح شود، اما در حال حاضر ما کلیدی ترین مفاهیم را برای ورود به بحث در اختیار داریم.
علم داده چیست؟
با پیشرفت آمار ریاضی و تحلیل داده در سال های اخیر، اصطلاح «علم داده» ظهور پیدا کرده است. در حقیقت علم داده مجموعه ای از ابزارها، الگوریتم ها و اصول یادگیری ماشین است که هدف آن کشف کردن الگو از میان داده های خام است. ممکن است بپرسید این کاری بود که متخصصین آمار برای سالیان زیاد انجام می دادند، پس تفاوت در چیست؟ جواب این سؤال در تفاوت بین توضیح دادن و پیش بینی نهفته است. همان طور که در نمودار زیر مشخص است، تحلیلگر داده با بررسی تاریخچۀ داده ها، به توضیح آن می پردازد. درحالی که دانشمند داده نه تنها برای دریافت بینش از داده ها به تحلیل اکتشافی (Exploratory Analysis) می پردازد، بلکه از الگوریتم های پیچیده یادگیری ماشین برای پیش بینی یک رویداد خاص در آینده استفاده می کند.
معرفی شغل متخصصان علم داده و شرح وظایف آنها
به گفتهٔ برخی کارشناسان، یکی از جذاب ترین مشاغل قرن بیست ویکم تحلیل داده ها است اما باید ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، می توان گفت که در طول دهه های گذشته حجم داده های تولیدشده توسط کاربران و کمپانی های مختلف بسیار قابل توجه بوده که از آن به عنوان Big Data (کلان داده) یاد می شود اما این داده ها زمانی ارزشمند خواهند بود که بتوان آن ها را تحلیل کرده و از دل آن ها آمار و ارقامی به دست آوریم که با استفاده از آن ها بشود به شناخت بیشتر و بهتر بازار، رفتارهای کاربران، علائق ایشان و چیزهایی اینچنین دست یابیم که در همین راستا در ادامه خواهیم دید که Data Science چیست و Data Scientist چه وظایفی دارا است.
Data Scientist که به صورت تحت الفظی «متخصص علم داده» ترجمه می شود، دائماً باید بپرسد «چرا؟» و بسته به شرکتی که در آن کار می کند وظایف مختلفی می تواند داشته باشد اما به طور کلی وی کسی که دارای مهارت هایی مثل تحلیل داده ها، مدل سازی و آمار باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک دیتا ساینتیست است که از آن به عنوان مرتب سازی داده ها یاد می شود که به طور خلاصه منظور از مرتب سازی داده ها این است که وی بتواند داده های به هم ریخته را ابتدا مرتب و منظم نموده سپس به بررسی آن ها بپردازد که در ادامه قصد داریم تا تک تک این وظایف را به صورت موردی بررسی نماییم.
از رسیدگی به مشکلات حوزه ی تغییرات آب وهوایی تا ایجاد سامانه های توصیه گر (Recommendation System) در سرویس های اِستریم (Streaming Services)، متخصصان دیتا ساینس عملاً هر نوع مشکلی را در سراسر دنیا برطرف می کنند. ارزش و فایده ی علم داده بر تمام مشاغل ثابت شده است. از همین رو تیم های مدیریتی به شکلی فزاینده در حال سرمایه گذاری روی دیتا ساینس هستند تا به راهکارهایی در محیط کسب وکار دست پیدا کنند. کاربردهای دیتا ساینس از ایجاد اهداف توسعه ی پایدار برای ذی نفعان و خلق راهبردهای مربوط به حوزه ی بهداشت ودرمان تا طرح های معماری را شامل می شوند.
مهارت های متخصصان علم داده
- تفکر آماری؛
- شمّ فنی؛
- مهارت های ارتباطی چندوجهی؛
- ذهن کنجکاو؛
- خلاقیت.
دانش های مورد نیاز متخصصان علم داده
دیتا ساینس شاخه ای مطالعاتی، و تلفیقی است از تخصص در ریاضیات، داشتن مهارت در فناوری و نیز شمّ تجاری قوی. همه ی این ها پایه و اساس دیتا ساینس را تشکیل می دهند که نیازمند درک عمیقی از هر یک از این مفاهیم هستیم.
تخصص در ریاضیات:
تصور غلطی وجود دارد که دیتا ساینس تماماً درمورد آمار (Statistics) است. شکی نیست که هم آمار کلاسیک (Classical Statistics) و هم بیزی (Bayesian Statistics) در دیتا ساینس بسیار حیاتی اند، اما مفاهیم حیاتی دیگری نیز وجود دارند؛ مانند تکنیک های کمّی (Quantitative Techniques) و به خصوص جبر خطی (Linear Algebra) که سیستم پشتیبانی بسیاری از تکنیک های استنتاج (Inferential Techniques) و الگوریتم های یادگیری ماشین (Machine Learning Algorithms) است.
داشتن شمّ تجاری قوی:
دانشمندان داده منبع ارائه ی اطلاعات کاربردی و حیاتی برای کسب وکار هستند. آن ها مسئول به اشتراک گذاری این دانش با افراد و گروه های مربوطه اند تا بتوان آن را تبدیل به راهکارهایی برای کسب وکار کرد. موقعیت آن ها در کمک به راهبردهای کسب وکار بسیار حیاتی است، چراکه بیش تر از هر کس دیگری با داده ها سروکار دارند. از همین رو دانشمندان داده باید یک شمّ تجاری قوی داشته باشند تا از پس مسئولیت هایشان برآیند.
داشتن مهارت در فناوری:
دانشمندان داده باید با الگوریتم های پیچیده و ابزارهایی فوق پیشرفته کار کنند. همین طور از آنان انتظار می رود که راهکارهایی سریع را با استفاده از یک یا مجموعه ای از زبان ها مانند اِس کیواِل (SQL)، پایتون (Python)، آر (R)، اِس اِی اِس (SAS) و گاهی اوقات هم جاوا (Java)، اسکالا (Scala)، جولیا (Julia) و غیره کدنویسی و نمونه سازی کنند. دانشمندان داده باید توانایی کنترل کار خود هنگام مواجهه با چالش های فنی احتمالی را داشته باشند. آن ها همچنین باید جلوی هرگونه عواملی که باعث بروز تأخیر می شوند یا مانعی که ممکن است به خاطر عدم سلامت فنی رخ دهد را بگیرند.
چگونه دیتا Data Scientist شویم؟
به طور کلی سه گام برای تبدیل شدن به یک دانشمند داده وجود دارد:
- در رشته های IT، علوم کامپیوتر، ریاضیات، کسب و کار یا حوزه ی مرتبط دیگری مدرک لیسانس بگیرید؛
- در زمینه ی علوم داده فوق لیسانس بگیرید؛
- در حوزه ی مورد علاقه ی خود مانند بهداشت و درمان، فیزیک و کسب و کار، تجربه کسب کنید.
امروزه کسب وکارهای مختلف فارغ از حوزه ای که در آن مشغول به فعالیت می باشند به تک تک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه می کنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود، یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند، نیز به عنوان منبع خوبی از درآمدزایی نگاه می کنند. لذا اگر به فکر حضور در دنیای آی تی در یک بستر گسترده هستید، حتماً باید با تحلیل داده و نحوهٔ به کارگیری از داده ها در بهتر شدن خدمات و محصولات آشنا شوید و از همین روی برخورداری از مهارت تحلیل داده ها به عنوان یکی از حرفه های لازم و ضروری در عصر حاضر قلمداد می گردد.