داده‌کاوی (Data Mining): راهنمای کامل برای سال ۲۰۲۲

داده‌کاوی (Data Mining): راهنمای کامل برای سال 2022

داده‌کاوی (Data Mining): راهنمای کامل برای سال ۲۰۲۲

داده‌کاوی (Data Mining): راهنمای کامل برای سال ۲۰۲۲ 700 500 دکتر علی ناصرحجتی

تحلیلگران داده، نقش مهمی در تبدیل داده‌های خام به اطلاعات تجاری و قابل استفاده دارند. تجزیه و تحلیل‌های پیشرفته‌تر باعث می‌شوند تا این داده‌ها، کاربردی‌تر شده و اهمیت‌شان برای تصمیم گیرندگان و سهامداران بیشتر شود. به همین دلیل، آن دسته از متخصصان داده که به دنبال افزایش مهارت‌های خود هستند باید در زمینه‌ی داده‌کاوی و نحوه‌ی به کارگیری آن در کار خود اطلاعات زیادی کسب کنند.

داده‌کاوی مفهوم جدیدی نیست. کسب و کارها برای دهه‌های زیادی از آن به منظور یافتن اطلاعات مفید برای ابر داده‌ای در حال رشدی که کسب و کارها ایجاد نموده‌اند استفاده می‌کردند. با این حال، جمع‌آوری داده‌های همواره به اخذ تصمیمات درست منتهی نمی‌شود. در واقع، تکیه‌ی بیش از حد به داده‌ها می‌تواند باعث اختلال در فرآیند تصمیم‌گیری شود؛ و این همان مفهومی است که تحت عنوان «پُر از داده، اما وجود ضعف اطلاعاتی» شناخته می‌شود. داده‌کاوی به شما کمک می‌کند تا این معضل به فرصت جدیدی تبدیل شود و به همین دلیل، اهمیت آن همچنان در حال افزایش است.

در این مقاله، به بررسی جامعی از داده‌کاوی خواهیم پرداخت و درباره‌ی کارهایی که می‌توانند به پیشرفت شغل شما در علم داده کمک کند، اطلاعاتی ارائه خواهیم داد.

با ما همراه باشید.

داده‌کاوی چیست و چرا برای کسب و کارها اهمیت دارد؟

داده‌کاوی، نیاز به شکل دهی داده‌ها به اطلاعات کاربردی را برطرف می‌کند. در واقع داده‌کاوی، فرآیند تجزیه و تحلیل مقادیر زیادی از داده‌ها به منظور تشخیص روندها، الگوهای غیر شهودی یا حتی ناهنجاری‌ها است. دیتاماینرها از ابزارها و فناوری‌های مختلفی برای کشف این یافته‌ها استفاده می‌کنند و سپس برای کمک به کسب و کارها برای تصمیم‌گیری و انجام پیش‌بینی‌های بهتر، از آن‌ها استفاده می‌کنند.

شرکت‌ها از روش‌های مختلفی از داده‌کاوی سود می‌برند: پیش‌بینی تقاضا برای محصولات، یافتن بهترین شیوه‌ها برای تشویق مشتریان به خرید، ارزیابی ریسک، محافظت از کسب و کار خود در برابر کلاه‌برداری و بهبود فعالیت‌های بازاریابی.

چرا شرکت‌ها نسبت به استفاده از داده‌کاوی مشتاق هستند؟

طبق گفته‌ی SAS، اصطلاح “داده‌کاوی” در دهه ۱۹۹۰ ظهور کرد. این فرآیند با عنوان “کشف دانش پایگاه‌های داده” نیز شناخته می‌شود و قبل از آن که مواردی مانند پردازش کامپیوتری و سایر فناوری‌ها باعث سریعتر و کارآمدتر شدن آن شوند، به صورت دستی انجام می‌شد.

هر بار که شخصی کارت اعتباری را بکشد، روی یک وب سایت کلیک کند یا محصولی را در صف پرداخت، اسکن کند، یک داده ایجاد می‌شود. تا زمانی که بتوان هر یک از این نقاط داده را استخراج، کامپایل و یا با سایر نقاط مقایسه کرد، غیرفعال باقی می‌مانند. شرکت‌ها هیچ سودی از  بی‌اثر بودن داده‌ها نمی‌برند. آن‌ها باید با این داده‌ها تعامل داشته باشند تا بتوانند از اطلاعات موجود در آن‌ها استفاده کرده و آن ارزشی که برای هر کسب و کاری اهمیت دارد را ایجاد نمایند.

شرکت بین‌المللی داده (IDC) پیش‌بینی می‌کند که هزینه‌های جهانی تحلیل‌های کسب و کار و کلان داده‌ها در سال ۲۰۲۱ به ۲۱۵.۷ میلیارد دلار خواهد رسید و می‌گوید که این هزینه‌ها تا سال ۲۰۲۵ به میزان ۱۲.۸ درصد رشد خواهند کرد.

اکثر متخصصان تجزیه و تحلیل اعتقاد دارند که داده‌ها و تجزیه و تحلیل آن‌ها برای رشد مهم است؛ بیش از نیمی‌از آن‌ها می‌گویند که از داده‌ها و تجزیه و تحلیل آن‌ها برای هدایت فرآیند، کارایی هزینه، استراتژی و تغییر استفاده می‌کنند.

داده‌کاوی در این رشد، نقش مهمی را در تجزیه و تحلیل داده‌ها ایفا می‌کند و این موضوع باعث شده‌است تا بسیاری از صنایع (مانند خرده فروشی، امور مالی و بیمه، ارتباطات، مراقبت‌های بهداشتی و غیره)، به کارمندان ماهری در این زمینه نیاز داشته باشند. برخی از مشاغلی که تکنیک‌های داده‌کاوی می‌توانند در آن‌ها اهمیت داشته باشند عبارتند از: تحلیلگر داده، متخصص علوم داده، مهندس نرم افزار، تحلیلگر مالی و تحلیلگر تجاری.

نمونه‌های داده‌کاوی در دنیای واقعی

در همه جا نمونه‌هایی از داده‌کاوی وجود دارد. شرکت‌های خرده‌فروشی به‌شدت به داده‌کاوی متکی هستند؛ به‌ویژه آن‌هایی که کارت‌های پاداش و عضویت‌های ویژه را ارائه می‌کنند. برای مثال ممکن است که مصرف‌کنندگانی که برند خاصی از شامپو را خریداری می‌کنند، برای سایر محصولاتی که منطبق با رفتار خرید شخصی آن‌ها هستند یا محصولاتی که گروه‌های مصرف‌کننده‌ی مشابهی دارند، کوپن‌هایی دریافت نمایند.

کسانی که به صورت آنلاین خرید می‌کند یا سرگرمی‌هایشان به صورت آنلاین است، داده‌های زیادی را برای استخراج ایجاد می‌نمایند. قطعا آن‌ها بر اساس خرید، عادات تماشا و کلیک‌هایی که داشته‌اند، توصیه‌هایی برای تماشای فیلم یا خرید کفش دریافت کرده‌اند. به منظور تولید پاپ‌آپ‌های “پیشنهاد برای شما”، داده‌های شما و میلیاردها مصرف‌کننده‌ی دیگر گردآوری می‌شوند.

علاوه بر این، مؤسسات مالی از داده‌کاوی برای کشف کلاه‌برداری استفاده می‌کنند و از خود و مشتریانشان محافظت می‌کنند. ارائه دهندگان مراقبت‌های بهداشتی نیز روش‌های درمانی خود را طبق الگوهای داده‌کاوی که از انجاک مطالعات بر بیمار و آزمایشات بالینی به دست آمده‌اند، بهبود می‌بخشند.

۶ مرحله‌ی فرآیند داده‌کاوی

داده‌کاوی از فرآیند معتبری به نام CRISP-DM پیروی می‌کند. این فرآیند استاندارد میان‌صنعتی که برای داده‌کاوی مورد استفاده قرار می‌گیرد، یک فرآیند شش مرحله‌ای است که با تعریف یک هدف تجاری شروع می‌شود و با دیپولی (Deploy) کردن پروژه داده‌ی تکمیل شده، خاتمه می‌یابد.

مرحله‌ی ۱: درک کسب و کار

پروژه‌های داده‌کاوی با درک کسب و کار آغاز می‌گردند؛ با شرکت‌هایی که اهداف خود را برای یک پروژه تعیین می‌کنند. شرکت، به مطالعه‌ی کدام داده‌ها تمایل دارد؟ اهداف آن مطالعه چیست؟ پروژه به دنبال حل چه مشکلات یا یافتن چه فرصت‌هایی است؟ این مرحله برای تعیین مجموعه داده‌های مناسب، برای تجزیه و تحلیل، اهمیت فراوانی دارد. در نتیجه، تحلیلگران داده باید درک روشنی از ماموریت، استراتژی و نیازهای هدف شرکت خود داشته باشند.

مرحله‌ی ۲: درک داده‌ها

پس از تعیین هدف، پروژه‌ی داده‌کاوی وارد مرحله‌ی بعدی می‌شود: تعریف داده‌ها. در این مرحله، تحلیلگران، داده‌ها را جمع‌آوری می‌کنند، آن‌ها را توصیف می‌کنند (مقدار، شامل اعداد و رشته‌ها، نحوه کدگذاری و غیره) و کیفیت آن را تأیید می‌نمایند. برخی از سؤالات کلیدی این مرحله عبارتند از: آیا شکافی در داده‌ها وجود دارد؟ آیا داده‌ها دارای خطا هستند؟ آیا فیلدها به درستی کدگذاری شده‌اند؟ آیا داده‌ای وجود دارد که تکراری باشد؟

به این نکته توجه کنید که قرار نیست هرکدام از نقاط داده‌ای که یک شرکت ذخیره می‌کند، مناسب تمامی پروژه‌ها باشد. جمع آوری داده‌های مناسب می‌تواند باعث صرفه‌جویی در زمان و همچنین اطمینان از کیفیت و کاربرد اطلاعات به دست آمده در طول پروژه شود.

مرحله‌ی ۳: آماده‌سازی داده‌ها

معمولا آماده‌سازی داده‌ها، وقت گیرترین مرحله‌ی پروژه ماینینگ است. طبق گفته IBM، آماده‌سازی داده‌ها می‌تواند ۵۰ تا ۷۰ درصد از زمان و تلاش یک پروژه را مصرف کند. آماده‌سازی داده‌ها شامل انتخاب، تمیز کردن، مرتب‌سازی و قالب‌بندی داده‌های مورد مطالعه است. علاوه بر این، داده‌هایی که از چندین منبع مختلف به دست‌آمده‌اند باید ادغام یا تنظیم شوند که ممکن است که به ساختن داده‌های جدیدی نیاز شود. پس از بررسی کامل و آماده‌سازی داده‌ها، آن‌ها آماده‌ی مطالعه می‌شوند.

مرحله‌ی ۴: مدل‌سازی

در مرحله‌ی مدل‌سازی، تحلیلگران و متخصصان علوم داده به منظور یافتن اطلاعات، از انواع تکنیک‌های مدل‌سازی (که بعداً بررسی خواهیم کرد) استفاده می‌کنند. شاید آن‌ها برای یافتن الگوها یا ناهنجاری‌ها، مدل‌هایی را اجرا کنند. به عنوان مثال ممکن است که آن‌ها، اقدام به اجرای مدل پیش‌بینی کنند تا بفهمند آیا داده‌های قبلی می‌توانند نتایج آینده را تعیین کنند یا خیر. همچنین ممکن است که از کاوش قواعد وابستگی یا Association Rule Mining (از طریق مدل‌های ماشین لرنینگ) برای کشف الگوهای غیر شهودی که تحلیلگران حتی از وجود آن‌ها اطلاع ندارند و اطلاعات ارزشمندی ارائه می‌دهند، استفاده نمایند. به این نکته توجه داشته باشید که معمولا تحلیلگران، بسته به اهداف و الزامات پروژه، مدل‌های متعددی را بر روی یک مجموعه از داده‌ها اجرا می‌کنند.

مرحله‌ی ۵: ارزیابی

تحلیلگران در مرحله‌ی ارزیابی، به بررسی این موضوع می‌پردازند که آیا نتایج می‌توانند به درستی به سؤالات درک کسب و کار پاسخ دهند، اهداف پروژه را برآورده سازند و هرگونه الگوی غیر منتظره‌ای را آشکار نمایند یا خیر. آن‌ها همچنین ارزیابی خواهند کرد که آیا از مدل‌های صحیح استفاده شده است یا خیر.

اگر هدف اولیه برآورده نشود (و یا سؤالات جدیدی مطرح شوند) تحلیلگران داده به مرحله‌ی مدل‌سازی باز خواهند گشت. علاوه بر این ممکن است که به تنظیم مجدد داده‌ها نیز نیاز شود. هنگامی‌که نتایج داده‌ها به سؤالات درک کسب و کار پاسخ دهند، پروژه به مرحله نهایی خود می‌رسد.

مرحله‌ی ۶: استقرار

در مرحله استقرار، تحلیلگران داده یافته‌های خود را گزارش می‌کنند و طرحی را برای عملی ساختن این اطلاعات توصیه می‌نمایند. شاید پروژه داده‌کاوی به این نتیجه رسیده باشد که مشتریان خرده فروشی در هنگام خرید خوشبوکننده‌ی هوا، معمولا سس مایونز می‌خرند؛ که این نتیجه، یکک بینش کاملا غیر شهودی است. خرده‌فروش می‌تواند از این اطلاعات از منظر تبلیغاتی استفاده کرده و یک برنامه‌ی بازاریابی ایجاد کند.

بر کدام ابزارهای داده‌کاوی باید مسلط شد

حال که فرآیند CRISP-DM را درک کرده‌اید، اجازه دهید تا برخی از ابزارهای برتر داده‌کاوی و فناوری‌هایی که تحلیلگران از آن‌ها استفاده می‌کنند را بررسی کنیم. ابزارهای زیادی در این زمینه وجود دارند و کسانی که در علم داده و تجزیه و تحلیل آن کار می‌کنند احتمالاً با بسیاری از آن‌ها آشنا می‌باشند.

پایتون

طبق گفته‌های Stack Overflow، پایتون معمولا به عنوان پرکاربردترین و مورد نیازترین زبان‌های برنامه‌نویسی جهان شناخته می‌شود. پایتون به عنوان یک زبان شئ‌گرا با سینتکس آسان برای یادگیری، کاربردهای زیادی دارد. توسعه دهندگان وبسایت‌ها و بازی‌ها از پایتون برای طراحی آن‌ها استفاده می‌کنند و برنامه‌نویسان هوش مصنوعی با استفاده از پایتون، مدل‌های آموزشی می‌سازند. علاوه بر این، دانشمندان داده اغلب از پایتون برای داده‌کاوی و تجزیه و تحلیل استفاده می‌کنند.

گسترده بودن کتابخانه‌ها و ماژول‌های ریاضی و علمی پایتون به این زبان کمک می‌کند تا به نیروگاه داده‌کاوی تبدیل شود. مواردی مانند Pandas، Numpy و Matplotlib تنها سه مورد از کتابخانه‌های موجود در پایتون هستند که کاربران پایتون می‌توانند از آن‌ها در پروژه‌های داده‌کاوی خود استفاده می‌کنند. وبسایت پایتون تعداد زیادی از شرکت‌هایی را فهرست کرده‌است که به این زبان متکی هستند، مانند پلتفرم منابع انسانی Gusto. این پلتفرم تجاری می‌گوید که پایگاه‌های داده پایتون «امکان توسعه‌ی سریع و بدون دردسر ابزارهای داده‌کاوی را به کاربران می‌دهد».

R

زبان برنامه‌نویسی R، مانند پایتون، زبان محبوبی است و در تجزیه و تحلیل داده‌ها مورد استفاده قرار می‌گیرد. محیط برنامه نویسی R بر روی “دستکاری داده‌ها (Data Manipulating)، محاسبه و نمایش گرافیکی” متمرکز است که این موارد همگی، از عناصر کلیدی داده‌کاوی به حساب می‌آیند.

تحلیلگران داده از زبان R برای اجرای چند تکنیک داده‌کاوی مانند طبقه‌بندی و خوشه‌بندی و همچنین تجسم نتایج استفاده می‌کنند. زبان R، که رایگان و منبع باز است، بیش از ۱۸۰۰۰ بسته همراه را ارائه می‌دهد؛ مانند ده‌ها بسته که شامل داده‌کاوی هستند.

Tableau

طبق گفته گارتنر، Tableau یکی از پلتفرم‌های هوش تجاری پیشرو در جهان است و شرکت‌ها به طور گسترده برای ارزیابی، تجزیه و تحلیل و انتقال اطلاعات داده، از آن استفاده می‌کنند.

پلتفرم Tableau هر دو نسخه رایگان و پولی را ارائه می‌دهد و کاربران می‌توانند داده‌ها را از صفحات گسترده یا انبارهای داده عظیم وارد کنند. همچنین Tableau به کاربران خود این امکان را می‌دهد تا الگوهای داده یا روندها را کشف کنند (یکی از اهداف اصلی ماینینگ) و یافته‌های خود را تجسم سازند.

تحلیلگران با استفاده از Tableau دیگر نیازی به یادگیری نحوه‌ی استفاده از زبان‌های برنامه‌نویسی مانند Python و R برای انجام پروژه داده‌کاوی خود ندارند. شرکت‌‌هایی مانند Charles Schwab، Honeywell، Red Hat و Whole Foods از جمله شرکت‌هایی هستند که از Tableau استفاده می‌کنند. همچنین Tableau Public، نسخه‌ی آنلاین و رایگان این پلتفرم است که تمامی افراد می‌توانند با کمک آن اقدام به بصری‌سازی دیتا (تجسم داده) نمایند.

SAS

یک شرکت نرم‌افزار تحلیلی SAS، پلتفرم‌های متعددی را برای داده‌کاوی ارائه می‌دهد که کاربرانی که دارای مهارت‌های آماری یا برنامه‌نویسی محدود هستند می‌توانند از آن‌ها استفاده کنند. فرآیند پلت فرم SAS Enterprise Miner، تمامی مراحل فرآیند CRISP-DM را پوشش می‌دهد و از یک کاربر ساده تا شرکت‌های بزرگ را در خود جای می‌دهد.

همچنین SAS محصولاتی را برای هوش مصنوعی، ماشین لرنینگ، مدیریت داده، رایانش ابری و غیره می‌فروشد. کاربران می‌توانند به طیف وسیعی از منابع آموزشی، حتی از جمله برخی از کلاس‌های زنده دسترسی داشته باشند.

Hadoop

ابزار Apache Hadoop، چارچوب متن بازی برای ذخیره و پردازش مقادیر قابل توجهی داده است. کسانی که با کلان داده‌ها کار می‌کنند، چالش‌های کار با مقیاس و انواع داده‌های تولید شده را درک می‌نمایند. چارچوب Hadoop ذخیره، دسترسی و تجزیه و تحلیل داده‌ها را سریعتر و آسان‌تر می‌سازد. بسیاری از شرکت‌ها مانند فیسبوک، شورون، ای‌بی و لینکدین، Hadoop را به عنوان بخشی از استراتژی‌های داده‌ی خود قرار داده‌اند.

Apache Spark

آپاچی اسپارک، بخشی از اکوسیستم Hadoop است که برای به روز رسانی عملکرد نگاشت‌کاهش یا  MapReduce پردازش داده‌ها، توسعه داده شد. به گزارش InfoWorld، اسپارک به ابزار مهمی در دنیای کلان‌داده‌ها و ماشین لرنینگ تبدیل شده‌است.

مزیت اصلی Spark سرعت آن است. این پلتفرم می‌تواند بارهای کاری Hadoop را بسیار سریعتر از چارچوب معمولی اجرا کند. همچنین Spark شامل کتابخانه‌هایی برای کار با زبان پرسمان ساخت‌یافته (SQL) در پایگاه داده‌ها و ماشین لرنینگ است. بیش از ۱۰۰ شرکت و سازمان برای پروژه‌های کلان داده‌ی خود از Spark استفاده می‌کنند.

RapidMiner

ابزار RapidMiner، پلتفرمی‌است که بسیاری از وظایف تجزیه و تحلیل داده‌ها را خودکار می‌سازد. استودیوی RapidMiner، اقدام به ارائه‌ی API می‌کند که دارای ویژگی‌های کاربرپسند مختلفی است: رابط بصری با قابلیت کشیدن و رها کردن (Drag and Drop)، کتابخانه‌ی مدل‌سازی با بیش از ۱۵۰۰ الگوریتم و عملکرد، و الگوهایی برای ارزیابی ریزش مشتری، انجام تحلیل‌های پیش‌بینی‌کننده، و کشف کلاه‌برداری.

کاربران می‌توانند با استفاده از این ابزار (مانند سایر پلتفرم‌های مشابه دیگر)، اکثر منابع داده از جمله پایگاه‌های داده‌ی داخلی را به RapidMiner متصل کرده و داده‌ها را بدون نوشتن کد SQL پیچیده، جستجو کنند. همچنین RapidMiner ابزارهایی را برای تهیه و تجسم داده‌ها (که یکی از زمان برترین اجزای پروژه‌های داده‌کاوی است) ارائه می‌کند.

مدل‌سازIBM SPSS

مدل‌ساز SPSS IBM، چارچوبی برای علم داده بصری و ماشین لرنینگ است. این ابزار به این منظور طراحی شده‌است تا متخصصان علم داده بتوانند کارهای خود را سریع‌تر انجام دهند. این ابزار از بیش از ۴۰ الگوریتم برای تجزیه و تحلیل داده‌ها استفاده می‌کند و می‌تواند با چندین منبع داده (از جمله Hadoop و محیط‌های مبتنی بر ابر) مورد استفاده قرار گیرد. همچنین این ابزار قابلیت یکپارچه شدن با Apache Spark را نیز دارد.

همچنین ابزار مدل‌ساز SPSS با زبان‌های برنامه نویسی مانند پایتون و R نیز ادغام می‌شود و دارای کتابخانه‌ی آماری بزرگ و همچنین مجموعه‌ی گسترده‌ای از فیلم‌ها و آموزش‌ها است.

متداول‌ترین تکنیک‌های داده‌کاوی چه مواردی هستند؟

متخصصان علم داده از روش‌های مختلفی برای ذخیره و جستجوی داده‌ها و همچنین مدل‌های مختلفی برای تجزیه و تحلیل آن‌ها استفاده می‌کنند. تکنیک‌ها و اصطلاحات فراوانی وجود دارند و تحلیلگران مشتاق داده باید با آن‌ها آشنا باشند.

ماشین لرنینگ

داده‌کاوی و ماشین لرنینگ دارای ویژگی‌های مشترکی هستند و هر دو زیر چتر علم داده قرار می‌گیرند. با این حال، آن‌ها تفاوت‌های مهمی نیز با یکدیگر دارند.

در حالی که داده‌کاوی، فرآیند استخراج اطلاعات از داده‌ها است، ماشین لرنینگ فرآیندی است که فرآیند تجزیه و تحلیل داده‌ها را به رایانه‌ها آموزش می‌دهد. در واقع متخصصان علم داده، اقدام به توسعه‌ی الگوریتم‌هایی می‌کنند که به رایانه‌ها آموزش می‌دهند تا بسیاری از فرآیندهای داده‌کاوی که شرکت‌ها به آن‌ها نیاز دارند را انجام دهند: افزایش کارایی و حجم تجزیه و تحلیل قابل تکمیل.

معمولا ماشین لرنینگ به عنوان جزئی از داده‌کاوی مورد استفاده ‌قرار می‌گیرد. بسیاری از شرکت‌ها از ماشین لرنینگ برای انجام تجزیه و تحلیلِ بخش‌بندی ویژگی‌های مختلف بر روی پایگاه مشتری خود استفاده می‌کنند. به عنوان مثال، سرویس‌های استریمینگ می‌توانند از ماشین لرنینگ برای بررسی عادات تماشای کاربران و توصیه ژانرها یا برنامه‌های جدیدی که ممکن است دوست داشته باشند، استفاده کنند. به هر میزانی که الگوریتم بهتر باشد، به همان میزان نیز توصیه‌ها دقیق‌تر و بهتر خواهند بود.

تجسم داده‌ها

پروژه‌های داده‌کاوی که به شیوه‌ی موفقیت‌آمیزی اجرا شده‌اند می‌توانند واضح‌ترین و مفیدترین اطلاعات را در اختیار متخصصان و کارفرمایان قرار دهند. اما اگر این داده‌ها به صورت عددی در صفحه باشند، به درد تصمیم‌گیرندگان نخواهند خورد.

تجسم داده‌ها به تحلیلگران اجازه می‌دهد تا اکتشافات خود را از طریق چارت‌ها، جدول‌ها، نمودارهای پراکنده، نقشه‌های حرارتی، گرافیک‌های مارپیچی، نمودارهای جریان و غیره به اشتراک بگذارند. تجسم‌ها می‌توانند ایستا یا تعاملی باشند و از همه آن که می‌توانند اطلاعات حیاتی مورد نیاز برای تصمیم‌گیری‌های کلیدی تجاری را به طور مؤثری منتقل کنند.

برخی از ابزارهایی که پیش‌تر به بررسی آن‌ها پرداختیم، پلتفرم‌های تجسم را ارائه می‌دهند؛ به این معنا که آن اعضای تیم که نمی‌توانند کدنویسی کنند، همچنان می‌توانند تجسم داده‌ها را ایجاد کنند. با این حال، بسیاری از متخصصان علوم داده برای تقویت مهارت‌های تجسم خود، HTML/CSS یا جاوا اسکریپت را می‌آموزند.

تکنیک‌های آماری

داده‌کاوی از روش‌های آماری مختلفی برای تجزیه و تحلیل مجموعه کلان‌داده‌ها استفاده می‌کند و پلتفرم‌های داده‌کاوی (مانند مواردی که در بالا بررسی شدند) می‌توانند داده‌کاوی را آسان‌تر کنند. با این حال، یادگیری تکنیک‌های آماری داده‌کاوی باعث می‌شود تا تحلیل‌گران بتوانند درک بیشتری از کاری که انجام می‌دهند و شیوه‌ی اجرای بهتر آن، به دست آورند.

برخی از تکنیک‌های آماری شامل رگرسیون، طبقه‌بندی، بازنمونه‌گیری (استفاده از نمونه‌های متعدد از یک مجموعه داده) و ماشین‌های بردار پشتیبانی (زیر مجموعه‌ی الگوریتمی طبقه‌بندی) می‌باشند.

وابستگی

تحلیلگران داده از قانون وابستگی برای یافتن روابط در الگوهای داده‌های غیر شهودی استفاده می‌کنند و می‌فهمند که کدام ارزش‌های تجاری به آن الگوها وابسته و مرتبط هستند.

تجزیه و تحلیل‌تراکنشی یا رفتار متقابل (Transactional Analysis)، یکی از انواع رایج وابستگی است. خرده‌فروش‌ها مجموعه‌ای از سفرهای خرید بسیاری از مشتریان را اسکن می‌کنند و در بسیاری از معاملات برای یافتن الگوها جستجو می‌کنند. این تجزیه و تحلیل، الگوهایی که انتظار یافتن آن‌ها را دارید (مانند کره بادام زمینی و ژله، سس مایونز و نان) را برجسته می‌کند. همچنین این ارتباط، الگوهایی را نشان می‌دهد که روابط غیر شهودی (مانند کافی کریمر و خوشبوکننده‌ی هوا) دارند. سپس بررسی عمیق‌تری بر روی این الگوهای وابسته‌ی شناسایی‌شده صورت می‌گیرد و آن‌ها یا تأیید می‌شوند و به عنوان اطلاعات کاربردی منتقل می‌شوند (به عنوان مثال، الگوی خامه قهوه/خوشبوکننده هوا به دلیل موارد فصلی مانند خامه زنجبیلی و خوشبوکننده هوای بلسان رخ می‌دهد) و یا به عنوان اختلال‌آور، کنار گذاشته می‌شوند (به عنوان مثال، همزمان با برنامه‌های تبلیغاتی، دو کالا را به طور مکرر در یک زمان به فروش برسند).

طبقه‌بندی

تکنیک طبقه‌بندی به ویژگی‌های مرتبط با یک مجموعه‌ی داده می‌پردازد که نتیجه‌ی مشخصی در آن رایج است (به عنوان مثال، مشتریانی که تخفیف خاصی را دریافت کرده و استفاده کرده‌اند). این تکنیک سپس به دنبال آن ویژگی‌های رایج در یک مجموعه‌ی داده‌ی گسترده‌تر می‌گردد تا مشخص کند که کدام نقاط داده می‌توانند منعکس‌کننده‌ی آن نتیجه باشند (به عنوان مثال، کدام مشتریان تمایل دارند که در صورتی که تخفیفی به آن‌ها ارائه شود، از آن استفاده کنند). مدل‌های طبقه‌بندی می‌توانند به کسب و کارها کمک کنند تا بودجه‌ی مؤثرتری داشته باشند، تصمیمات تجاری بهتری اتخاذ کنند و نرخ بازگشت سرمایه (ROI) را با دقت بیشتری تخمین بزنند.

درخت‌های تصمیم (Decision Trees) زیرمجموعه‌ای از ماشین لرنینگ می‌باشند. آن‌ها الگوریتم‌هایی هستند که هنگام اجرای مدل‌های طبقه‌بندی یا رگرسیون در داده‌کاوی مورد استفاده قرار می‌گیرند. این الگوریتم می‌تواند سوالات ساده‌ی بله یا خیر را از نقاط داده بپرسد تا بتواند آن‌ها را در گروه‌های مختلفی طبقه‌بندی کند. این کار به کسب اطلاعات مفید کمک می‌کند. به عنوان مثال ممکن است که مؤسسات مالی به منظور مشخص کردن واجد شرایط بودن وام بر اساس داده‌های طبقه‌بندی مرتبط مانند آستانه‌ی درآمد، مدت تصدی حساب، درصد اعتبار استفاده‌شده و امتیاز اعتباری مورد استفاده، از درخت تصمیم بهره ببرند.

خوشه‌بندی

داده‌کاوی‌ها می‌توانند با استفاده از خوشه‌بندی، گروه‌هایی را در یک مجموعه‌ی داده بر اساس ویژگی‌های مشابه شناسایی کرده و ایجاد نمایند. این فرآیند به منظور تجزیه و تحلیل داده، آن‌ها را به زیر مجموعه‌ها یا خوشه‌ها تقسیم می‌کند. انجام این کار، تصمیم‌گیری آگاهانه‌تری را بر اساس مجموعه‌های هدفمند داده‌ها، فراهم می‌کند.

تحلیلگران از چندین تکنیک خوشه‌بندی مختلف استفاده می‌کنند. آن‌ها از روش پارتیشن بندی استفاده می‌کنند؛ به عنوان مثال، تقسیم داده‌ها به خوشه‌هایی که بتوان آن‌ها را به طور جداگانه‌ای تجزیه و تحلیل کرد. الگوریتم K-Means روش محبوبی برای خوشه‌بندی پارتیشنی است. این الگوریتم بدین‌گونه عمل می‌کند که ابتدا به کاربر اجازه می‌دهد تا تعدادی K-cluster را به عنوان مرکز (یا نقاط مرکزی) یا تکرارهایی که الگوریتم از طریق آن‌ها اجرا می‌شود، انتخاب کند. سپس، نزدیک‌ترین اشیاء به این نقاط گروه‌بندی می‌شوند تا «تعداد K خوشه» را تشکیل دهند و با هر تکرار، فاصله‌ی مرکز برای هر خوشه تغییر می‌کند و بر این اساس به‌روزرسانی می‌شود. این فرآیند تا زمانی تکرار می‌شود که در هیچ خوشه‌ای هیچ تغییری در فاصله‌ی مرکز ایجاد نشود. یکی از کاربردهای جالب استفاده از الگوریتم K-Means در خوشه‌بندی پارتیشن آن است که هنگام انتخاب تیم فانتزی فوتبال، به دنبال بازیکنان کم‌استفاده/کشف نشده بگردید. این الگوریتم می‌تواند از آمار یک بازیکن فوق‌ستاره به‌عنوان مرکز استفاده کند و سپس از طریق تکرارهایی که دسته‌هایی از ویژگی‌ها یا بازیکنان را شناسایی می‌کند (بر اساس ویژگی)، بهره ببرد.

برعکس، در روش سلسله مراتبی، نقاط داده‌ی منفرد به عنوان یک خوشه‌ی منفرد در نظر گرفته می‌شوند و سپس می‌توان آن‌ها را بر اساس شباهت‌های آن‌ها گروه‌بندی کرد. دندروگرام، نمونه عملی از روش سلسله مراتبی است. در واقع دندروگرام، ساختار شبکه‌ای درخت‌مانندی است که از نقاط داده یا گره‌های به هم پیوسته تشکیل شده است. این ساختار برای نشان دادن روابط طبقه‌بندی، مورد استفاده قرار می‌گیرد. دندروگرام‌ها، تکنیک تجسم رایجی برای نمایش خوشه‌های سلسله مراتبی هستند. در مثال تیم فانتزی فوتبال می‌توان از دندروگرام برای تجسم فرآیندی استفاده شود که یا ما انتخاب کرده‌ایم و یا طبق ارزیابی‌ها و ویژگی‌های مورد نظر ما بر اساس گزینه‌های بازیکن بوده‌است.

پاک‌سازی و آماده‌سازی داده‌ها

طبق گفته‌ی فوربس، یکی از مشکلات اصلی تجزیه و تحلیل داده‌ها، وجود داده‌های بد است. به همین دلیل نیز، پاک‌سازی و آماده‌سازی داده‌ها اهمیت زیادی دارد.

این فرآیند بر دستیابی به داده‌های مناسب و اطمینان از دقیق و سازگار بودن آن‌ها تمرکز دارد. خطاها، تفاوت‌های قالب‌بندی و مجموعه‌های تهی غیرمنتظره می‌توانند باعث ایجاد اختلال در فرآیند ماینینگ شوند.

مراحل پاک‌سازی داده‌ها شامل تأیید فرمت صحیح داده‌ها، حذف داده‌های غیر ضروری یا نامربوط، حذف مجموعه‌های تکراری و تصحیح مسائل ساده مانند خطاهای ورودی هستند. حتی بهترین الگوریتم نیز نمی‌تواند با داده‌های ناقص یا خراب کار کند.

ذخیره‌سازی داده‌ها

کسب و کارهایی که تولید محصول دارند به مکان‌های قابل دسترس، امن و سازمان‌یافته‌ای نیاز دارند تا بتوانند آن محصولات را تا زمان توزیع، ذخیره کنند. همین موضوع درباره‌ی داده‌ها نیز صدق می‌کند.

کسب و کارهایی که حجم قابل توجهی از داده‌ها را ایجاد می‌کنند باید آن‌ها را به درستی جمع‌آوری کرده و ذخیره نمایند تا بتوانند تجزیه و تحلیل مناسبی از آن‌ها داشته باشند. انبار داده (Data Warehouse)، فرآیند سه مرحله‌ای است که معمولاً با عنوان ETL شناخته می‌شود؛ این عبارت، مخفف کلمات استخراج (Extract)، تبدیل (Transform) و بارگذاری (Load) است. داده‌ها از منبع خود به منطقه‌ی عملیاتی استخراج می‌شوند، جایی که تبدیل (یا پاک‌سازی) و اعتبارسنجی صورت می‌گیرد. سپس در انبار داده، بارگذاری می‌شوند.

انبارداری مناسب، اهمیت زیادی برای کسب و کارهایی دارد که حجم زیادی از داده‌ها را تولید می‌کنند. کسب و کارها می‌توانند با ذخیره‌ی درست این داده‌ها، به راحتی آن‌ها را برای الگوها و روندها، داده‌کاوی کنند.

یافتن داده‌های پرت

اکثر تکنیک‌های داده‌کاوی به دنبال یافتن الگو در داده‌ها هستند. در یافتن داده‌های پرت باید به دنبال پیدا کردن نمونه‌هایی بود که منحصر به فرد هستند.

این فرآیند به دنبال داده‌هایی می‌گردد که با بقیه‌ی مجموعه در تضاد هستند. این داده‌ها می‌توانند شامل خطاها باشند (شاید برخی از داده‌ها به اشتباه وارد شده باشند) یا داده‌هایی که اطلاعات تجاری منحصر به فردی را ارائه می‌دهند. تحلیلگران می‌توانند مقدار عددی پرت بودن را آزمایش کنند، یکDBScan  (که نقاط نویز را مشخص می‌کند) را اجرا کنند، یا ناهنجاری‌ها را در مجموعه‌ی بزرگی از داده‌ها (جنگل ایزوله) جدا کنند.

یافتن داده‌های پرت می‌تواند به کسب و کارها کمک کند تا خریدهای منحصر به فرد را درک کنند (به عنوان مثال، لباس‌های شنا در زمستان)، کلاه‌برداری‌ها را شناسایی نمایند و جریان لجستیکی موجود در فرآیند تولید را بهبود بخشند.

پیش‌بینی

یکی از اهداف اساسی داده‌کاوی، پیش‌بینی است. کسب و کارها از مدل‌سازی پیش‌بینی برای پاسخ به این سوال استفاده می‌کنند: «چه اتفاقی در آینده خواهد افتاد؟»

مدل‌های پیش‌بینی، الگوها را در داده‌ها پیدا می‌کنند، سپس از آن الگوها برای ایجاد پیش‌بینی استفاده می‌نماید. این پیش‌بینی‌ها می‌توانند شامل عادات هزینه‌های مصرف‌کننده، نیازهای موجودی تأمین‌کننده، سایت‌هایی که افراد از آن‌ها بازدید کنند و غیره باشند.

انواع مختلفی از مدل‌های پیش‌بینی در دسترس هستند. مدل سازی پیش‌بینی به دنبال پاسخ به یک سوال خاص است. به عنوان مثال، فروشنده خودرو باید در ماه آینده چند خودروی شاسی بلند داشته باشد؟ مدل‌سازی سری‌های زمانی، داده‌ها را بر اساس تاریخ ورودی آن‌ها تجزیه و تحلیل می‌کند؛ مانند فروش محصول در یک سال خاص که ممکن است به پیش‌بینی فروش سال‌های بعد کمک کند.

رگرسیون

در داده‌کاوی، رگرسیون برای تجزیه و تحلیل روابط میان متغیرها به عنوان بخشی از فرآیند مدل‌سازی پیش‌بینی، مورد استفاده قرار می‌گیرد. می‌توان از آن برای پیش‌بینی فروش، سود، حجم محصول مورد نیاز، داده‌های آب و هوا و حتی نرخ بهبودی بیماران استفاده کرد. تحلیلگران در وهله‌ی اول از دو مدل رگرسیون استفاده می‌کنند. رگرسیون خطی، رابطه‌ی بین دو متغیر را تخمین می‌زند. به عنوان مثال ممکن است که یک محقق اجتماعی، رابطه‌ی بین موقعیت مکانی یک فرد و شادی کلی را مطالعه کند و از تحلیل رگرسیون برای تعیین این موضوع که آیا بین این دو متغیر، رابطه خطی وجود دارد یا خیر، استفاده نماید. همچنین رگرسیون خطی می‌تواند برای پیش‌بینی قیمت مسکن در بازار املاکی که خانه‌ها به طور کلی از نظر اندازه و ساختار در حال افزایش هستند، استفاده شود. در این مورد، یک متغیر (تغییرات در اندازه و ساختار خانه) در رابطه با متغیر دیگر (تغییرهای بعدی در قیمت) تحلیل می‌شود.

از سوی دیگر، رگرسیون چندگانه، رابطه‌ی بین متغیرهای متعدد یا نقاط داده را توضیح می‌دهد. به عنوان مثال، تحلیلگران در هنگام تجزیه و تحلیل داده‌های پزشکی مانند فشار خون یا سطح کلسترول می‌توانند از مدل‌های رگرسیون چندگانه برای بررسی متغیرهای مرتبطی مانند قد، سن و زمان صرف‌شده برای ورزش هوازی در یک هفته، استفاده کنند.

می‌توان به منظور تعیین میزان احتمال رسیدن به یک خروجی خاص از دو نتیجه، از درخت تصمیم در مدل‌های رگرسیون استفاده کرد. این مثال را در نظر بگیرید: یک شرکت دارای مجموعه ای از داده‌ها است که مشتریان را مرد یا زن و بر اساس سن‌شان مشخص کرده‌است. این شرکت با کمک الگوریتم درخت تصمیم می‌تواند یک سری سؤال بپرسد (“آیا مشتری زن است؟” و “آیا مشتری کمتر از ۳۵ سال است؟”) و نتایج را بر اساس آن، گروه‌بندی کند. این شیوه، ابزار رایجی در استراتژی بازاریابی است که به منظور هدف قرار دادن مشتریان بالقوه بر اساس جمعیت‌شناسی، مورد استفاده قرار می‌گیرد.

الگوهای متوالی

کاوش الگوهای متوالی، به دنبال رویدادهایی است که غالبا در داده‌ها رخ می‌دهند. این فرآیند شبیه قانون وابستگی است زیرا به دنبال یافتن روابط می‌باشد، اما این شیوه، الگوی منظمی را تشکیل می‌دهد.

یکی از مثال‌های مرتبط با این زمینه، الگوهای خرید است. معمولا خرده فروشان، محصولات را در نزدیکی یکدیگر قرار می‌دهند چرا که اغلب مشتریان به ‌ترتیب خرید می‌کنند. مثال دیگر، شیوه‌ای است که تبلیغات اینترنتی، مخاطبان را هدف قرار می‌دهد. این هدف قرار دادن، بر اساس الگوی کلیک مرورگر می‌باشد. کسب و کارها می‌توانند با استفاده از الگوهای متوالی، نتایج را به صورت دقیق‌تری پیش‌بینی کنند.

ردیابی الگوها

فرآیند ردیابی الگو، اهمیت زیادی برای داده‌کاوی دارد. تحلیلگران، روندها و الگوهای داده‌های مرتبط با پیشرفت زمان را رصد می‌کنند. این کار به آنها اجازه می‌دهد تا بتوانند نتایج حساس به زمان بالقوه را پیش‌بینی کنند.

کسب و کارها باید بدانند که محصولات‌شان چگونه، چه زمانی و چند وقت یکبار خریداری می شوند. برای مثال، یک تولیدکننده‌ی تجهیزات ورزشی می‌تواند با دنبال کردن فروش فصلی وسایل بیسبال، توپ‌های فوتبال یا اسنوبرد، زمان‌های مناسب برای اجرای برنامه‌های بازیابی یا تبلیغاتی را شناسایی کند. مثال دیگر، اقامتگاه‌ها هستند که می‌توانند الگوهای خرید قبل از تعطیلات آخر هفته را دنبال کنند تا بفهمند چه مقدار کرم ضد آفتاب و آب معدنی دست‌نخورده باقی می‌مانند.

مهارت‌های مورد نیاز برای افزایش تجربه در زمینه‌ی تجزیه و تحلیل داده‌ها

طبق گزارش اداره آمار کار ایالات متحده (BLS)، صنعت علوم کامپیوتر و تحقیقات اطلاعات (که شامل تجزیه و تحلیل داده‌ها است) تا سال ۲۰۳۰ تا ۲۲ درصد رشد خواهد کرد. داده‌کاوی یکی از مهارت‌هایی است که می‌تواند احتمال مشغول به کار شدن شما در این زمینه را افزایش دهد. در زیر چند مهارت دیگر نیز معرفی شده‌اند:

  • مایکروسافت اکسل: این ابزار، بسیار وسیع‌تر از یک صفحه گسترده است. تحلیلگران می‌توانند با استفاده از اکسل اقدام به برنامه‌نویسی VBA، مدل‌سازی آماری و انجام پیش‌بینی‌های مختلف نمایند. اکسل هنوز هم به عنوان ابزار قدرتمندی در دنیای داده‌ها شناخته می‌شود.
  • ابزار پایتون: کتابخانه‌هایی مانند NumPy، Pandas، Matplotlib و Beautiful Soup به اهمیت پایتون در علم داده کمک می‌کنند.
  • کار با پایگاه داده: به یادگیری برنامه نویسی در SQL، NoSQL و MySQL توجه داشته باشید. همچنین نحوه‌ی کار با فریمورک‌هایی مانند MongoDB را نیز فرا بگیرید.
  • تکنیک‌های تجسم یا بصری‌سازی: مدیران و تصمیم‌گیرندگان به داده‌هایی توجه می‌کنند که نه تنها قابل اجرا هستند، که از نظر بصری نیز قانع‌کننده به نظر برسند. شما می‌توانید با یادگیری نحوه‌ی تجسم داده‌ها با استفاده از HTML/CSS، جاوا اسکریپت و غیره، داده‌های خود را زنده کنید.

شرکت‌ها به دنبال چیزی فراتر از داده‌ها هستند. آن‌ها به متخصص ماهری نیاز دارند که بداند چگونه داده‌ها را به موفقیت تجاری تبدیل کند. شما می‌توانید با افزایش مهارت خود در داده‌کاوی و سایر تکنیک‌های تحلیلی دیگر، سابقه‌ی کاری جذابی را برای خود فراهم کنید.