برترین ویژگی‌های جدیدی پلتفرم داده‌کاوی اورنج ۳

برترین ویژگی‌های جدیدی پلتفرم داده‌کاوی Orange 3

برترین ویژگی‌های جدیدی پلتفرم داده‌کاوی اورنج ۳

برترین ویژگی‌های جدیدی پلتفرم داده‌کاوی اورنج ۳ 700 500 دکتر علی ناصرحجتی

معرفی ابزار داده کاوی اورنج 

اورنج (Orange) یک نرم افزار داده کاوی است که توسط دانشگاه لیوبلیانای اسلوونی ارائه شده است.  نرم افزار داده کاوی اورنج ابزاریست بسیار کارآمد برای داده کاوی یا Data Mining که برپایه زبان برنامه نویسی پایتون است. مولفه‌های موجود در نرم افزار اورنج مبتنی بر کشیدن و رها کردن (Drag and drop) و ویجت (Widget) یا ابزارک هستند . این ویژگی کار با این نرم‌افزار را ساده و آسان نموده است. با استفاده از این نرم‌افزار می‌توان عملیات داده‌کاوی و تجزیه و تحلیل داده‌ها زا با مصورسازی (Visualization) و بدون نیاز به کدنویسی انجام داد و خروجی مناسبی را تهیه نمود. اخیرا اورنج ۳ منتشر شده است و نسبت به ورژن‌های قبلی خود تغییرات زیادی داشته است. برای آشنایی با ویژگی‌های ورژن سوم اورنج در این مطلب همراه ما باشید.

مزیت‌‎های اورنج ۳ (Orange 3)

 نرم‌افزار اورنج در طی ۱۸ سال سرویس دهی، تغییرات زیادی را داشته است. یکی از مهمترین تغییرات آن انتقال اخیر اوررنج به پایتون ۳ است که اجزای ++C را حذف کرده و در عوض از کتابخانه‌های اصلی پایتون مانند NumPy، SciPy و scikit-learn استفاده می‌کند. پلتفرم اورنج نسخه سوم خود را با بصری‌سازی‌های بهبود یافته و امکانات اضافی، به طور رسمی انتشار داد. در اینجا  چهار ویژگی جدید نسخه جدید اورنج را بررسی می‌کنیم.

۱. توانایی خواندن Google Sheets 

  با افزایش استفاده از سرویس‌های ابری مانند Google Drive، اورنج نیز از این قافله عقب نماند و حالا می‌تواند به طور رسمی با Google Sheets کار کند. اورنج ۳ قابلیت خواندن برگه‌های گوگل را دارد. این ویژگی جدید و کارآمد Orange فرصتی ایجاد می‌کند که کاربران بتوانند با داده های آنلاین از طریق URL ها کار کنند. این ویژگی باعث می‌شود که برای به اشتراک‌گذاری مجموعه داده‌ها و مقایسه نتایج نیازی به ارسال فایل‌ها از طریق ایمیل یا بارگیری آن‌ها نباشد. 

 

گوگل شیت google sheet

۲. نگهداری داده‌ها روی سرور راه دور

 اورنج ۳ کار بر روی پایگاه داده SQL به صورت آرام و پیوسته انجام می‌دهد. اساس کار بر این است که مجموعه داده‌های عظیمی که در حافظه RAM قرار نمی‌گیرند، به طور کارآمد تجزیه و تحلیل و تجسم شوند. در واقع اورنج ۳ بسیاری از ویجت‌ها از قبل، نوع داده‌های ورودی را تشخیص داده و محاسبات لازم را به صورت هوشمند انجام می‌دهد. این به این معنی است که داده‌ها از پایگاه داده دانلود نمی‌شوند و به صورت محلی تجزیه و تحلیل نمی‌شوند. اما در سرور راه دور نگهداری شده و وظایف محاسباتی برای ریکوئست‌های SQL ترجمه می‌شود و به موتور پایگاه داده بارگذاری می‌شوند.

این رویکرد از بهینه‌سازی‌های پیشرفته پایگاه‌های داده رابطه‌ای برای کار با داده‌هایی که در حافظه کاری جا نمی‌شوند بهره می‌برد و همچنین انتقال اطلاعات مورد نیاز به مشتری را به حداقل می‌رساند. زیرا ویجت Datasets اورنج ۳ مجموعه داده انتخابی را از سرور بازیابی کرده و به خروجی ارسال می‌کند. فایل در حافظه محلی دانلود می‌شود و بنابراین حتی بدون اتصال به اینترنت فوراً در دسترس است.

 

پایگاه داده اورنج سه

۳. رنگ کردن داده‌ها در اورنج ۳

اورنج در ورژن جدید خود تغییرات کوچکی را اعمال کرده است تا استفاده از Orange ساده شود. طراحان این ورژن سعی کرده‌اند تا کار‌های کوچک اضافه را حذف کنند. یکی از این گزینه‌ها مربوط به پالت‌های رنگی است. در نسخه‌های قبل اگر کاربری تصمیم داشت که در یک ویجیت مردان را آبی و زنان را صورتی کند مجبور بود در تمامی ویجیت‌ها این تنظیمات را انجام دهد. در حال حاضر ۳ Orange ویجتی برای تخصیص رنگ‌ها به کل طرح دارد. این تحول، صرفا یک تغییر کوچک است، اما همین جزئیات کوچک هستند که می‌توانند تمایز را رقم بزنند.

رنگ کردن داده‌ها در اورنج سه

۴.  بهبود پیش‌پردازش داده‌ها 

فرض کنید که مجموعه‌ای از داده‌های طبقه‌بندی‌شده با تعداد زیادی ویژگی دارید. می‌توان از انتخاب زیرمجموعه ویژگی استفاده کرده و سپس SVM یا logistic regression را از طریق اعتبارسنجی متقابل، تست نمود. اما این کار، اشتباه است. یکی از بخش‌هایی که یادگیرندگان اورنج باید فرا بگیرند پیش‌پردازش‌ها است.

یادگیری صحیح پیش‌پردازش‌ها امری حیاتی است. زیرا ممکن است با اشتباه در پیش‌پردازش‌هایی مانند انتخابگرهای زیرمجموعه ویژگی‌ها در ورودی عملیات بیش‌برازش را اجرا کنید و کل مسیر را اشتباه بروید. فهمیدن این موضوع که ممکن است از طریق استفاده نادرست از پیش‌پردازش، عملیات بیش‌برازش  را انجام دهید، هنوز هم امری آموزشی است. 

پیش پردازش‌ها در داده کاو اورنج