معرفی ابزار داده کاوی اورنج
اورنج (Orange) یک نرم افزار داده کاوی است که توسط دانشگاه لیوبلیانای اسلوونی ارائه شده است. نرم افزار داده کاوی اورنج ابزاریست بسیار کارآمد برای داده کاوی یا Data Mining که برپایه زبان برنامه نویسی پایتون است. مولفههای موجود در نرم افزار اورنج مبتنی بر کشیدن و رها کردن (Drag and drop) و ویجت (Widget) یا ابزارک هستند . این ویژگی کار با این نرمافزار را ساده و آسان نموده است. با استفاده از این نرمافزار میتوان عملیات دادهکاوی و تجزیه و تحلیل دادهها زا با مصورسازی (Visualization) و بدون نیاز به کدنویسی انجام داد و خروجی مناسبی را تهیه نمود. اخیرا اورنج ۳ منتشر شده است و نسبت به ورژنهای قبلی خود تغییرات زیادی داشته است. برای آشنایی با ویژگیهای ورژن سوم اورنج در این مطلب همراه ما باشید.
مزیتهای اورنج ۳ (Orange 3)
نرمافزار اورنج در طی ۱۸ سال سرویس دهی، تغییرات زیادی را داشته است. یکی از مهمترین تغییرات آن انتقال اخیر اوررنج به پایتون ۳ است که اجزای ++C را حذف کرده و در عوض از کتابخانههای اصلی پایتون مانند NumPy، SciPy و scikit-learn استفاده میکند. پلتفرم اورنج نسخه سوم خود را با بصریسازیهای بهبود یافته و امکانات اضافی، به طور رسمی انتشار داد. در اینجا چهار ویژگی جدید نسخه جدید اورنج را بررسی میکنیم.
۱. توانایی خواندن Google Sheets
با افزایش استفاده از سرویسهای ابری مانند Google Drive، اورنج نیز از این قافله عقب نماند و حالا میتواند به طور رسمی با Google Sheets کار کند. اورنج ۳ قابلیت خواندن برگههای گوگل را دارد. این ویژگی جدید و کارآمد Orange فرصتی ایجاد میکند که کاربران بتوانند با داده های آنلاین از طریق URL ها کار کنند. این ویژگی باعث میشود که برای به اشتراکگذاری مجموعه دادهها و مقایسه نتایج نیازی به ارسال فایلها از طریق ایمیل یا بارگیری آنها نباشد.
۲. نگهداری دادهها روی سرور راه دور
اورنج ۳ کار بر روی پایگاه داده SQL به صورت آرام و پیوسته انجام میدهد. اساس کار بر این است که مجموعه دادههای عظیمی که در حافظه RAM قرار نمیگیرند، به طور کارآمد تجزیه و تحلیل و تجسم شوند. در واقع اورنج ۳ بسیاری از ویجتها از قبل، نوع دادههای ورودی را تشخیص داده و محاسبات لازم را به صورت هوشمند انجام میدهد. این به این معنی است که دادهها از پایگاه داده دانلود نمیشوند و به صورت محلی تجزیه و تحلیل نمیشوند. اما در سرور راه دور نگهداری شده و وظایف محاسباتی برای ریکوئستهای SQL ترجمه میشود و به موتور پایگاه داده بارگذاری میشوند.
این رویکرد از بهینهسازیهای پیشرفته پایگاههای داده رابطهای برای کار با دادههایی که در حافظه کاری جا نمیشوند بهره میبرد و همچنین انتقال اطلاعات مورد نیاز به مشتری را به حداقل میرساند. زیرا ویجت Datasets اورنج ۳ مجموعه داده انتخابی را از سرور بازیابی کرده و به خروجی ارسال میکند. فایل در حافظه محلی دانلود میشود و بنابراین حتی بدون اتصال به اینترنت فوراً در دسترس است.
۳. رنگ کردن دادهها در اورنج ۳
اورنج در ورژن جدید خود تغییرات کوچکی را اعمال کرده است تا استفاده از Orange ساده شود. طراحان این ورژن سعی کردهاند تا کارهای کوچک اضافه را حذف کنند. یکی از این گزینهها مربوط به پالتهای رنگی است. در نسخههای قبل اگر کاربری تصمیم داشت که در یک ویجیت مردان را آبی و زنان را صورتی کند مجبور بود در تمامی ویجیتها این تنظیمات را انجام دهد. در حال حاضر ۳ Orange ویجتی برای تخصیص رنگها به کل طرح دارد. این تحول، صرفا یک تغییر کوچک است، اما همین جزئیات کوچک هستند که میتوانند تمایز را رقم بزنند.
۴. بهبود پیشپردازش دادهها
فرض کنید که مجموعهای از دادههای طبقهبندیشده با تعداد زیادی ویژگی دارید. میتوان از انتخاب زیرمجموعه ویژگی استفاده کرده و سپس SVM یا logistic regression را از طریق اعتبارسنجی متقابل، تست نمود. اما این کار، اشتباه است. یکی از بخشهایی که یادگیرندگان اورنج باید فرا بگیرند پیشپردازشها است.
یادگیری صحیح پیشپردازشها امری حیاتی است. زیرا ممکن است با اشتباه در پیشپردازشهایی مانند انتخابگرهای زیرمجموعه ویژگیها در ورودی عملیات بیشبرازش را اجرا کنید و کل مسیر را اشتباه بروید. فهمیدن این موضوع که ممکن است از طریق استفاده نادرست از پیشپردازش، عملیات بیشبرازش را انجام دهید، هنوز هم امری آموزشی است.