105060 - وکا
سلام روزتون بخیر بنده داشجویان ارشد فناوری اطلاعات هستم یکی از پروژه های پایان ترمم انجام پروزه weka است ] ۷ روز زمان دارم پس از نصب نرم افزار WEKA و برای استفاده از تمام قابلیتهای آن، در صفحه ابتدایی، از منوی Tools، بر روی گزینه Package Manager کلیک نمایید. سپس در پنجرهی جدید، گزینهی Available را انتخاب نموده، تمامی Package های ذیل آن را انتخاب (هایلایت) کرده (با کلیک بر روی یکی از آنها و استفاده از کلیدهای Ctrl + A روی صفحه کیبورد) و بر روی گزینه install کلیک نمایید. در صورتی که در مرحله نصب برخی Package ها، پیغام خطا نمایش داده شد، نگران نباشید و آن خطاها را OK کنید؛ مراحل نصب سایر Package ها ادامه خواهد یافت. دانشجویان عزیز با سلام و احترام؛ میتوانید جهت شروع پروژه پیادهسازی یک سیستم هوشمند مبتنی بر دادهکاوی با نرمافزار WEKA، از فایل زیر بعنوان یک دیتاست استاندارد، استفاده نمایید. البته استفاده از سایر دیتاستها نیز مشروط بر استاندارد بودن آنها و تأیید بنده، مجاز میباشد. انتظار میرود بعنوان اولین اقدام، الگوریتمهای انتخاب ویژگی Information Gain و Gain Ratio (هر دو فیلتر، مبتنی بر آنتروپی میباشند) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست ذیل را در چهار حالت ۱۰۰، ۲۰۰، ۳۰۰ و ۵۰۰ ویژگی (صفت خاصه) برای هر کدام بصورت مجزا، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید. شایان ذکر است مراحل پیشپردازش اولیه بر روی فایل دیتاست ذیلالاشاره، انجام پذیرفته و نیاز به طی مجدد این مراحل نمیباشد. موفق باشید این یکی از نسخ کامل مجموعه داده LingSpam است که برای تشخیص ماهیت ایمیلها (قانونی یا هرزنامه بودن آنها) در یک سیستم داده کاوی مبتنی بر الگوریتمهای یادگیری ماشین، مورد استفاده قرار میگیرد. در این فایل که به فرمت arff (قابل خواندن توسط نرمافزار WEKA) است، پیشپردازش اولیه N-Gram (با مقدار N=1) روی متون ایمیلها، اعمال شده و آماده برای اجرای سایر مراحل (اعم از استخراج و انتخاب ویژگی و نیز دسته بندی و ارزیابی مدل)، میباشد. دانشجویان عزیز با سلام و احترام و عرض تسلیت و تعزیت بهمناسبت شهادت حضرت فاطمه زهرا (س)؛ بعنوان دومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Chi Squared (مربع کای، مبتنی بر روش آماری کایدو) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست صدرالاشاره را در چهار حالت ۱۰۰، ۲۰۰، ۳۰۰ و ۵۰۰ ویژگی (صفت خاصه)، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید. مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد. موفق باشید دانشجویان عزیز با سلام و احترام؛ بعنوان سومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Wrapper (رپر) را روی نتایج تمامی فیلترهای مراحل قبلی (فیلترهای InformationGain, GainRatio, ChiSquared) اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب هر کدام را بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و رپر و تعداد ویژگی منتخب باشد، ذخیره نمایید. (بطور مثال: ChiSq100-WrMNB33 بهمعنای اینکه رپر MNB روی خروجی فیلتر مربع کای با 100 ویژگی اعمال شده و تعداد ویژگیها را به 33 عدد کاهش داده است؛ توجه فرمایید که ویژگی @@ class @@ نباید در شمارش ویژگیهای نهایی لحاظ گردد). مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد. نکته ۱) از الگوریتم Multinomial Naive Bayes (دستهبند MNB) بعنوان دستهبند رپر استفاده نمایید. دلیل استفاده از این دستهبند، سریع بودن آن و نیز این موضوع است که دستهبند مذکور، مخصوص کار با مباحث Text Mining (متن کاوی) میباشد. میتوان از دستهبندهای دیگر مثل درخت تصمیم (J48) نیز بعنوان دستهبند درون رپر استفاده نمود، لکن زمان پردازش برای انتخاب بهترین ویژگیها افزایش خواهد یافت. نکته ۲) نیازی به تغییر سایر مشخصات رپر نمیباشد؛ فقط دستهبند را به MNB یا هر دستهبند دیگر تغییر دهید. ضمناً روش جستجو نیز بصورت پیشفرض، الگوریتم BestFirst باشد. موفق باشید دانشجویان عزیز با سلام و احترام و عرض تبریک بهمناسبت روز دانشجو؛ انتظار میرود در گام پایانی انجام پروژه درسی با نرمافزار WEKA، فایل اکسل ذیل این پیام را بطور کامل تکمیل نمایید. ضمناً توجه به نکات زیر، ضروری میباشد. ۱) همراه فایل Excel، در یک فایل Word سه روشی را که از نظر شما بهترین انتخابها برای پیادهسازی این سیستم هوشمند میباشند، مشخص نموده (الزاماً سه روش انتخابی از سه روش دستهبندی متفاوت استفاده نمایند) و بطور کامل و به تفصیل، دلیل خود را برای این انتخابها بنویسید. ۲) در فایل Word مذکور، توضیح دهید که اگر بجای دستهبند MNB، از دستهبند دیگری (بطور مثال درخت تصمیم J48) درون Wrapper استفاده میشد، نتایج احتمالاً چه تغییری میکرد. ۳) نهایتاً تمامی فایلهای arff مراحل قبلی، بهمراه فایلهای Excel, Word صدرالاشاره را در یک پوشه (با فرمت rar یا zip) ذخیره نموده و صرفاً از طریق ایتا، یا از طریق ایمیل زیر، ارسال بفرمایید. dr.sm.pourhashemi@gmail.com ۴) برای معیارهای ارزیابی مندرج در فایل Excel، عدد میانگین دو کلاس (Spam, Legitimate) را در نظر بگیرید. ۵) از روش k-fold Cross Validation با مقدار k=10 برای تقسیمبندی مجموعههای آموزشی و آزمایشی استفاده نمایید. ۶) دلیل عدم استفادهی مستقیم از فایلهای با ۳۰۰ و ۵۰۰ ویژگی، زمان غیر بهینهی آنها در مقایسه با سایر موارد میباشد. ۷) با برخی از دستهبندها تا کنون آشنا شدهاید و جزییات سایر دستهبندها را انشالله در جلسات آینده فرا خواهید گرفت. ۸) مهلت ارسال پروژه، حداکثر تا تاریخ ۱۰ دی ماه ۱۴۰۴ میباشد. ۹) در ابتدای فایل Word، نام و نامخانوادگی و شماره دانشجویی اعضای گروه را مرقوم بفرمایید. موفق باشید توضیحات استاد در رابطه با اجرای پروژه #حمیدی
امتیاز : 8.92 از 10
فایل ضمیمه
هیچ فایلی ضمیمه نشده است
- اطلاعات پروژه
- 16300کد پروژه
-
برنامه نویسی با زبانهای مختلف ، طراحی سایت و نرم افزار
دسته بندی - 30 آذر 1404تاریخ ثبت
- 4 روزمهلت اجرا
- 300,000 تومانحداقل بودجه
- 1,000,000 تومانحداکثر بودجه
- 5 درصد ضمانت اجرا
- آماده دریافت پیشنهادها وضعیت
تایم لاین پروژه
درخواست پشتیبانی-
در انتظار پرداخت
پرداخت تعرفه ثبت پروژه های غیر رایگان
-
در حال بررسی
برسی و تایید پروژه از طرف مدیرت سایت
-
آماده دریافت پیشنهادها
تایید پروژه و نمایش برای مجریان
-
در انتظار پرداخت هزینه پروژه
پرداخت هزینه اجرای پروژه توسط کارفرما
-
در انتظار پرداخت ضمانت اجرا
پرداخت مبلغ ضمانت اجرا توسط مجری
-
در حال انجام
پروژه شما درحال انجام می باشد
-
انجام شد
اتمام اجرای پروژه
لیست پیشنهادها
در حال بارگذاری...