فروشگاه تخصصی فروش فایل ها و تحقیقات دانشجویی و قطعه کدهای برنامه نویسی و ویدیو های آموزشی

دسته بندی محصولات

محبوبترین محصولات

اطلاعیه فروشگاه

توجه : به لطف خداوند متعادل و تلاش مضاعف و پشتیبانی خوب فایل سل سایت پارس هم اکنون به رتبه 1 در فایل سل دست پیدا کرده است توجه : دانشجویان و افرادی که قصد خرید دارند و ایمیل ندارند برای خرید میتوانند ایمیل مدیر فروشگاه را به آدرس moradi.infomail@gmail.com وارد کنند و با این ایمیل و شماره تلفن خودتون اقدام به خرید کنید و در صورت مشکل میتوانید با شماره پشتیبانی فروشگاه در تلگرام با شماره 09398634021 ارتباط برقرار کنید

پروژه کامل و جامع بررسی مفصل داده کاوی پويا با استفاده از عامل

پروژه کامل و جامع بررسی مفصل داده کاوی پويا با استفاده از عامل

فرمت فایل : word (قابل ویرایش) تعداد صفحات : 190 صفحه

 

 

 

 

چکيده

امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهره­گيری از روشهايی همچون داده­کاوی برای استخراج دانش و اطلاعات نهفته در داده­ها، امری غيرقابل اجتناب می­باشد. بدليل حجم بسيار بالای داده­ها در بسياری از کاربردها و اهميت بيشتر داده­های جديد، ذخيره­سازی اين داده­ها امری مقرون به صرفه نيست، لذا داده­هايی که بايد مورد پردازش قرار گيرند، همواره بصوت پويا در حال تغيير و تحول هستند. مساله ديگری که امروزه در بحث داده­کاوی وجود دارد، بحث توزيع شدگی ذاتی داده­ها است. معمولا پايگاههايی که اين داده­ها را ايجاد يا دريافت می­کنند، متعلق به افراد حقيقی يا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود می­باشند و حاضر نيستند دانش خود را بطور رايگان در اختيار ديگران قرار دهند.

با توجه به قابليتهای عامل و سيستمهای چندعامله و مناسب بودن آنها برای محيطهای پويا و توزيع شده بنظر می­رسد که بتوان از قابليتهای آنها برای داده­کاوی در محيطهای پويا و محيطهای توزيع شده بهره برد. اکثر کارهايی که تاکنون در زمينه بهره­گيری از عامل و سيستمهای چندعامله انجام شده است خصوصيتهايی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، يادگيری، قابليت استدلال، هدفگرايی و قابليتهاي اجتماعی عاملها مورد بررسی قرار نگرفته است. در اين تحقيق ما قصد داريم تا ضمن بررسی کارهای موجود در زمينه کاربرد عامل و سيستمهای چندعامله در داده­کاوی، بحث طبقه­بندی جريان داده­ها را در يک محيط پويا مورد بررسی قرار دهيم. ما مساله خود را در دو فاز مورد بررسی قرار خواهيم داد. در فاز اول خصوصيتهای يک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابليتهای اجتماعی عاملها مانند مذاکره، دستيابی به توافق و ... برای داده­کاوی در يک محيط پويا و توزيع­شده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی اين تحقيق عبارتند از 1) ارائه يک رويکرد مبتنی بر عامل برای مساله طبقه­بندی جريان داده­های دارای تغيير مفهوم و پويا با استفاده از قابليتهای هدفگرايی، هوشمندی، يادگيری و استدلال 2) ارائه يک رويکرد مبتنی بر سيستمهای چندعامله برای طبقه­بندی جريان داده­های توزيع­شده در يک محيط رقابتی با استفاده از قابليتهای اجتماعی عاملها و دستيابی به توافق. نتايج حاصل از آزمايشات انجام شده در اين پايان­نامه نشان­دهنده برتری استفاده از عاملها و سيستمهای چندعامله برای بحث طبقه­بندی و داده­کاوی در محيطهای پويا و توزيع شده می­باشد.

 

کلمات کليدی:

داده­کاوی[1]، طبقه­بندی[2]، جريان داده[3]، عامل[4].

 

 

فهرست مطالب

 

  1. فصل اول - معرفی و آشنايی با مفاهيم اوليه. 1

1-1- مقدمه­ای بر داده­کاوی.. 2

1-1-1- خوشه­بندی.. 3

1-1-2- کشف قواعد وابستگی.. 4

1-1-3- طبقه­بندی.. 4

1-1-3-1- طبقه­بندی مبتنی بر قواعد. 5

1-2- داده­کاوی توزيع­شده 7

1-3- عاملها و سيستمهای چندعامله. 8

1-3-1- عامل.. 8

1-3-1-1- مقايسه عامل با شی.. 9

1-3-1-2- معماری عاملها 11

1-3-1-3- معماری BDI 12

1-3-2- سيستم­های چندعامله. 14

1-3-2-1- مذاکره 17

1-4- بهره­گيری از عامل برای داده­کاوی.. 19

1-4-1- سيستم­های چندعامله، بستری برای داده­کاوی توزيع شده 19

1-5- جمع­بندی.. 22

  1. فصل دوم - داده­کاوی پويا 23

2-1- مقدمه­ای بر داده­کاوی پويا 24

2-2- جريان داده 25

2-3- طبقه­بندی جريان داده 26

2-3-1- موضوعات پژوهشی.. 27

2-4- جمع­بندی.. 31

  1. فصل سوم - مروری بر کارهای انجام شده 33

3-1- مقدمه. 34

3-2- داده­کاوی توزيع­شده ايستا 35

3-2-1- روشهای غيرمتمرکز. 36

3-2-2- روشهای مبتنی بر توزيع ذاتی داده­ها 37

3-3- کارهای مهم انجام شده در زمينه داده­کاوی با استفاده از عامل.. 38

3-4- کارهای انجام شده در زمينه طبقه­بندی جريان داده­ها 41

3-4-1- روشهای طبقه­بندی Ensemble-based. 41

3-4-2- درختهای تصميم بسيار سريع. 43

3-4-3- طبقه­بندی On-Demand. 46

3-4-4- OLIN.. 48

3-4-5- الگوريتمهای LWClass. 49

3-4-6- الگوريتم ANNCAD.. 51

3-4-7- الگوريتم SCALLOP. 51

3-4-8- طبقه­بندی جريان داده­ها با استفاده از يک روش Rule-based. 53

3-5- جمع­بندی.. 54

  1. فصل چهارم - تعريف مساله. 55

4-1- مقدمه. 56

4-2- تعريف مساله برای فاز اول. 56

4-2-1- جريان داده 57

4-2-2- مفهوم يا مدل موجود در جريان داده 57

4-2-3- مساله طبقه­بندی جريان داده­های دارای تغيير مفهوم. 57

4-3- تعريف مساله برای فاز دوم. 59

  1. فصل پنجم - رويکردهای پيشنهادی.. 62

5-1- مقدمه. 63

5-2- رويکرد پيشنهادی برای فاز اول پروژه 63

5-2-1- عامل و ويژگيهای آن در اين مساله. 64

5-2-2- عملکرد کلی عامل.. 65

5-2-3- معماری عامل.. 66

5-2-3-1- حسگرها 67

5-2-3-2- پايگاه دانش عامل.. 68

5-2-3-3- تابع ارزيابی محيط.. 70

5-2-3-3-1- نحوه تشخيص اطلاعات و نگهداری الگوهای recur در جريان داده 70

5-2-3-3-2- نحوه استخراج الگوهای recur 70

5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73

5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع يک الگوی خاص... 74

5-2-3-4- تابع سودمندی.. 75

5-2-3-5- بخش تصميم­گيری و Planning. 79

5-2-3-5-1- بخش تصميم­گيری.. 79

5-2-3-5-2- Planning. 83

5-2-3-6- بخش Action. 86

5-3- رويکرد پيشنهادی برای فاز دوم مساله. 87

5-3-1- عاملهای مشتری.. 88

5-3-2- عامل صفحه زرد. 90

5-3-3- عاملهای داده­کاو 91

5-3-3-1- معماری عاملهای داده­کاو 92

5-3-3-1-1- تابع BRF. 94

5-3-3-1-2- تابع Generate Options. 95

5-3-3-1-3- تابع فيلتر. 95

5-3-3-1-4- بخش Actions. 96

5-3-3-1-5- Plan های عامل.. 97

5-3-3-1-5- 1- Plan مربوط به طبقه­بندی.. 97

5-3-3-1-5-2- Plan مربوط به تطبيق طبقه­بند 98

5-3-3-1-5-3- Plan مربوط به خريد و فروش قواعد با استفاده از مذاکره 101

5-4- جمع­بندی.. 111

  1. فصل ششم - آزمايشات و نتايج. 113

6-1- مقدمه. 114

6-2- محيط عملياتی.. 114

6-3- مجموعه داده­های مورد استفاده 116

6-3-1- مجموعه داده­های استاندارد. 116

6-3-2- مجموعه داده­های واقعی.. 117

6-4- معيارهای ارزيابی و روشهای مورد استفاده برای مقايسه. 117

6-5- آزمايشات انجام شده 118

6-5-1- آزمايشات مربوط به فاز اول. 119

6-5-2- آزمايشات مربوط به فاز دوم. 128

6-6- جمع­بندی.. 130

  1. فصل هفتم- جمع­بندی و نتيجه­گيری.. 132

 فهرست مراجع. 136

 

فهرست اشکال

 

  1. شکل 1-1- معماری BDI در عامل.. 15
  2. شکل 3-1- درخت تحقيق مربوط به طبقه­بندی در مبحث داده­کاوی.. 34
  3. شکل 3-2- طبقه­بندی مبتنی بر Ensemble. .44
  4. شکل 3-3- چارچوب روش On-Demand. 47
  5. شکل 3-4- نمايی از سيستم OLIN.. 49
  6. شکل 3-5- پروسه SCALLOP. 53
  7. شکل 5-1- نمودار ترتيب عملکرد عامل پيشنهادی.. 66
  8. شکل 5-2- معماری عامل پيشنهادی.. 67
  9. شکل 5-3- پنجره نظاره بر روی جريان داده­ها 68
  10. شکل 5-4- گراف ايجاد شده از روی رشته مفهوم­ها 71
  11. شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهوم­ها 73
  12. شکل 5-6- ميزان محاسبه شده احتمالها به ازای مقادير مختلف K.. 81
  13. شکل 5-7- شبه کد Plan کلی عامل.. 83
  14. شکل 5-8- نسبت واريانس به حاصلضرب 50 متغير دارای مجموع ثابت.. 85
  15. شکل 5-9- وزن دهی چند داده مختلف.. 86
  16. شکل 5-10- نمايی کلی از سيستم چندعامله ايجاد شده 88
  17. شکل 5-11- معماری BDI عامل داده­کاو 93
  18. شکل 5-12- بخشی از جريان داده و قواعد استخراج شده از آن. 99
  19. شکل 5-13- بخشی از جريان داده و قواعد استخراج شده از آن. 101
  20. شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka. 115
  21. شکل 6-2- زمان لازم بر حسب ميلی ثانيه برای داده­های Stagger 120
  22. شکل 6-3- زمان مصرف شده برای تطبيق طبقه­بند. 120
  23. شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای داده­های HyperPlan 121
  24. شکل 6-5- زمان مصرف شده برای تطبيق طبقه­بند 121
  25. شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای داده­های Nursery 122
  26. شکل 6-7- زمان مصرف شده برای تطبيق طبقه­بند برای داده­های Nursery 122
  27. شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124
  28. شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در يک بازه کوچکتر 124
  29. شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در يک بازه کوچکتر 125
  30. شکل 6-11- زمان مصرف شده برای تطبيق طبقه­بند برای داده­های HyperPlan 125
  31. شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger 126
  32. شکل 6-13- زمان مصرف شده برای تطبيق طبقه­بند برای داده­های Stagger 126
  33. شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery 127
  34. شکل 6-15- زمان مصرف شده برای تطبيق طبقه­بند برای داده­های Nursery 127
  35. شکل 6-16- نمودار نتايج حاصل از طبقه­بندی توزيع ­شده مجموعه داده Nursery 130

 

فهرست جدولها

 

  1. جدول 1-1- ويژگيهای يک عامل 11
  2. جدول 3-1- ماتريس حاصل از روش LWClass. 51
  3. جدول 3-2- مقايسه تکنيکهای ذکر شده 54
  4. جدول 5-1- ساختار اطلاعاتی ذخيره شده برای هر مفهوم و الگو. 69
  5. جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی "CFDA". 75
  6. جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل.. 81
  7. جدول 5-4- اطلاعات مورد استفاده برای تخمين سودمندی يک قاعده 105
  8. جدول 6-1- دقت طبقه­بندی روشهای مختلف.. 128
  9. جدول 6-2- نتايج حاصل از طبقه­بندی توزيع شده مجموعه داده Nursery در سه مفهوم مختلف.. 130

 

 

فصل اول

 

معرفی و آشنايی با مفاهيم اوليه

 

1-1- مقدمه­ای بر داده­کاوی

داده­کاوی به معنای يافتن نيمه خودکار الگوهای پنهان موجود در مجموعه داده­های[5] موجود می­باشد[38]. داده­کاوی از مدلهای تحليلی ، کلاس بندی و تخمين و برآورد اطلاعات و ارائه نتايج با استفاده از ابزارهای مربوطه بهره می گيرد. می­توان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بين داده­های فعلی و پيش­بينی موارد نامعلوم و يا مشاهده نشده عمل می­کند. برای انجام عمليات داده­کاوی لازم است قبلا روی داده­های موجود پيش­پردازشهايی انجام گيرد. عمل پيش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصه­سازی و کلی­سازی داده­ها تشکيل شده است. کاهش اطلاعات عبارت است از توليد يک مجموعه کوچکتر، از داده­های اوليه، که تحت عمليات داده­کاوی نتايج تقريبا يکسانی با نتايج داده­کاوی روی اطلاعات اوليه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصايص غير مرتبط نوبت به خلاصه­سازی و کلی­سازی داده­ها می رسد. داده­های موجود در بانک­های اطلاعاتی معمولا حاوی اطلاعات در سطوح پايينی هستند، بنابراين خلاصه­سازی مجموعه بزرگی از داده­ها و ارائه آن به صورت يک مفهوم کلی اهميت بسيار زيادی دارد. کلی­سازی اطلاعات، فرآيندی است که تعداد زيادی از رکوردهای يک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نمايد. خود روشهای داده­کاوی به سه دسته کلی تقسيم می­شوند که عبارتند از خوشه­بندی، طبقه­بندی و کشف قواعد وابستگی. در ادامه هر يک از اين روشها را بطور کلی معرفی می­نماييم.

 

1-1-1- خوشه­بندی

فرآيند خوشه­بندی سعی دارد که يک مجموعه داده را به چندين خوشه­ تقسيم نمايد بطوريکه داده­های قرار گرفته در يک خوشه با يکديگر شبيه بوده و با داده­های خوشه­های ديگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشه­بندی داده­ها وجود دارد که بر اساس نوع داده­ها، شکل خوشه­ها، فاصله داده­ها و غيره عمل خوشه­بندی را انجام می­دهند. مهمترين روشهای خوشه­بندی در زير معرفی شده­اند:

  • روشهای تقسيم­بندی : روشهای خوشه­بندی که بروش تقسيم بندی عمل می­کنند، داده­های موجود در يک مجموعه داده را به k خوشه تقسيم می­کنند، بطوريکه هر خوشه دو خصوصيت زير را داراست :
    • هر خوشه يا گروه حداقل شامل يک داده می­باشد.
    • هر داده موجود در مجموعه داده دقيقا به يک گروه يا خوشه تعلق دارد.

معيار اصلی در چنين مجموعه داده­هايی ميزان شباهت داده­های قرار گرفته در هر خوشه می­باشد. در حاليکه داده­های قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادی دارند. مقدار k که بعنوان پارامتر استفاده می­گردد، هم می­تواند بصورت پويا تعيين گردد و هم اينکه قبل از شروع الگوريتم خوشه­بندی مقدار آن مشخص گردد.

 

  • روشهای سلسله مراتبی : روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسيم می­گردند. روشهای سلسله مراتبی bottom-up به اين صورت عمل می­کنند که در شروع هر کدام از داده­ها را در يک خوشه جداگانه قرار می­دهد و در طول اجرا سعی می­کند تا خوشه­هايی نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زمانی که يا تنها يک خوشه داشته باشيم و يا اينکه شرط خاتمه برقرار گردد، ادامه می­يابد. روشهای top-down دقيقا بطريقه عکس عمل می­کنند، به اين طريق که ابتدا تمام داده­ها را در يک خوشه­ قرار می­دهد و در هر تکرار از الگوريتم، هر خوشه به خوشه­های کوچکتر شکسته می­شود و اينکار تا زمانی ادامه می­يابد که يا هر کدام از خوشه­ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر يا خوشه می­باشد.

 

  • روشهای مبتنی بر چگالی : اکثر روشهای خوشه­بندی که بروش تقسيم­بندی عمل می­کنند معمولا از تابع فاصله بعنوان تابع معيار خود بهره می­برند. استفاده از چنين معياری باعث می­گردد که الگوريتم خوشه­بندی تنها قادر به ايجاد خوشه­هايی با اشکال منظم باشد. در صورتيکه اگر خوشه­های واقعی در داده­ها دارای اشکال غيرمنظمی باشند، اين الگوريتم­ها در خوشه­بندی آنها با مشکل مواجه می­گردند. برای حل اينگونه مشکلات يکسری از روشها برای خوشه­بندی پيشنهاد گرديده­اند که عمل خوشه­بندی را بر مبنای چگالی داده­ها انجام می­دهند. ايده اصلی در اين روشها بر اين اساس است که خوشه­ها تا زمانی که داده­های قرار گرفته همسايگی خوشه­ها از حد معينی بيشتر باشد، رشد می­کنند و بزرگ می­شوند. چنين روشهايی قادرند خوشه­هايی با شکلهای نامنظم نيز ايجاد نمايند.

البته دسته ديگری از روشهای خوشه­بندی مانند روشهای مبتنی بر گريد، روشهای مبتنی بر مدل و ... وجود دارند که می­توانيد آنها را در ]38[ مطالعه نماييد.

 

1-1-2- کشف قواعد وابستگی

بحث قواعد وابستگی به مقوله کشف عناصری يا المان­هايی در يک مجموعه داده می­پردازد که معمولا با يکديگر اتفاق می­افتند و بعبارتی رخداد آنها بنوعی با يکديگر ارتباط دارد. بطور کلی هر قاعده يا rule که از اين مجموعه داده­ بدست می­­آيد، دارای شکل کلی بصورت  می­باشد که نشان می­دهد چنانچه الگوی X اتفاق بيفتد، با احتمال بالايی الگوی Y نيز اتفاق خواهد افتاد. برای مطالعه بيشتر در مورد مقوله کشف قواعد وابستگی می­توانيد به ]38[ مراجعه نماييد.

 

1-1-3- طبقه­بندی

فرايند طبقه­بندی در واقع نوعی يادگيری با ناظر می­باشد که در طی دو مرحله انجام می­گردد. در مرحله اول مجموعه­ای از داده­ها که در آن هر داده شامل تعدادی خصوصيت دارای مقدار و يک خصوصيت بنام خصوصيت کلاس می­باشد، برای ايجاد يک مدل داده بکار می­روند که اين مدل داده در واقع توصيف کننده مفهوم و خصوصيات مجموعه داده­هايی است که اين مدل از روی آنها ايجاد شده است. مرحله دوم فرآيند طبقه­بندی اعمال يا بکارگيری مدل داده ايجاد شده بر روی داده­هايی است که شامل تمام خصوصيات داده­هايی که برای ايجاد مدل داده بکار گرفته­ شده­اند، می­باشد، بجز خصوصيت کلاس اين مقادير که هدف از عمل طبقه­بندی نيز تخمين مقدار اين خصوصيت می­باشد.

الگوريتم­ها و روشهای مختلفی برای طبقه­بندی تاکنون پيشنهاد شده­اند که برای مثال می­توان از روشهای طبقه­بندی با استفاده از درخت تصميم، طبقه­بندی بيزين، SVM ، طبقه­بندی با استفاده از شبکه­های عصبی، طبقه­بندی مبتنی بر قواعد و ... ]56[ نام برد. در اينجا ما قصد نداريم وارد مباحث مربوط به الگوريتم­ها و روشهای طبقه­بندی شويم و تنها روش طبقه­بندی مبتنی بر قواعد را بدليل استفاده از آن در فاز دوم پروژه در اينجا معرفی خواهيم نمود. در صورت نياز به مطالعه بيشتر می­توانيد به فصل ششم مرجع ]38[ مراجعه نماييد.

 

1-1-3-1- طبقه­بندی مبتنی بر قواعد

در اين قسمت قصد داريم نگاهی به بحث طبقه­بندی مبتنی بر قواعد داشته باشيم. دراين روش مدل ايجاد شده از روی داده­ها بصورت مجموعه­ای از قواعد می­باشد. می­توان گفت که هر قاعده بصورت يک قاعده IF P THEN C می­باشد که در آن P مجموعه­ای از شرايط بوده و C نيز مشخص کننده برچسب يک کلاس يا طبقه­ خاص می­باشد. يک قاعده بدست آمده از مجموعه داده­های آموزشی با استفاده از دو معيار coverage و accuracy می­تواند ارزيابی گردد. اين دو معيار بصورت زير تعريف می­گردند:

                                                                          (1-1)

 

                                                                                      (1-2)

 

که در تعاريف مذکور  تعداد داده­هايی در مجموعه داده D است که توسط قاعده پوشش داده می­شوند.  تعداد داده­هايی است که توسط قاعده بدرستی طبقه­بندی شده­اند.  تعداد داده­های موجود در D می­باشد.

 

اشتراک بگذارید:

پرداخت هزینه و دریافت فایل

مبلغ قابل پرداخت 11,000 تومان
نمایش لینک دانلود پس از پرداخت هزینه

درصورتیکه برای خرید اینترنتی نیاز به راهنمایی دارید اینجا کلیک کنید


پرداخت اینترنتی - دانلود سریع - اطمینان از خرید

فایل هایی که پس از پرداخت می توانید دانلود کنید

نام فایلحجم فایل
dade-kavi-pouya_598394_8075.zip495.1k





نظرسنجی

کدام نوع از فایل های زیر مورد نیاز شماست