دسته بندی محصولات

بخش همکاران

بلوک کد اختصاصی

بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان

دسته: کامپیوتر و IT
بازدید: 57 بار
فرمت فایل: doc
حجم فایل: 6485 کیلوبایت
تعداد صفحات فایل: 242

قیمت فایل فقط 7,900 تومان

بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان

1-1-مقدمه

امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .با استفاده از ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها خیلی بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شوند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش^{^[1]} بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .

داده کاوی^{^[2]} یکی از مهمترین این روش ها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .

1-2-عامل مسبب پیدایش داده کاوی

اصلی ترین دلیلی که باعث شده داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها, اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی مورد استفاده قرار می گیرد.

داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها.

تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.

ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای داده ها را کشف می کنند که می توان از آن در کاربردهایی نظیر تعیین استراتژی برای کسب و کار، پایگاه دانش^{^[3]} و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم .

-3-داده كاوی و مفهوم اكتشاف دانش (K.D.D)

با حجم عظیم داده های ذخیره شده در فایلها، بانكهای اطلاعاتی و سایر بانك های داده ای، توسعه ی ابزارهایی برای تحلیل و شاید تفسیر چنین داده هایی و برای استخراج علوم شگفت انگیزی كه می توانند در تصمیم گیری مفید باشند، امری بسیار مهم و ضروری است. داده كاوی با عنوان كشف دانش در پایگاه های داده (KDD) شناخته می‌شود. كشف علومی كه قبلا ناشناخته بوده‌اند و اطلاعاتی كه در بانكهای اطلاعاتی موجود بوده و ذاتا بالقوه و مفید هستند.

با وجود آنكه داده كاوی و كشف دانش در پایگاه‌های داده مترادف همدیگر هستند، ولی در اصل، داده كاوی ذاتاً بخشی و تنها قسمتی جزئی از فرآیند كشف دانش است. فرآیند كشف دانش در بر گیرنده ی چندین مرحله می باشد كه از اطلاعات خام، گونه هایی از علوم جدید را بدست می دهد. مراحل كشف دانش به قرار زیر است:

1- پاكسازی داده ها : در این فاز داده های اضافی و نامربوط از مجموعه داده ها حذف می شوند.(داده های ناکامل) [2]

2-یکپارچه سازی داده ها^{^[4]} : چندین منبع داده ترکیب می شوند،

3-انتخاب داده ها : انبار داده ها شامل انواع مختلف و گوناگونی از داده ها است که همه آنها در داده کاوی مورد نیاز نیستند . برای فرایند داده کاوی باید داده ها ی مورد نیاز انتخاب شوند . به عنوان مثال در یک پایگاه داده های مربوط به سیستم فروشگاهی ، اطلاعاتی در مورد خرید مشتریان ، خصوصیات آماری آنها ، تامین کنندگان ، خرید ، حسابداری و ... وجود دارند . برای تعیین نحوه چیدن قفسه ها تنها به داده ها یی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است . حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست بلکه ممکن است به منظور کاهش هزینه عملیات ، نمونه هایی از عناصر انتخاب و کاوش شوند .

4-تبدیل داده ها : هنگامی که داده های مورد نیاز انتخاب شدند و داده های مورد کاوش مشخص گردیدند، معمولا به تبدیلات خاصی روی داده ها نیاز است. نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد، تبدیلاتی ساده همچون تبدیل نوع داده ای به نوع دیگر تا تبدیلات پیچیده تر همچون تعریف صفات جدید با انجام عملیاتهای ریاضی و منطقی روی صفات موجود.

5-داده کاوی : بخش اصلی فرایند ، که در آن با استفاده از روش ها و تکنیک های خاص ، استخراج الگو های مفید ، دانش استخراج می شود.

6-زیابی الگو^{^[5]} : مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازه گیری.

7-زنمایی دانش : در این بخش به منظور ارائه دانش استخراج شده به کاربر ، از یک سری ابزارهای بصری سازی استفاده می گردد.

1-3-1-تعریف داده کاوی

در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود. برخی از این تعاریف عبارتند از :

داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته قابل فهم و قابل اعتماد از پایگاه داده های بزرگ که شامل بهره گیری از بزارهای آنالیز داده ها، برای كشف الگوهای موجود و روابط ناشناخته‌ی میان داده ها در حجمی وسیع می باشد. و استفاده از آن درتصمیم گیری فعالیتهای تجاری مهم.
اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود [3].
داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها [4].
داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ .
داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .

همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .

1-3-2- فرآیند داده‌كاوی

می‌توان فرآیند داده‌كاوی را طی مراحل زیر به صورت نمودار نشان داد.

استخراج، ترجمه

و فراخوانی

مهیا كردن داده‌ها

كشف الگو

شکل 1-1فرآیند داده‌كاوی

در فرآیند بالا، داده‌های خام از منابع مختلفی جمع‌آوری می‌شوند و ازطریق استخراج، ترجمه و فرآیندهای بازخوانی به انبار داده‌ها وارد می‌شوند. بخش مهیاسازی، داده‌ها از انبار خارج شده و به صورت یك فرمت مناسب برای داده‌كاوی درمی‌آیند. در بخش كشف الگو از روش‌ها والگوریتم‌های داده‌كاوی، برای ساخت الگو استفاده می‌شود.

1-3-3- قابلیت های داده کاوی

باید توجه داشته باشید كه داده كاوی یك ابزار جادویی نیست كه بتواند در پایگاه داده شما به دنبال الگوهای جالب بگردد و اگر به الگویی جدیدی برخورد كرد آن را به شما اعلام كند بله صرفا الگوها و روابط بین داده ها را به شما اعلام می كند بدون توجه به ارزش آنها. بنابراین الگوهایی كه به این وسیله كشف می شوند باید با جهان واقع تطابق داشته باشند.[5]

1-3-4-چه نوع داده‌هایی مورد كاوش قرار می گیرند؟

در اصل داده كاوی مختص یك رسانه یا داده‌ی خاص نیست و باید از قابلیت اجرا بر روی هر نوع داده ای برخوردار باشد، اگر چه الگوریتم‌ها و تلاشها ممكن است در مواجهه با گونه های مختلف داده، تفاوت داشته باشند.

· فایلهای ساده (FLAT FILES):

رایج ترین منبع برای الگوریتم های داده‌كاوی هستند، خصوصا در مرحله ی تحقیق، فایل های ساده، فایل های ساده ی متنی یا با ساختار دودویی هستند و با ساختاری شناخته شده برای یك الگوریتم مشخص داده كاوی كه روی آن پیاده می شود. داده های درون این نوع فایل ها می توانند تراكنش ها، داده های سریالی، اندازه گیری های‌ عملی و ... باشند.

· پایگاههای داده ای رابطه ای(RDBMS):

مختصرا، یك پایگاه داده ی رابطه ای متشكل از مجموعه‌ای از جداول است كه در بر گیرنده‌ی مقادیری برای صفات موجودیت ها و یا مقادیری از روابط بین موجودیت ها می‌باشد. هر جدول دارای چندین سطر و ستون می‌باشد كه ستونها ارائه كننده‌ی صفات خاصه و سطرها ارائه كننده‌ی ركوردهای اطلاعاتی می‌باشند. یك ركورد اطلاعاتی در بر گیرنده‌ی صفات خاصه‌ی یك شئ یا روایط بین اشیا است كه با یك كلید غیر تكراری تعریف می‌شود. الگوریتم های داده‌كاوی برای پایگاه‌های داده‌ای رابطه‌ای بسیار فراگیرتر و سریعتر از الگوریتم های داده‌كاوی روی فایل‌های ساده هستند.

· انبارهای داده ای[6]

وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم. اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمانها می گردد و منتج به نتایج خطرناکی خواهد گردید که نمونه های آن کم نیستند .

اکثر سازمانها دچار یک شکاف اطلاعاتی^{^[7]} هستند. در اینگونه سازمان ها معمولا سیستم های اطلاعاتی در طول زمان و با معماری و مدیریت های گوناگون ساخته شده اند ، به طوری که درسازمان، اطلاعاتی یکپارچه و مشخصی مشاهده نمی گردد . علاوه بر این برای فرایند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیری های حیاتی نیازمندیم .

هدف از فرایند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است . در این فرایند ، اطلاعات تحلیلی و موجز در دوره های مناسب زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرایند های تصمیم گیری که از ملزومات آن داده کاوی است ، استفاده شود . به طور کلی تعریف زیر برای انبار داده ها ارائه می گردد : انبار داده ها ، مجموعه ای است موضوعی^{^[8]} ، مجتمع^{^[9]} ، متغیر در زمان^{^[10]} و پایدار^{^[11]} از داده ها که به منظور پشتیبانی از فرایند مدیریت تصمیم گیری مورد استفاده قرار می گیرد.

1-4- وظایف داده کاوی

وظایف داده کاوی معمولا بشرح زیر است:

کلاس بندی[12]
پیش بینی[13]
خوشه سازی[14]
تخمین[15]

1-1-4-کلاس بندی

هدف کلاس‌بندی داده‌ها، سازماندهی و تخصیص داده‌ها به كلاس‌های مجزا می‌باشد. در این فرآیند بر اساس داده‌های توزیع شده، مدل اولیه‌ای ایجاد می‌گردد. سپس این مدل برای طبقه‌بندی داده‌های جدید مورد استفاده قرار می‌گیرد، به این ترتیب با بكارگیری مدل بدست آمده، تعلق داده‌های جدید به كلاس معین قابل تعیین می‌باشد. كلاس‌بندی در مورد مقادیر گسسته و پیشگویی به‌كار می‌رود. [6]

در فرآیند کلاس‌بندی، اشیا موجود به كلاس‌های مجزا با مشخصه‌هایی تفكیك‌شده (ظروف جداگانه) طبقه‌بندی و به صورت یك مدل معرفی می‌گردند. سپس با در نظر گرفتن ویژگی‌های هر طبقه، شی‌ جدید به آنها تخصیص یافته، برچسب و نوع آن قابل تعیین می گردد.

در کلاس‌بندی، مدل ایجاد شده بر پایه‌ی یك‌سری داده‌های آموزشی، (اشیا داده‌هایی كه بر چسب كلاس آنها مشخص و شناخته شده است) حاصل می آید. مدل بدست آمده در اشكال گوناگون مانند قوانین کلاس‌بندی (If-Then)، درخت‌های تصمیم، فرمول‌های ریاضی و شبكه‌های عصبی قابل نمایش می‌باشد.

به عنوان مثال فرض كنید مدیر فروشگاهی در نظر دارد مجموعه‌ی بزرگی از داده‌ها را بر اساس میزان فروش به زیاد، متوسط و كم طبقه‌بندی كند. وی می‌بایست مدلی ایجاد كند كه بر اساس خصیصه‌های كالا مانند قیمت، مارك، محل ساخت و نوع كالا، كلاس مربوط به آن نوع كالا را تعیین نماید. طبقه‌بندی نهایی می‌بایست به طور ماكزیمال هر كلاسی را از دیگری تشخیص داده،و تصویر سازماندهی شده‌ای از داده‌ها را به نمایش در آورد. [7]

از كاربردهای کلاس‌بندی می توان بازاریابی، تشخیص بیماری، تحلیل اثرات معالجه، تشخیص خرابی در صنعت و تعیین اعتبار را نام برد. [6]

1-4-2- مراحل یک الگوریتم کلاس‌بندی

الگوی عمومی‌ برای الگوریتم‌های آموزش از طریق مثال با فرایند كلاس‌بندی به سه مرحله تقسیم می‌‌شوند:[2]

پیش‌پردازش داده‌ها
ساخت و ارزیابی قوانین كلاس‌بندی و هرس كردن قوانین اضافی که هدف ما می‌باشد.
كلاس‌بندی نمونه‌های جدید

1-4-3- انواع روش‌های کلاس‌بندی

کلاس‌بندی به روش‌های زیر انجام‌پذیر است:

· طبقه‌بندی بیز

· درخت تصمیم

· K-Nearest Neibour

· الگوریتم‌های ژنتیك

· شبكه‌های عصبی

1-4-3-1- درخت تصمیم

درخت تصمیم عبارت است از یک مجموعه قوانین برای تقسیم کردن یک مجموعه ی ناهمگن بزرگ به مجموعه کوچکتر و گروه های همگن تر نسبت به متغیر هدف (فیلد موردنظر). درختهای تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار یا یک طبقه میشوند. برای مثال، میخواهیم متقاضیان وام را به دارندگان ریسک اعتبار خوب و بد تقسیم کنیم. شکل یک درخت تصمیم را که این مسئله را حل میکد نشان میدهد و همه مؤلفههای اساسی یک یک درخت تصمیم در آن نشان داده شده است : نود تصمیم، شاخهها و برگها درخت تصمیم برای موارد زیر به کار برده می شود. [9]

شکل1-2: نمونه یک درخت تصمیم

1-احتمال اینکه یک داده معلوم و معین متعلق به کدام دسته، را محاسبه می کند.

2-با اختصاص دادن آنها به دسته ای که احتمالش بیشتر است، رکوردها را دسته بندی می کند.

درخت تصمیم، براساس الگوریتم، ممکن است دو یا تعداد بیشتری شاخه داشته باشد. برای مثال، CART درختانی فقط با دو شاخه در هر نود ایجاد میکند. هر شاخه منجر به نود تصمیم دیگر یا یک نود برگ میشود. با پیمایش یک درخت تصمیم از ریشه به پایین به یک نمونه یک طبقه یا مقدار نسبت میدهیم. هر نود از ویژگی های یک نمونه برای تصمیمگیری درباره آن انشعاب استفاده میکند.

درختهای تصمیمی که برای پیشبینی متغیرهای دستهای استفاده میشوند، درختهای classification نامیده میشوند زیرا نمونهها را در دستهها یاردهها یا کلاس ها قرار میدهند. درختهای تصمیمی که برای پیشبینی متغیرهای پیوسته استفاده میشوند درختهای regression نامیده میشوند

جهت دریافت فایل بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان لطفا آن را خریداری نمایید

قیمت فایل فقط 7,900 تومان

برچسب ها : بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان , دانلود بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان , SQL SERVER2005 , بانک اطلاعاتی , کامپیوتر , نرم افزار , سخت افزار , زبان برنامه نویسی , اینترنت , وب سایت , سایت , , کلاس بند

نظرات کاربران در مورد این کالا

تا کنون هیچ نظری درباره این کالا ثبت نگردیده است.

ارسال نظر