مقاله با موضوع تقلب، ، دادهکاوی، مالی، الگوریتمهای، دستهبندی، تراکنش، رکوردهای

دانلود پایان نامه

معیارهای عددی تعداد مجاز ورود ناموفق برای کاربر A، n است.
تحلیل آماری
بیان نمایه با معیارهای آماری ورودی ناموفق برای کاربر A، تابع توزیع نرمال a است., IDES NIDE ,Haystack از این دستهاند.
روشهای مبتنی بر قاعده
بیان معیارهای آماری با مجموعهای از قواعد که از استفاده سیستم خبره برای بیان نمایهها استفاده میشود.
شبکه عصبی
استخراج نمایه از سابقه سیستم
الگوریتم ژنتیک
تعریف بردار فرضی نفوذ یا عدم نفوذ برای واقعه، آزمون اعتبار فرض، اصلاح و بهبود فرض
2-5 تعاريف برخی مقادير ارزيابی مورد استفاده در سيستم داده کاوی:در ادامه برای بررسی دقیق معیارها در زیر جدول آورده شده است که بطور دقیق معیارها را نشان میدهد که مخصوص دادهکاوی است[4].
داده برچسب بصورت مثبت یا منفی است که در دسته بندی مورد استفاده قرار میگیرد.
جدول 2-1: تعریف معیارها[4]
دادههای پش بینی شده توسط سیستم دادهکاوی مجموعه دادههای واقعی مثبت مثبت True Positive(TP)
مثبت منفی False Positive(FP)
منفی منفی True Negative(TN)
منفی مثبت False Negative(FN)
مثبت واقعی
دادهای را که در واقع مثبت بوده بطور صحیح مثبت تشخیص داده است.
مثبت غلط
دادهای را که در واقع منفی بوده بطور غلط مثبت تشخیص داده است.
منفی واقعی
دادهای را که در واقع منفی بوده بطور درست منفی تشخیص داده است.
منفی غلط
دادهای را که در واقع مثبت بوده بطور غلط منفی تشخیص داده است..
2-5-1Confusion matrix:یک معیار ارزیابی برای دسته بندی بصورت ماتریس است که TPوTN نشان دهنده دستهبندی درست را نشان میدهند. وFP وFN دستهبندی غلط را نشان میدهد.
جدول 2-2: ماتریس [4] confusion
Predicted class Total no yes Accualclass
P FN TP yes N TN FP no P+N N,P,Total N,:تعداد رکوردهای ی که برچسب منفی خورده اند.
: P, تعداد رکوردهای ی که برچسب مثبت خورده اند.
2-5-2 درستیدرصدی از رکوردها که بصورت صحیح دسته بندی شده اند که به آن نرخ شناسایی نیز میگویند و بصورت رابطه 2-24 تعریف میشود:
رابطه2-24
acuracy=TP+TNP+N2-5-3 ميزان خطادرصد از رکوردها که بطور نادرست دستهبندی شدهاند. و بصورت رابطه 2-25 تعریف میشود
رابطه2-25
errorrate=FP+FNP+N2-5-4 حساسيت، ميزان مثبت واقعی، ياد آوریتعداد رکوردهای ی مثبت که بطور صحیح شناسایی شدهاند.(واقعا مثبت هستند) و بصورت رابطه 2-26 تعریف میشود.
رابطه2-26
Recall=TPTP+FN=TPP2-5-5 ويژگی، ميزان منفی واقعیتعداد رکوردهای منفی که بطور دقیق شناسایی شدهاند. و بصورت رابطه 2-27 تعریف میشود.
رابطه2-27
pecificity=TNN2-5-6 حساسيت:تعداد رکوردهای مثبت که بطور دقیق شناسایی شدهاند. و به آن نرخ شناخت نیز میگوییم. و بصورت رابطه 2-28 تعریف میشود.
رابطه2-28
Sentivity=TPPبا توجه به تعریف بالا نرخ درستی میتوانیم بصورت رابطه 2-29 تعریف کنیم
رابطه2-29
Acuuracy=sentivityPP+N+specificityNP+N2-5-7دقترکوردهایی که بطور صحیح برچسب مثبت خوردهاند. و بصورت رابطه 2-30 تعریف میشود.
رابطه2-30
Precision=TPTP+FP2-5-8 معيار F: با ترکیب معیار PrecisionوRecall معیارF بوجود میآید که بصورت رابطه 2-31 تعریف میشود و میانگین حسابی این دو معیار است. مقدار این پارامتر بین بازه 0 تا 1 است. مقدار 1 نشان میدهد که نرخ خطا صفر و همه حملات به درستی تشخیص داده شدهاند. مقدار نزدیک به 1 مقدار قابل قبولی میباشد.
رابطه2-31
F=2*Precision*RecallPrecision+Recallجدول 2-3: معیارهای مختلف ارزیابی و فرمول آنهاREF _Ref373604892 r h‎[4]
معیارهای ارزیابی فرمول
درستی، نرخ شناسایی TP+TNP+Nمیزان خطا FP+FNP+Nحساسیت، میزان مثبت واقعی، یاد آوری TPPویژگی، میزان منفی واقعی TNNدقت TPTP+FPمعیار F 2*Precision*RecallPrecision+Recall2-6 پژوهشهای انجام شده در اين زمينه:در این بخش به بررسی کارهای انجام شده می پردازیم بیشتر مباحث شامل روش های دسته بندی با نظارت، بی نظارت وقوانین انجمنی است. مقایسه بین روشهای بانظارت در اجرا و همچنین شناسایی داده غیرنرمال با استفاده از روشهای خوشهبندی و استفاده ازقوانین انجمنی برای تشخیص تقلب محورهای اصلی مورد بررسی است.
2-6-1 پژوهش اول: کشف تقلب در سيستمهای مالیبا استفاده از دادهکاوی2-6-1-1 هدف پژوهش:هدف اینکار همان طور که در مقاله ذکر شده است جلوگیری از تقلب نیست چون متقلب خود را با شرایط وقف میدهد هدف شناسایی تقلب با استفاده از الگوریتم دادهکاوی است. شناسایی تقلب با استفاده از روش بررسی نرمال کار سختی است دلیل اصلی کمبود دانش ما نسبت به تقلب است و دلیل دیگر اینکه تجربه کافی برای اینکه با این روش بتوانیم تقلب را تشخیص بدهیم نداریم به همین دلیل از روشهای آماری و دادهکاوی استفاده میکنیم[7].
2-6-2-2 رويکرد پژوهش:در این مقاله از رویکرد ستنی دادهکاوی شامل جمعآوری دادهها، یکپارچه سازی دادهها، پیش پردازش دادهها، دادهکاوی و ارزیابی استفاده شده است. در این مقاله نیز همین چارچوب را نویسندگان برای کشف تقلب درسیستم های مالی پیشنهاد کرده اند. این مقاله یک مرور جامع بر کارهایی است که در زمینه تقلب در سیستم های مالی شده است[7].

شکل 2-10: چارچوب کلی دادهکاوی برای کشف تقلب[7]
ویژگی مجموعه داده استفاده شده:
مفروضات آزمایش:
توزیع دادهها : دادههای مربوط به سیستم مدیریت تقلب مالی به دو دسته توزیع میشوند دادههای کمپانی با تقلب و بدن تقلب، دادههای بازبینی شده و شرکتهای دولتی
توزیع دادهها: بیشتر تحقیقات بر شناسایی تقلب در دادههای تقلب و غیر تقلب کاربرد دارد.
نوع یادگیری: دو نوع یادگیری بانظارت و بینظارت مورد بررسی قرار گرفت. بیشتر الگوریتمهای تشخیص تقلب مالی بر پایه یادگیری بانظارت است.
الگوریتمهای دادهکاوی: کارهای ابتدایی دادهکاوی شامل دستهبندی، خوشهبندی، قواعد انجمنی و پیشبینی است. بیشتر الگوریتمهای تشخیص تقلب مالی بر اساس دستهبندی است.
تکنیکهای دادهکاوی: الگوریتمهای تشخیص تقلب مالی با توجه تکنیکهای دادهکاوی به پنج دسته تقسیم میشوند رگرسیون، شبکهعصبی، درخت تصمیم ، شبکه بردار پشتیبان و شبکه بیزین
نتیجه آزمایش: در رهیافت تشخیص تقلب مالی ازروشهای بانظارت نوع دستهبندی و بیشتر از الگوریتمهای رگرسیون و شبکهعصبی استفاده میشود.
2-6-2 پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بيزين2-6-2-1 هدف پژوهش:هدف پژوهش شناسایی تقلب در کارت اعتباری و همچنین مقایسه بین شبکه عصبی و بیزین است که با توجه به مجموعه داده و همچنین کاربرد خاص شبکه بیزین عملکرد بهتری دارد[8].
2-6-2-2 رويکرد پژوهش:در این رویکرد از یکسری داده مورد استفاده از شرکت international waterschoot at europay گرفته شده است. این مجموعه دادهها دارای ویژگیهای و اطلاعات مفید درباره هر تراکنش هست که با Fi نشان میدهیم.
در استفاده از شبکه عصبی پیشپردازش خیلی مهم است برای نمایش بهتر ارزیابی که مستقل ازیادگیری است ما از receive Operating Curve استفاده میکنیم.
بعد از آموزش بوسیله شبکهعصبی ما با مجموعه ویژگی که تاکنون ندیدهایم برخورد میکنیم وتراکنشها در یک مجموعه دسته بندی مینماییم. اما باید مشخص کنیم چه مقدار تراکنش در هر دسته واقعا درست هستند همچنین باید مشخص شود چند درصد از تراکنش ها واقعا متقلب هستند.
از دو نرخ بنام نرخ قطعی درست و نرخ قطعی غلط استفاده میکنیم
نرخ قطعی درست: چه مقدار تراکنش متقلب بطور صحیح متقلب تشخیص داده شده است.
نرخ قطعی غلط: چه مقدار تراکنش درست بطور غلط متلقب تشخیص داده شده است.
در منحنیROC ضلع X نرخ قطعی غلط و ضلع Y نرخ قطعی درست را نشان میدهد.
تشخیص تقلب با شبکهعصبی:
مهم بودن پیشپردازش برای کارایی شبکهعصبی بسیار مهم است در شکل 2-11 دو منحنیROC وجود دارد که از اجرا روی مجموعه داده ها با 10 ویژگی بدست آمده است.
ROC پررنگ: که نتیجه بهتری است پیشپردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است دارای نرخ قطعی درست 70% و نرخ غلط 15% است.
ROC روشن: پیش پردازش پیش پردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است و دارای نرخ قطعی درست 60% و نرخ غلط 15% است [8].

شکل 2-11:مقایسه خروجیها با استفاده از نمودار [8] ROC
تشخیص تقلب با شبکه بیزین: در شکل همچنان که دیدید ROC وابسته به ساختار است و با بهتر کردن ساختار میتوان نتیجه بهتری گرفت.
ارزیابی :
در ارزیابی که در جدول 2-4 آمده است شبکه بیزین دارای عمکرد بهتری نسبت به شبکه عصبی است.
جدول 2-4: مقایسه نتیجه بین شبکهعصبی و شبکه بیزین[8]
نرخ قطعی غلط ±15 نرخ قطعی غلط ±10 تست
70 % نرخ قطعی درست 60% نرخ قطعی درست شبکه عصبی(a)
58%نرخ قطعی درست 47% نرخ قطعی درست شبکه عصبی(b)
70%نرخ قطعی درست 60% نرخ قطعی درست شبکه عصبی(c)
74%نرخ قطعی درست 68% نرخ قطعی درست شبکه بیزین(e)
74%نرخ قطعی درست 68% نرخ قطعی درست شبکه بیزین(f)
نتیجه گیری: شبکه بیزین در این مثال خاص و با این مجموعه داده دارای نتیجهگیری بهتری نسبت به شبکه عصبی است.
پژوهش سوم: شناسايی تقلب بيمه با استفاده از تکنيکهای دادهکاوی2-6-3-1 هدف پژوهش:در این پژوهش با استفاده از الگوریتمهای برپایه قوانین، شبکه بیزین و درخت تصمیم برای

متن کامل در سایت homatez.com