مقاله با موضوع ، الگوریتم، غیرنرمال، خوشهبندی، ژنتیک، r، 0.33، رکورد

تشخیص تقلب در بیمه اتومبیل استفاده میکنیم[9].
2-6-3-2 رويکرد پژوهش:در شبکه بیزین سعی بر این است که مدل رفتاری را، تحت این فرض که راننده متقلب یا راننده دارای عملکرد صحیح است ایجاد مینماییم با وارد کردن شاهد در این شبکه ما می توانیم احتمال E را تحت فرضیات ذکرشده بدست بیاوریم. محاسبه بصورت روابط 2-32 و 2-33 و 2-34 و 2-35 میباشد.
رابطه232
P(output = fraud | E)= [P(E | output = fraud) P(output = fraud)] / P(E)و رابطه233
P(output = legal | E)= [P(E | output =legal) P(output = legal)] / P(E)P(E|OUTPUT=LEGAL) و P(E|OUTPUT=FRAUD)در شبکه بیزین برای محاسبه احتمال P(fraud)=di/d که d نشان دهنده کل رکورد و di نشان دهنده تعداد رکورد تقلب است.
رابطه234
pEOUTPUT=FRAUD) =K=1NPXKOUTPUT=FRAUDرابطهSTYLEREF 1 s‏0235
PE|OUTPUT=LEGAL=K=1NPXK|OUPUT=LEGALPXK |OUTPUT=FRAUD=dikdidik تعداد رکوردهایی از خروجی که برابر fraud است و دارای xk مقدار برای هرصفت است.
در جدول 2-5 برایE=(Policyholder=1,driverrating=0,report field=0.33)
با توجه به پایگاه داده مربوط به داده ها داریم :
pfraud=320=0.15plegal=1720=0.85گامهای الگوریتم:
ppolicyhoder=1ouput=fraud=33=1pE|output=fraud=k=1np(xk|output=fraud)=0اما محاسبه legal:
ppolicyhoder=1ouput=legal=1217=0.706pE|output=legal=k=1np(xk|output=legal)=0.0068بنابراین
pE|output=fraud*pE|output=fraud=0pE|output=legal*pE|output=legal=0.0058بر پایه محاسبات ما رکورد جدید را درست میدانیم.
با توجه به تخمین لاپلاس ومحاسبات صورت گرفته و افزودن یک فیلد جدید، رکورد جدید در جدول زیر به عنوان رکورد متقلب است.
جدول 2-5: داده برای دستهبندی بیزین[9]
خروجی گزارشات سرعت رانندگی سیاست پلیس موارد
legal 0 0 1 1
fraud 1 1 1 2
legal 0 0 0 3
legal 1 0.33 1 4
legal 0 0.66 1 5
? 0.33 0 1 E

جدول 2-6: داده برای دستهبندی بیزینREF _Ref373693391 r h‎[9]
خروجی قیمت و سن خودرو گزارشات سرعت رانندگی سیاست پلیس موارد
legal 0.33 0 0 1 1
fraud 0.5 1 1 1 2
legal 0.75 0 0 0 3
legal 0.5 1 0.33 1 4
legal 0.5 0 0.66 1 5
? 0.5 0.33 0 1 E
با توجه به الگوریتم درخت تصمیم و C4.5 نتایج زیر بدست می آید. آنتروپی و مقادیر مورد انتظار ازرابطه 2-36 و 2-37 بدست می آید.
رابطهSTYLEREF 1 s‏0236
PFRAUD ,LEGAL=-FRAUDINSTANCEINSTANCElog2FRAUDINSTANCEINSTANCE-LEGALINSTANCEINSTANCElog2LEGALINSTANCEINSTANCEرابطهSTYLEREF 1 s‏0237
EA=FRAUDINSTANCEINSTANCE+LEGALINSTANCEINSTANCE*EFRAUDATTRIBUTE ,LEGALATTRIBUTEاحتمالات برابرentropy=-0.1log0.1-0.9log0.9 =0.469E(vehicleAgePrice) = (9/20) entropy(1, 8) = (9/20) (-1/9 log2 1/9 – 8/9 log2 8/9) = .225 information gain=0.469 – [(9/20) (-1/9 log2 1/9 – 8/9 log2 8/9)] = 0.244 prob(output = fraud) = 2/20 = 0.1 giniindex=1-jprobj2=0.12+0.92=0.18محاسبات نشان میدهد صفت vehicle age price باید دربرگ قرار گیرد.
الگوریتم مبتنی بر rule ها:
این الگوریتم بر اساس if-then است که ازدرخت تصمیم استخراج میشود.

شکل 2-12: الگوریتم استخراج شده از درخت تصمیمREF _Ref373693391 r h‎[9]
برای مدل ارزیابی از ماتریس Confusion استفاده میشود که نتایج آن به درجدول 2-7 آمده است.
جدول 2-7: ارزیابی درخت تصمیم[9]
Accuracy:0.78 fraud legal Recall:0.86 1125 3100 Legal
Precision:0.70 2380 395 fraud
2-6-4 پژوهش چهارم: استفاده از الگوريتم ژنتيک برای تشخيص تست نفوذ2-6-4-1 هدف پژوهش:استفاده و الهامگیری ازطبیعت برای تشخیص تست نفوذ
2-6-4-2 رويکرد پژوهش:الگوریتم ژنتیک در واقع در شکل 2-13 نشان داده شده است مهمترین کار در این الگوریتم انتخاب تابع برازندگی مناسب است. در هر الگوریتم ژنتیک 3 مورد بسیار مهم است[10].
انتخاب تابع برازندگی
مقدار پارامترها
نشان دادن جمعیت انفرادی

شکل 2-13: عملکرد الگوریتم ژنتیک REF _Ref373693843 r h ‎[10]
در کل اگر قانونی بصورت if-then باشد تابع برازش آن نیز باید مشخص شود در شکل 2-14 این قانون آمده است.

شکل 2-14: قاعده استخراج شده از الگورِیتم ژنتیکREF _Ref373693843 r h‎[10]
توابع به صورت آنچه در شکل 2-15 آمده است تعریف میشود:

شکل 2-15: توابع مربوط به الگوریتم ژنتیک و مقدار دهی آنها[10]
N: تعداد ارتباطات درشبکه است.
|A |: شمار ارتباطاتی که با شرط A تطابق دارند.
|A and B|: شمار ارتباطاتی که با شرط اگر A سپس B تطابق دارد.
W1 و W2 برای کنترل تعادل میان confidence و support بکار میرود. بعد از به کار بردن این الگوریتم قوانین جدیدی به مجموعه قوانین اضافه میشود.

شکل 2-16: معماری الگوریتم ژنتیک برای تست نفوذ [10]
بعد از جمع آوری داده ازشبکه، داده مورد پردازش قرار میگیرد و به فرمت مناسب برای الگوریتم ژنتیک تبدیل میشود سپس ازتابع برازندگی استفاده میشود تا مجموعه قوانین در پایگاه داده ذخیره شود. [10].
2-6-5 پژوهش پنجم: شناسايی ترافيک غيرنرمال در شبکه با الگوريتم خوشه بندی2-6-5-1 هدف پژوهش:در این مقاله با استفاده از الگوریتم خوشه بندیk-means بستههای موجود در شبکه را به دو دسته نرمال و غیرنرمال تقسیم میکند[11].
2-6-5-2 رويکرد پژوهش:
در این تحقیق داده ها دارای 3 خصیصه اصلی هستند که شامل موارد زیر میباشد..
جمع کل بستههایی که ازیک پورت فرستاده میشود.
جمع کل بایتهایی که ازیک پورت فرستاده میشود.
تعداد جفت منبع-مقصد متفاوت
انگیزه اصلی این کار تعداد بایتها و بستههایی است که در شبکه رد و بدل میشود با توجه به ماهیت k_means و مفروضات مسئله فاصله بصورت زیر تعریف میشود.
رابطه238
dx,y=i=1mxi-yisi2که si فاکتور است که بستگی به ویژگیi ام دارد. که بطور تجربی بدست میآید. ضرایب برای بسته و بایت و جفت فرستنده-گیرنده بدین بصورت است:
Spacket=Sbyte=5 , Ssrc-dist=1
با مقدار دهیk=2 و دو نوع بسته داده داریم
در ادامه خوشهبندی با دو جفت (پروتکل،پورت) انجام شده است.
مورد اول: خوشهبندی در این مورد بدین صورت است که داده به مرکز هر خوشه نزدیکتر باشد در آن خوشه قرار میگیرد در شکل 2-17 شیp به خوشه نرمال نزدیکتر است پس به خوشه نرمال تعلق میگیرد.

شکل 2-17: خوشه بندی برایk=2 [11]
اما در ادامه برای شناسایی داده غیرنرمال که در ادامه آماده است برای شناسایی آن، فاصله با مرکز داده نرمال مورد اندازه گیری قرار میگیرد اگر فاصله بین این داده و نرمال بزرگتر از dmax تعریف شده بود به عنوان داده غیرنرمال تشخیص داده میشود در شکل 2- 18p2 و p3 به عنوان داده غیرنرمال هستند.
ترکیب خوشهبندی و داده غیرنرمال: با ترکیب همزمان خوشهبندی و داده غیرنرمال میتوان داده غیرنرمال را تشخیص داد. اگر دو روش همزمان اجرا کنیم آن داده ای که نسبت به داده اصلی غیرنرمال است در دسته داده غیر نرمال قرار میگیرد.
در شکل 2-19 با توجه به dmaxدو داده p1 و p2 غیرنرمال هستند که با توجه به روش بالا p1 به مرکز خوشه غیر عادی و p2به مرکز خوشه عادی نزدیکتر است.

شکل 2-18: شناسایی داده غیرنرمال[11]

شکل 2-19: ترکیب دستهبندی و شناسایی غیرنرمالREF _Ref373694900 r h‎[11]
قسمت ارزیابی: در مجموعه داده بدست آمده از دانشگاه Twente با الگوریتم خوشه بندی
k-means در پروتکل HTTP،SSH و FTP مرکز خوشه داده نرمال و غیرنرمال تقریبا یکی است اما در آنالیزترافیک UDP نتیجه زیر بدست میآید:
جدول 2-11: ارزیابی با استفاده از خوشهبندیSRC-DIST BYTES PKTS CLUSTER
1896 3288007 28274 normal
14831 3510792 39725 anomalous
که نشان میدهد src-dist در غیر نرمال 8 برابر scr-dist در داده نرمال است.
محاسبه پیچیدگی: زمان پیچیدگیO(Knt) است کهk تعداد خوشه وn تعداد عناصری که باید خوشهبندی شوند وt زمان لازم برای خوشهبندی است[11].
فصل سوم
روش تحقیق

3-1 روش تحقيقهدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است که بتواند بسته های عادی را از غیر عادی تشخیص دهد. نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است و استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است واستخراج 5 نمونه داده از



قیمت: 10000 تومان

متن کامل در سایت homatez.com

About: admin