user8215

دانشکده برق و کامپیوتر
پایان‌نامه کارشناسی ارشد در رشته هوش مصنوعی
FORMTEXT شناسایی تشکل‌های پنهان بر اساس لینک و محتوا
به کوشش
FORMTEXT فرحناز حاجی پوراستاد راهنما:
دکتر ستار هاشمی
31 شهریور ماه ۱۳۹3
به نام خداوند جان و خرد

به نام خدا
اظهارنامه
اینجانب REF نویسنده \h \* MERGEFORMAT فرحناز حاجی پور(9133047) دانشجوی رشتهی مهندسی کامپیوتر گرایش هوش مصنوعی دانشکدهی مهندسی برق و کامپیوتر دانشگاه شیراز اظهار می کنم که این پایان نامه حاصل پژوهش خودم بوده و در جاهایی که از منابع دیگران استفاده کرده ام، نشانی دقیق و مشخصات کامل آن را نوشته ام. همچنین اظهار می کنم که تحقیق و موضوع پایان‌نامه‌ام تکراری نیست و تعهد می نمایم که بدون مجوز دانشگاه دستاوردهای آن را منتشر ننموده و یا در اختیار غیر قرار ندهم. کلیه حقوق این اثر مطابق با آیین نامه مالکیت فکری و معنوی متعلق به دانشگاه شیراز است.
نام و نام خانوادگی: REF نویسنده \h \* MERGEFORMAT فرحناز حاجی پور
تاریخ و امضاء31 /06/93

به نام خدا
REF عنوان \h \* MERGEFORMAT شناسایی تشکل‌های پنهان بر اساس لینک و محتوا
به وسیلهی :
REF نویسنده \h \* MERGEFORMAT فرحناز حاجی پور
پایان نامه
ارائه شده به تحصیلات تکمیلی دانشگاه به عنوان بخشی از فعالیتهای تحصیلی لازم برای اخذ درجه کارشناسی ارشد
در رشته‌ی:
مهندسی کامپیوتر– هوش مصنوعی
از دانشگاه شیراز
شیراز
جمهوری اسلامی ایران
ارزیابی شده توسط کمیته پایاننامه با درجه : عالی
دکتر ستار هاشمی استادیار بخش کامپیوتر (رئیس کمیته) ...............................
دکتر علی حمزه استادیار بخش کامپیوتر...................................................................
دکتر اقبال منصوری استادیار بخش کامپیوتر..........................................................
شهریور ماه 1393

تقدیم به آنان که به من آموختند و تقدیم به خانواده‌ام که با شکیبایی و مهربانی در کنارم بودند...

سپاسگزاری
اکنون که این پایان‌نامه به پایان رسیده است بر خود لازم می‌دانم تا از زحمات بی‌دریغ استاد بزرگوارم جناب آقای دکتر هاشمی که از آغاز تا پایان کار با راهنمایی‌های ارزشمند خود زمینه ساز پیشرفت پایان‌نامه شدند و در این راه زحمات فراوانی را بر دوش گرفتند، نهایت سپاس و قدردانی را داشته باشم.
همچنین از استاد بزرگوار، جناب آقای دکتر حمزه که به عنوان استاد مشاور در این پژوهش بنده را همراهی کردند سپاسگزارم.
چکیده
REF عنوان \* MERGEFORMAT شناسایی تشکل‌های پنهان بر اساس لینک و محتوا
به کوشش
REF نویسنده \h \* MERGEFORMAT فرحناز حاجی پور
امروزه شبکههای اجتماعی نظیر فیسبوک از محبوبیت زیادی برخوردار شده اند، چرا که به مردم سرتاسر جهان این اجازه را میدهد که بدون تماس فیزیکی، با دوستان خود ارتباط برقرار کرده، برای آنها پیغام گذاشته و نظرات خود را در مورد موضوعات گوناگون بیان کنند. شناسایی تشکل ها در شبکه های اجتماعی کاربرد بسیار زیادی در زمینه های مختلف دارد، بنابراین این موضوع یک زمینهی تحقیقاتی بسیار جالب در میان محققان بسیاری از رشته ها است. مطالعات پیشین تنها از اطلاعات ساختاری و لینکهای موجود در شبکه استفاده میکردند و اطلاعات مفید دیگری که در شبکه وجود داشتند مورد غفلت واقع میشدند. در حالی که در بسیاری از شبکه های اجتماعی، دادههای بسیار مفیدی وجود دارد که توسط کاربران تولید میشوند، نظیر محتوای متن های تولید شده توسط هر کاربر. با قرار دادن این اطلاعات در کنار ساختار لینک شبکه میتوان تعاملات و ارتباطات بین کاربران را تفسیر کرد. در این مطالعه با استفاده از اطلاعات فوق، نشان داده میشود کاربرانی که لینک های نزدیکی به هم دارند در یک حوزه کاری شبیه به هم قرار میگیرند. بهطور خاصتر،در این پژوهش مدلی برای کشف تشکل ها ارائه میگردد که در ابتدا سعی میکند با استفاده از یک راهکار بیزی تشکل ها را بر اساس ساختار لینک شبکه شناسایی کند. سپس با استفاده از ابزار های پیمایش متنف در صورتی که متن های منتسب به یک کاربر دارای شباهتهای زیادی با عناوین اسناد منتسب به یک تشکل داشته باشد، آن کاربر به تشکل جدید منتقل میشود. از این رو، افرادی که در یک تشکل مشترک هستند در یک حوزهی کاری شبیه به هم نیز قرار دارند. نتایج حکایت از توانایی روش پیشنهادی در کشف تشکلهایی را دارد که به لحاظ معنایی کاملا معنی دار هستند.
واژگان کلیدی: شبکههای اجتماعی، تشکل، شناسایی تشکل ها، پیمایش متن

فهرست مطالب
عنوان صفحه
TOC \o "1-3" \h \z \t "Refrence,1" فصل 1- مقدمه PAGEREF _Toc397453907 \h 71-1- شبکه های اجتماعی PAGEREF _Toc397453908 \h 71-2- تقسیمبندی شبکههای اجتماعی PAGEREF _Toc397453909 \h 91-3- اهمیت شبکههای اجتماعی PAGEREF _Toc397453910 \h 101-4- تحلیل شبکههای اجتماعی PAGEREF _Toc397453911 \h 111-5- شبکهها و ویژگی آنها PAGEREF _Toc397453912 \h 111-6- تشکلها در شبکههای اجتماعی PAGEREF _Toc397453913 \h 131-7- اهمیت شناسایی تشکلها PAGEREF _Toc397453914 \h 161-8- انگیزه از انجام این پایان نامه PAGEREF _Toc397453915 \h 171-9- نگاه کلی به فصول رساله PAGEREF _Toc397453916 \h 19فصل 2- فصل دوم: مروری بر کارهای انجام شده PAGEREF _Toc397453917 \h 212-1- مقدمه PAGEREF _Toc397453918 \h 212-2- روشهای ارائه شده PAGEREF _Toc397453919 \h 222-3- روشهای مبتنی بر لینک PAGEREF _Toc397453920 \h 222-3-1- بهینه کردن یک هدف سراسری PAGEREF _Toc397453921 \h 222-3-2- بدون بهینه سازی هیچ معیاری PAGEREF _Toc397453922 \h 272-3-3- روشهای مبتنی بر مدل PAGEREF _Toc397453923 \h 272-4- روشهی مبتنی بر محتوا PAGEREF _Toc397453924 \h 292-4-1- روش CUT PAGEREF _Toc397453925 \h 292-4-2- روش LTCA PAGEREF _Toc397453926 \h 30فصل 3- ارائه راه حل و روشهای پیشنهادی PAGEREF _Toc397453927 \h 323-1- مقدمه PAGEREF _Toc397453928 \h 323-2- روش SBM PAGEREF _Toc397453929 \h 343-3- روش LDA PAGEREF _Toc397453930 \h 373-4- روش پیشنهادی PAGEREF _Toc397453931 \h 403-4-1- روش CDBLC PAGEREF _Toc397453932 \h 413-5- جمعبندی PAGEREF _Toc397453933 \h 51فصل 4- نتایج PAGEREF _Toc397453934 \h 534-1- مقدمه PAGEREF _Toc397453935 \h 534-2- مجموعه دادهها PAGEREF _Toc397453936 \h 544-2-1- مجموعه دادهی Cora PAGEREF _Toc397453937 \h 544-2-2- مجموعه دادهی Twitter PAGEREF _Toc397453938 \h 554-3- معیارهای ارزیابی PAGEREF _Toc397453939 \h 564-3-1- معیار Modularity PAGEREF _Toc397453940 \h 574-3-2- معیار Normalized Mutual Information PAGEREF _Toc397453941 \h 584-3-3- معیار Perplexity PAGEREF _Toc397453942 \h 594-4- نتایج و تحلیلها PAGEREF _Toc397453943 \h 604-4-1- مجموعه دادهی Cora PAGEREF _Toc397453944 \h 61فصل 5- بحث و نتیجه‌گیری PAGEREF _Toc397453945 \h 675-1- نتیجه گیری PAGEREF _Toc397453946 \h 675-2- پیشنهادات برای کارهای آتی PAGEREF _Toc397453947 \h 71فهرست منابع PAGEREF _Toc397453948 \h 72

فهرست شکل‌ها
عنوان صفحه
TOC \f F \h \z \t "shu- شکل با شماره فصل" \c شکل 1-1- تشکلها. PAGEREF _Toc403403324 \h 14شکل2-1- افراز گراف. PAGEREF _Toc403403325 \h 25شکل 2-2- الف) خوشه‌بندی سلسله مراتبی. ب) خوشه‌بندی توده‌ای PAGEREF _Toc403403326 \h 26شکل 2-3- نمایش گرافیکی مدل GSB. PAGEREF _Toc403403327 \h 30شکل 2-4- نمایش گرافیکی روش CUT. PAGEREF _Toc403403328 \h 31شکل 3-1- نمایش گرافیکی روش مدل بلوک تصادفی (SBM). PAGEREF _Toc403403329 \h 37شکل 3-2- نمایش گرافیکی روش LDA. PAGEREF _Toc403403330 \h 39شکل3-3- روند کشف تشکلهای پنهان در CDBLC PAGEREF _Toc403403331 \h 43شکل 3-4- گراف مبتنی بر لینک برای شبکه مثال. PAGEREF _Toc403403332 \h 43شکل 3-5- اعمال روش SBM بر روی گراف شبکه. PAGEREF _Toc403403333 \h 44شکل 3-6- انتساب اسناد به تشکلها. PAGEREF _Toc403403334 \h 45شکل 3-7- اعمال روش LDA بر روی اسناد درون هر تشکل. PAGEREF _Toc403403335 \h 45شکل 3-8- محاسبه شباهت محتوای اسناد در دیگر تشکلها با عناوین یک تشکل به خصوص. PAGEREF _Toc403403336 \h 46شکل 3-9- همگرایی الگوریتم CDBLC. PAGEREF _Toc403403337 \h 47شکل 3-10- تمایش گرافیکی قدم دوم از الگوریتم CDBLC . PAGEREF _Toc403403338 \h 48شکل 3-11- فلوچارت الگوریتم CDBLC PAGEREF _Toc403403339 \h 51 PAGEREF _Toc403403340 \h 62شکل 4-1- کارایی الگوریتم با توجه به معیار MI بر روی مجموعه دادهی Cora. PAGEREF _Toc403403341 \h 62شکل 4-2- Perplexity تمام تشکلها در تمام مراحل بر روی مجموعه داده Cora. PAGEREF _Toc403403342 \h 63شکل 4-3- خروجی Perplexity برای هر تشکل در مراحل مختلف بر روی مجموعه داده Cora . PAGEREF _Toc403403343 \h 64شکل 4-4- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=50 و K=5. PAGEREF _Toc403403344 \h 65شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=30 و K=10. PAGEREF _Toc403403345 \h 65شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=100 و K=20 PAGEREF _Toc403403346 \h 66
فهرست جدول‌ها
عنوان صفحه
TOC \f F \h \z \t "shu- جدول: سطر عنوان" \c جدول 3-1 علائم و تعاریف بکار رفته PAGEREF _Toc397456005 \h 33
فصل نخست:مقدمه
مقدمهشبکه های اجتماعیتعامل انسان با کامپیوتر از زمان ایجاد اولین کامپیوترها همواره مورد توجه بوده است و شامل مطالعه، برنامهریزی و طراحی رابطه بین کاربران و رایانهها است. معمولا از HCI به عنوان نقطه تقاطع علوم کامپیوتر، علوم رفتاری، علم طراحی و چند زمینه دیگر یاد میشود. این اصطلاح برای اولین بار توسط کارد و همکارانش در کتاب "روانشناسی تعامل انسان با کامپیوتر" مطرح شده است و دلالت ضمنی بر این مطلب دارد که رایانه دارای کاربردهای بیشماری است که بدون مرز بین آن و کاربر اعمال میشودADDIN