پایان نامه نظرکاوي در متون/:جستجو و يافتن متون هدف

پایان نامه نظرکاوي در متون/:جستجو و يافتن متون هدف

چالش‌ها و کارهاي مرتبط با حوزه‌ي کاوش در نظرات
2-2-1. شناسايي شخص صاحب نظر
بدلايل مختلف اطلاع از هويت شخص اظهار‌نظر کننده مي‌تواند حائز اهميت باشد. به عنوان مثال لحاظ کردن ميزان تجربه و تخصص شخص در رابطه با موضوع مي‌تواند در جهت تعيين ميزان ارزش آن اظهار نظر کمک‌کننده باشد، يا سابقه‌ي شخص مي‌تواند براي شناسايي نظراتي که با اهداف جانبدارانه جعل و منتشر مي‌شوند بکار گرفته شود. [3]، [4]، و [5] نمونه‌هايي از کارهاي انجام‌شده در اين رابطه هستند.
 
2-2-2. تشخيص هدف نظر[1] اظهار‌شده
مطمئناً اطلاع از نظرات افراد بدون آن‌که بدانيم اين نظرات در رابطه با چه چيز‌هايي بيان شده‌اند استفاده‌ي چنداني در مقايسه با زماني که دقيقا از هدف اظهار نظر مطلع باشيم ندارد. بنابراين کشف هدفي که مقصود اظهارنظر بوده است داراي اهميت ويژه‌اي است. در مطالعات [6]، [7]، [8]، [9]، و [10] در اين رابطه کار‌ شده است. در [6] از اطلاعات زبان‌شناسي مربوط به چگونگي بيان رابطه‌ي بين موضوع و عقيده‌ي اظهار‌شده در رابطه با آن موضوع استفاده شده است. [7] به مطالعه‌ي اين موضوع در متون خبري به زبان اردو پرداخته است. در [8] با دريافت هدف توسط پرس‌و‌جو، از مشخصه‌هاي مرتبط با آن هدف استفاده کرده و گرايش توييت‌ها[2] در سايت توييتر[3] نسبت به آن هدف شناسايي مي‌شوند. (توييتر يک شبکه‌ي اجتماعي است که در آن کاربران نظرات و متون خود را به‌صورت کوتاه در رابطه با موضوعات دلخواه ارائه مي‌کنند. به اين متون کوتاه که از نظر طول محدود هستند توييت گفته مي‌شود).
 
2-2-3. درجه‌بندي نظر[4]
برخي اوقات که کاربران به اظهار‌نظر درباره‌ي کالايي مي‌پردازند علاوه‌بر اظهار‌نظر متني امکان تعيين درجه يا امتياز نيز براي آن کالا توسط آن‌ها وجود دارد (مثلا دادن 3 ستاره از 5 ستاره به يک کتاب). استخراج درجه‌ي گرايش نظر (مثلا ميزان رضايت يا عدم رضايت) علاوه‌بر تعيين صرفاً مثبت يا منفي بودن نظر مي‌تواند کمک کننده باشد. کار‌هاي [11]، [12]، و [13] به اين موضوع پرداخته‌اند. در [11] و [12] به تعيين درجه براي اظهارنظر‌هاي جزئي مختلف انجام گرفته در متن يک اظهار‌نظر پرداخته شده است (مثلا تميزي، قيمت، و … براي يک اظهار‌نظر در رابطه با يک هتل).
 
2-2-4. جستجو و يافتن متون هدف
بسته به کاربردي که مورد‌نظر است بخش‌هاي خاصي از متون وب مورد بررسي قرار خواهند گرفت و مورد‌نياز خواهند بود. طبعاً يافتن و جمع‌آوري اسناد حاوي متون مطلوب داراي اهميت است. از جمله عمليات لازم براي تفکيک بين اسناد عبارتند از :
 
2-2-4-1. تشخيص موضوع[5]
تشخيص موضوع متون در هنگامي که به‌دنبال نظرات در حوزه‌ي خاصي هستيم ممکن است کمک‌کننده باشد (به‌عنوان مثال تشخيص متوني که در رابطه با گوشي تلفن‌همراه هستند، هنگامي که به بررسي نظرات کاربران در رابطه با اين کالا مي‌پردازيم). اين موضوع به‌خصوص در‌صورتي که قبل از واکشي[6] اسناد از وب انجام شود، از نقطه‌نظر صرفه‌جويي در منابع حائز اهميت است. [14] مطالعه‌اي در‌رابطه‌با مشخصه‌ها و الگوريتم‌هاي استفاده‌شده براي تشخيص موضوع بر اساس آدرس يکتاي اسناد تحت وب[7] است که در صورت موفقيت نياز به واکشي را از بين مي‌برد.
 
2-2-4-2. تشخيص زبان[8]
زبان متون هم يکي ديگر از معيار‌هاي جداسازي اسناد است و ممکن است تنها نظرات اظهار‌شده به يک زبان خاص مورد‌نظر باشند، لذا تشخيص اسنادي که به يک زبان خاص باشند (خصوصا قبل از واکشي اسناد) حائز اهميت است. در [15] به مطالعه‌ي تشخيص زبان بر اساس آدرس اسناد تحت وب و بدون نياز به واکشي آن‌ها پرداخته شده است.
 
2-2-4-3. تشخيص وجود نظر[9]
تشخيص وجود يا عدم وجود نظر به منظور جداسازي متوني که حاوي نظر و گرايش هستند از متوني که اين‌چنين نيستند نيز از مباحثي است که در مورد مطالعه قرار گرفته است. از جمله‌ي مطالعاتي که در آن‌ها به اين بحث پرداخته شده است مي‌توان به [16]، [17]، و [18] اشاره کرد.
 
2-2-5. سطح مطالعه‌ي گرايش احساس
تعيين گرايش احساس اظهار‌نظر در تحقيقات انجام‌گرفته در سطوح مختلفي انجام گرفته است به اين معني که گاهي گرايش مثبت يا منفي يک سند يا نظر به‌طور يکجا مورد بررسي قرار گرفته است (سطح سند[10]) مثل کارهاي [19] و [20]، گاهي اين موضوع براي جملات مورد مطالعه بوده است (سطح جمله[11]) مثل کارهاي [21] و [22]، و گاهي نيز براي جنبه‌هاي يک شيء تعيين شده است مثل کارهاي [23] و [24].
 
2-2-6. منابع لغوي
يکي از کار‌هايي که براي کمک به تشخيص گرايش احساس انجام گرفته است تهيه‌ي منابع لغوي متعددي است که حاوي مجموعه‌اي از لغات هستند و اطلاعاتي در رابطه با گرايش آن‌ها را در خود دارند. از جمله‌ي اين مطالعات مي‌توان به [25] و [26] اشاره کرد. در اين دو تحقيق (که دومي مکمل اولي است)، به دسته‌هاي لغات در يکي از منابع لغوي شناخته‌شده[12] امتيازاتي نسبت داده شده است که گوياي کيفيت مثبت، منفي، يا خنثي بودن آن‌ها است.
[1] Opinion Target
[2] Tweet
[3] Twitter
[4] Opinion Rating
[5] Topic Detection
[6] Fetch
[7] URL
[8] Language Detection
[9] Opinion Detection
[10] Document Level
[11] Sentence Level
[12] WordNet
لينک جزييات بيشتر و دانلود اين پايان نامه:
رهيافتي براي نظرکاوي در متون خبري فارسي

92