برخی نویسندگان داده کاوی را به عنوان ابزاری برای جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنند. برای انجام فرایند داده کاوی با زمینه های گوناگون تحقیقی مواجه میشویم، مانند پایگاه داده، یادگیری ماشین و آمار. پایگاه دادهها برای تحلیل کردن حجم زیادی از دادهها ضروری هستند. یادگیری ماشین، یک ناحیه هوش مصنوعی است که با ایجاد تکنیکهایی امکان یادگیری به وسیله تحلیل مجموعههای دادهای را به کامپیوترها میدهند. تمرکز این روشها روی داده سمبولیک است و با آنالیز دادههای تجربی سر و کار دارد. پایه آن تئوری آماری است. در این تئوری عدم قطعیت و شانس به وسیله تئوری احتمال مدل میشوند. امروزه بسیاری از روشهای آماری در زمینه داده کاوی استفاده میشوند. میتوان گفت که متن کاوی از تکنیکهای بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش کردن زبان طبیعی استفاده میکند و آنها را به الگوریتمها و متدهای داده کاوی، یادگیری ماشین و آماری مرتبط میکند. با توجه به ناحیههای تحقیق گوناگون، بر هر یک از آنها میتوان تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه برخی از این تعاریف بیان میشوند:
متن کاوی = استخراج اطلاعات: در این تعریف متن کاوی متناظر با استخراج اطلاعات در نظر گرفته میشود (استخراج واقعیتها از متن).
متن کاوی = کشف داده متنی: متن کاوی را میتوان به عنوان متدها و الگوریتمهایی از فیلدهای یادگیری ماشین و آماری برای متنها با هدف پیدا کردن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری است. در بسیاری از روشها، متدهای استخراج اطلاعات، پردازش کردن زبان طبیعی یا برخی پیش پردازشهای ساده برای استخراج داده از متون استفاده میشود، سپس میتوان الگوریتمهای داده کاوی را بر روی دادههای استخراج شده اعمال کرد.
متن کاوی = فرایند استخراج دانش: که در بخش قبلی به طور کامل توضیح داده شده است و در اینجا دیگر بیان نمیشود. در این تحقیق ما بیشتر متن کاوی را به عنوان کشف داده متنی در نظر میگیریم و بیشتر بر روی روشهای استخراج الگوهای مفید از متن برای دستهبندی مجموعه های متنی یا استخراج اطلاعات مفید، تمرکز میکنیم.
در دنیای کنونی مشکل کمبود اطلاعات نیست، بلکه مشکل کمبود دانشی است که از این اطلاعات می توان بدست آورد. میلیونها صفحه ی وب، میلیونها کلمه در کتابخانههای دیجیتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از این منابع اطلاعاتی هستند. اما نمیتوان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش خلاصهی اطلاعات است و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات.
داده کاوی، یک روش بسیار کارا برای کشف اطلاعات از دادههای ساختیافتهای که در جداول نگهداری میشوند، است. داده کاوی، الگوها را از تراکنشها، استخراج میکند، داده را گروهبندی میکند و نیز آنرا دستهبندی میکند. بوسیلهی داده کاوی میتوانیم به روابط میان اقلام دادهای که پایگاه داده را پر کردهاند، پی ببریم. در عین حال ما با داده کاوی مشکلی داریم و آن عدم وجود عامیت در کاربرد آن است. بیشتر دانش ما اگر به صورت غیر دیجیتال نباشند، کاملاً غیر ساختیافته اند. کتابخانههای دیجیتال، اخبار، کتابهای الکترونیکی، بسیاری از مدارک مالی، مقالات علمی و تقریباً هر چیزی که شما میتوانید در داخل وب بیابید، ساختیافته نیستند. در نتیجه ما نمیتوانیم آموزههای داده کاوی را در مورد آنها به طور مستقیم استفاده کنیم. با این حال، سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیر ساختیافته وجود دارد که عبارتند از: بازیابی اطلاعات، استخراج اطلاعات و پردازش زبان طبیعی.
بازیابی اطلاعات: اصولاً مرتبط است با بازیابی مستندات و مدارک. کار معمول دربازیابی اطلاعات این است که با توجه به نیاز مطرح شده از
سوی کاربر، مرتبط ترین متون و مستندات و یا در واقع بقچهی کلمه را ازمیان دیگر مستندات یک مجموعه بیرون بکشد. این یافتن دانش نیست بلکه تنها آن بقچهای از کلمات را که به نظرش مرتبطتر به نیاز اطلاعاتی جستجوگر است را به او تحویل میدهد. این روش به واقع دانش و حتی اطلاعاتی را برایمان به ارمغان نمیآورد.
پردازش زبان طبیعی: هدف کلی پردازش زبان طبیعی رسیدن به یک درک بهتر از زبان طبیعی توسط کامپیوترهاست. تکنیکهای مستحکم و سادهای برای پردازش کردن سریع متن به کار میروند. همچنین از تکنیکهای آنالیز زبان شناسی نیز برای پردازش کردن متن استفاده میشود.
استخراج اطلاعات: هدف روشهای استخراج اطلاعات، استخراج اطلاعات خاص از سندهای متنی است. استخراج اطلاعات میتواند به عنوان یک فاز پیش پردازش در متنکاوی بکار برود. استخراج اطلاعات عبارتند از نگاشت کردن متنهای زبان طبیعی (مثلا گزارشها، مقالات journal، روزنامهها، ایمیلها، صفحات وب، هر پایگاه داده متنی و…..) به یک نمایش ساختیافته و از پیش تعریف شده یا قالبهایی که وقتی پر میشوند، منتخبی از اطلاعات کلیدی از متن اصلی را نشان میدهند. یکبار اطلاعات استخراج شده و سپس اطلاعات میتوانند در پایگاه داده برای استفادههای آینده، ذخیره شوند.
2-1- کاربردهای متن کاوی
در این قسمت تعدادی از کاربردهای متنکاوری را بیان خواهیم کرد. امروزه با وجود حجم زیادی از اطلاعات متنی، متنکاوی از جمله روش های تحقیقی-تجاری میباشد که از اهمیت ویژهای برخوردار است. همه شرکتهای تجاری، تولید کنندگان کالاها، ارائه کنندگان خدمات و سیاستمداران قادرند با بهرهگیری از فرایند متنکاوی دانش مفیدی را به عنوان بازخورد از کالا، خدمات و عملکرد خود دریافت کنند. از جمله کاربردهای متن کاوی میتوان به موارد زیر اشاره نمود:
1.شناساییspam: آنالیز کردن عنوان و محتوای یک ایمیل دریافتی، برای تشخیص اینکه آیا ایمیل میتواند spam باشد یاخیر.
2 .نظارت :یعنی نظارت کردن رفتار شخص یا گروهی از انسانها به صورت پنهان. پروژهای به نام ENCODA تلفن، اینترنت و دیگر وسایل ارتباطی را برای شناسایی تروریسم نظارت میکند.
3. شناسایی نامهای مستعار: نامهای مستعار در مراقبتهای پزشکی برای شناسایی تقلبها آنالیز میشوند. برای مثال یک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه شود. از این طریق یا با استفاده از روشهای دیگری مطالبه کنندگان امکان سوءاستفاده را خواهند یافت و مطالبات حق بیمه زیادی تحت نامهای مستعار مختلف دریافت میکنند. استفاده از متنکاوی برای تشخیص این نامهای مستعار میتواند در یافتن تقلب به شرکتهای بیمه کمک فراوانی کند.
4.خلاصه سازی: منظور از خلاصه سازی، روند استخراج و ارائه مجموعهای مفاهیم پایهای از متن، تنها در چند خط است. این کار میتواند بررسی محتویات مستندات را برای کاربران سادهتر کند و آنها را در مسیر رسیدن به آنچه نیاز دارند، سرعت بخشد.
5. روابط میان مفاهیم: از جمله واقعیتهایی که می توان از یک مجموعه متون دریافت، ارتباط و وابستگی برخی مفاهیم با مفاهیم دیگراست. این واقعیات به طور مثال میتواند بگوید که پدیدار شدن بعضی کلمات ممکن است که وابسته باشد به ظاهر شدن بعضی دیگر از کلمات. منظور این است که هرگاه مجموعه ی اول کلمات را ببینیم، میتوانیم انتظار داشته باشیم که مجموعهی دوم لغات را نیز در ادامه مشاهده خواهیم کرد. این مفهوم نیز از داده کاوی در دیتابیس به امانت گرفته شده است.
6. یافتن وتحلیل رفتارها: برای شرح این کاربرد فرض کنید که مدیر یک کمپانی تجاری هستید. مشخصاً شما باید همواره بر فعالیتهای رقیبانتان نظارت داشته باشید. این میتواند هر نوع اطلاعاتی باشد که شما از اخبار، معاملات بورس و یا از مستندات تولید شده توسط همان کمپانی رقیب گرفتهاید. امروزه اطلاعات به طور فزآیندهای در حال افزایش است، مدیریت تمامی این منابع دادهای قطعاً تنها به کمک چشمان ممکن نیست. متنکاوی این امکان را میدهد که به طور اتوماتیک رفتارها و تغییرات جدید را بیابید. در واقع آنچه اصولاً باید از متنکاوی انتظار برود این است که به شما بگوید چه اخباری در میان گسترهای از اخبار به آنچه می خواهید مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینهی کاری شما صورت می گیرد و علایق و رفتارهای فعلی چگونه است و با چه روندی تغییر میکند. با استفاده از این اطلاعات، مدیران قادرند از اطلاعات کشف شده برای بررسی وضعیت رقیب سود جویند.
7. تحلیل احساس : در این کاربرد هدف از متن کاوی تشخیص احساس نویسنده متن است. درجه رضایت یا خوشحالی و ناراحتی نویسنده تشخیص داده میشود. این رساله به بررسی متن کاوی به منظور تحلیل احساس موجود در متون خواهد پرداخت، لذا در ادامه با جزئیات بیشتری تحلیل احساس در متون را بررسی خواهیم کرد.
همه اطلاعات متنی را میتوان به دو دسته:حقایق[1] و عقاید[2] دسته بندی کرد. حقایق عبارات علمی و عملی درباره موجودیتها، رویدادها و ویژگیهای آنها هستند که بصورت عینی و واقعی در دنیای بیرون وجود دارند یا به وقوع پیوستهاند. عقاید عبارات غیر عینی و ذهنی هستند که نظرات، ارزیابیها یا احساسات افراد را درباره یک موجودیت، رویداد و ویژگیهای آنها بیان میکنند [23]. شکل 1-1 مثالی را برای هر کدام بیان میکند. در این رساله تنها به یک جنبه از این مفهوم یعنی احساسات خواهیم پرداخت.
قبل از سال 2000 به دلیل کمبود منابع دادهای و کمبود متون حاوی نظرات و عقاید در تارنمای گسترده جهانی[1] تحقیقات اندکی در این زمینه به انجام رسیده است. امروزه با گسترش اینترنت و همهگیر شدن شبکههای اجتماعی، کاربران میتوانند نظرات خود درباره محصولات یا خدمات را در سایتهای تجاری، شبکههای اجتماعی، وبلاگها بیان کنند؛ صفحات وب متون زیادی را در بر دارند که مشتمل بر نظرات، عقاید، ارزیابی کاربران پیرامون یک کالا یا خدمات خاص هستند. اطلاعاتی که از این نوع دادهها قابل دستیابی است، برای شرکتهای سازنده و همچنین سازمانهای ارائه کننده خدمات بسیار مفید و گاهی ضروری خواهند بود. همچنین برای کاربرانی که قصد انتخاب خدمات یا یک نوع کالا را دارند راهنمایی مفیدی را ارائه میدهند. شخصی را در نظر بگیرید که قصد دارد موبایل یا دوربین دیجیتالی بخرد، برای آگاهی از کیفیت دوربین و مطلوبیت خدمات شرکت سازنده بدون شک به پرسش و جمعآوری اطلاعات از اطرافیان روی خواهد آورد، ولی امروزه با رشد اینترنت میتوان بصورت آنلاین نظرات و تجربیات صدها نفر را درباره یک کالای خاص مطالعه کرد و برای تصمیم گیری از آنها مدد گرفت.
امروزه تعدد و گوناگونی منابع اینترنتی حاوی نظرات و احساسات کاربران به حدی زیاد شده است که یافتن و ارزیابی آنها کار بسیار پیچدهای است. در بسیاری موارد نظرات و عقاید کاربر در یک پست طولانی پنهان شده است. برای استخراج نظرات و عقاید درباره یک موجودیت باید در ابتدا منابع اینترنتی مرتبط با آن را یافت سپس متن مورد نظر خوانده شود، جملات بیان کننده نظرات و عقاید کاربر از متن استخراج شوند، خلاصه سازی شوند و به فرم قابل استفاده تبدیل شوند. از جمله مشکلاتی که در این زمینه وجود دارد حجم زیاد داده میباشد. در صفحه توییتر شخصی جاستین بیبر روزانه 300000 نظر ثبت میشود [22]. این حجم از دادهها میتوانند اطلاعات مفیدی را برای شرکتها و همچنین مشتریها به همراه داشته باشند؛ ولی پردازش آنها بصورت دستی و انسانی غیر ممکن میباشد، لذا طراحی یک روش اتوماتیک برای تحلیل متن و استخراج نظرات و عقاید موجود در متن ضروری است. در همین راستا تلاشهای فراوانی صورت گرفته است، مثلا در کشور آمریکا 20 تا 30 شرکت به ارائه خدمات تخصصی تحلیل احساس میپردازند [17].
در این رساله روشی برای تحلیل احساس ارائه میشود. روش پیشنهادی سعی در ارائه مجموعه مناسبی از خصیصهها[2] را دارد به نحوی که بتوان به دقت بهتری در ارزیابی اتوماتیک متون دست یافت، همچنین تعداد خصیصهها در حد متناسبی حفظ شود. برای انتخاب خصیصهها از الگوریتمهای ساده و با حداقل پیچیدگی زمانی بهره میبریم و نیاز به استفاده از الگوریتم انتخاب خصیصه با پیچیدگی زمانی بالا مرتفع شده است.
[1] World wide web
[2] Features
[1] Facts
[2] Opinion
***ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است***
متن کامل را می توانید دانلود نمائید
چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)
ولی در فایل دانلودی متن کامل پایان نامه
با فرمت ورد word که قابل ویرایش و کپی کردن می باشند
موجود است