متن کاوی (Text Mining) امروزه متداول ترین ابزاری است که از طریق آن اطلاعات رد و بدل میشوند. فهمیدن معنی از یک متن به هیچ وجه کار آسانی نیست، به همین دلیل ما به یک ابزار هوش تجاری مفید نیاز داریم که به درک آسان اطلاعات کمک کند.
متن کاوی به عنوان تحلیل کمی متن (Text Analytics) نیز شناخته میشود. این ابزار در واقع، فرآیند درک اطلاعات از مجموعهای از متنها است و به گونهای طراحی شده است که کسب و کارها بتوانند دانش سودمندی را از محتوای مبتنی بر متن بدست آورند.
این محتواها میتوانند به صورت اسناد ورد، ایمیل یا پستهایی در رسانههای اجتماعی باشند. Text Mining میتواند از روشهای خودکار برای درک دانش موجود در اسناد متنی استفاده کند و همچنین کمک میکند تا کامپیوتر دادههای ساخت یافته یا ساخت نیافته را درک کند. دادههای کیفی یا ساخت نیافته دادههایی هستند که نمیتوان آنها را بر حسب اعداد اندازه گیری کرد. این دادهها معمولاً شامل اطلاعاتی مانند رنگ، بافت و متن هستند. دادههای کمی یا ساخت یافته دادههایی هستند که به راحتی قابل اندازه گیری هستند.
متن کاوی (Text Mining) زمینههای مختلفی را مورد مطالعه قرار میدهد که شامل بازیابی اطلاعات، داده کاوی، یادگیری ماشین، آمار و غیره میشوند. Text mining کمی متفاوت تر از داده کاوی (Data Mining) است.
مزایای Text Mining
استفاده از متن کاوی (Text Mining) مزایای زیادی دارد. ما در ادامه به چند مورد مهم اشاره کردیم:
- باعث صرفه جویی در وقت و منابع میشود و عملکرد موثرتری نسبت به مغز انسان دارد.
- به ثبت نظرات در طول زمان کمک میکند.
- متن کاوی به جمع بندی و خلاصه کردن اسناد کمک میکند.
- متن کاوی و تحلیل کمی متن (Text Analytics) به استخراج مفاهیم از متن و ارائه کاملتر آنها کمک میکند.
- متنی که با استفاده از Text mining شاخص میشود میتواند در تجزیه و تحلیل پیش بینی کننده استفاده شود.
- اسامی موارد مختلف و روابط بین متن را میتوان با استفاده از تکنیکهای مختلف به راحتی پیدا کرد.
- به استخراج الگوها از حجم زیادی از دادههای ساخت نیافته کمک میکند.
- مرور اصولی متون تخصصی: Text mining میتواند به طور عمیق در متون مختلف به جستجو بپردازد، موضوعات کلیدی را بیابد و اصطلاحات یا متن تکرار شده و موضوعات رایج را در یک دوره زمانی برجسته کند.
- آزمایش فرضیه: از طریق Text mining میتوانیم فرضیهی خاصی را آزمایش کنیم تا ببینیم آیا سند موجود، این ایده را تأیید یا رد میکند.
بررسی اهمیت این ابزار
- متن کاوی امکان تصمیم گیری بهتر و هوشمندانه تر را فراهم میکند.
- اگر مشکلی در پیدا کردن دانش خاصی در زمینهای از کسب و کار داشته باشیم به ما کمک میکند.
- از طریق این ابزار میتوانید دادهها را به روشهای مختلف مانند جدولهای HTML، چارتها، نمودارها و غیره به راحتی تجسم سازی کنید.
- همچنین یک ابزار بهره وری عالی است و نتایج بهتر و سریع تری را نسبت به سایر دستگاهها ارائه میدهد.
- سازمانهای بزرگ و کوچک که دانش محور هستند، از آن استفاده میکنند.
کاربردهای متن کاوی
- تجزیه و تحلیل پاسخ سوالهای باز (open-ended) در نظرسنجی
سوالات باز (open-ended) در یک نظرسنجی به پاسخ دهندگان کمک میکند تا دیدگاه یا نظر خود را بدون هیچ گونه محدودیتی بیان کنند. این به دانستن نظرات مشتریان بیشتر از تکیه بر پرسشنامههای ساخت یافته کمک میکند. از Text mining میتوان برای تجزیه و تحلیل چنین اطلاعاتی در قالب متن استفاده کرد.
- پردازش خودکار پیامها، ایمیلها
از متن کاوی (Text Mining) نیز اغلب برای دسته بندی متن استفاده میشود. متن کاوی میتواند برای فیلتر کردن و حذف کردن نامههای غیر ضروری با استفاده از کلمات یا عبارات خاص استفاده شود. چنین ایمیلهایی به عنوان اسپم یا هرزنامه حذف میشوند. سیستم Text mining به طور خودکار ایمیلهای منتخب را دسته بندی و فیلتر میکند و آنها را به بخش مربوطه میفرستد. Text Mining همچنین به ایمیل هشدار میدهد و باعث میشود ایمیلهای حاوی کلمات یا محتواهای توهین آمیز حذف شوند.
- تجزیه و تحلیل گارانتی یا بیمه
در اکثر سازمانهای تجاری اطلاعات اغلب به صورت متن جمع آوری میشوند. برای مثال در بیمارستان مصاحبههای بیمار را میتوان خیلی کوتاه و به صورت متن بیان کرد و گزارشات نیز به صورت متن هستند. این یادداشتها در حال حاضر به صورت الکترونیکی جمع آوری میشوند تا به راحتی به الگوریتمهای Text Mining واگذار شوند.
- بررسی وضعیت رقبا از طریق چک کردن وبسایت آنها
یکی دیگر از حوزههای کاربردی مهم Text Mining پردازش محتویات صفحات وب در یک حوزه خاص است. به این ترتیب سیستم Text mining به طور خودکار لیستی از اصطلاحات مورد استفاده در سایت را پیدا میکند. شما از این طریق میتوانید مهمترین اصطلاحات مورد استفاده در وب سایت را بیابید و قابلیتهای رقبا را که میتوانند به شما در کسب و کار موثر کمک کنند، بشناسید.
تکنیکهای مورد استفاده در متن کاوی
در این جا پنج فناوری اصلی را که سیستم متن کاوی استفاده میشود، برای شما آماده کردیم:
- استخراج اطلاعات:
در این تکنیک از طریق فهمیدن کلمات مهم و پیدا کردن روابط بین آنها متن ساخت نیافته آنالیز میشود. همچنین از طریق تطبیق الگو برای فهمیدن ترتیب در متن استفاده میشود. این تکنیک به تبدیل متن ساخت نیافته به یک فرم ساخت یافته کمک میکند. استخراج اطلاعات شامل ماژولهای پردازش زبان است. این تکنیک بیشتر در مواردی که مقدار زیادی داده وجود دارد، استفاده میشود. روند استخراج اطلاعات در تصویر زیر توضیح داده شده است.
- دسته بندی
تکنیک دسته بندی سند متن را در یک یا چند دسته طبقه بندی میکند. این تکنیک بر اساس نمونههای ورودی-خروجی دسته بندی را انجام میدهد. فرآیند دسته بندی شامل پیش پردازش، شاخص گذاری، کاهش ابعادی و طبقه بندی است. متن را میتوان با استفاده از دسته بند بیز ساده (Naive Bayesian classifier)، درخت تصمیم (Decision tree)، دسته بند نزدیکترین همسایه (Nearest Neighbour classifier) و ماشینهای فروشنده پشتیبانی (support Vendor Machines) دسته بندی کرد.
- خوشه بندی (Clustering)
از روش خوشه بندی برای گروه بندی اسناد متنی که محتواهای مشابهی دارند، استفاده میشود. این تکنیک دارای قسمتهایی (partitions) به نام خوشه است و هر بخش چندین سند با محتویات مشابه خواهد داشت. خوشه بندی اطمینان حاصل میکند که هیچ سابقهای از جستجو حذف نمیشود و همه اسنادی را که محتویات مشابهی دارند، جمع آوری میکند. K-means یا K-میانگین متداولترین تکنیک خوشه بندی است. این تکنیک نیز هر خوشه را مقایسه میکند و بررسی میکند که تا چه اندازه فرم و شکل آنها به خوبی بهم متصل شدند. شرکتها از این تکنیک برای ایجاد پایگاه داده با هزاران سند مشابه استفاده میکنند.
- تجسم سازی
افراد معمولا از تکنیک تجسم استفاده میکنند تا فرآیند پیدا کردن اطلاعات مرتبط را ساده کنند. تجسم سازی به جذابتر نمایش دادن اطلاعات متنی کمک میکند.
- خلاصه سازی
تکنیک خلاصه سازی به کاهش طول سند و خلاصه سازی جزئیات اسناد کمک میکند. این امر باعث میشود که سند برای کاربران خوانا و گویا شود و آنها بتوانند محتوا را در یک نگاه بفهمند. این تکنیک یک سند متنی را که حجم زیادی دارد، به راحتی و به سرعت خلاصه میکند. انسانها زمان بیشتری برای خواندن و سپس ترجمه سند اختصاص میدهند اما، خلاصه سازی این فرآیند را سرعت میبخشد و به برجسته کردن نکات اصلی در یک فرم کمک میکند.
مراحل پردازش متن کاوی
تا الان متوجه شدید که Text mining به شما کمک میکند تا متن را خیلی خوب بفهمید. سیستم متن کاوی کلماتی را که در دادههای ساخت نیافته قرار دارند، با مقادیر عددی مبادله و به شناسایی الگوها و روابط موجود در حجم زیادی از متنها کمک میکند. این ابزار اغلب از الگوریتمهای محاسباتی برای خواندن و تحلیل اطلاعات متنی استفاده میکند. بدون این سیستم درک راحت و سریع متن دشوار خواهد بود. میتوان متن را به طور اصولی و جامع تری استخراج کرد و اطلاعات مربوط به کسب و کار را به طور خودکار ثبت کرد. ما در این جا مراحلی را که در پردازش Text mining اتفاق میافتند بیان کردیم:
مرحله ۱: بازیابی اطلاعات: بازیابی اطلاعات اولین مرحله در فرآیند داده کاوی (Data Mining) است. این مرحله به فهم مجموعهای از متنها کمک میکند. این متون همچنین باید در فرم خاصی گردآوری شوند که به کاربران کمک کند تا آنها درک کنند. معمولاً فایل XML که مخفف Extensible Markup Language و به معنای زبان نشانهگذاری گسترشپذیر است، برای Text mining استاندارد میباشد. فایلهای XML شامل Tag هستند و از متن خالص درست میشوند.
مرحله ۲: پردازش زبان طبیعی: این مرحله به سیستم متن کاوی اجازه میدهد تا روی یک متن تجزیه و تحلیل دستوری انجام دهد و آن را قابل خواندن کند. پردازش زبان طبیعی ساختارهای متن را تجزیه و تحلیل میکند.
مرحله ۳: استخراج اطلاعات: در این مرحله مفهوم نشانه گذاری یک متن خاص شناسایی میشود و همچنین نام یا مکان به خواننده اضافه میشود. این مرحله به موتور جستجو اجازه میدهد تا اطلاعات را بدست آورد و با استفاده از فراداده و متادیتای خود روابط بین آنها را بفهمد.
مرحله ۴: داده کاوی (Data Mining): مرحلهی نهایی داده کاوی با استفاده از ابزارهای مختلف انجام میشود. این مرحله شباهتهایی بین اطلاعات با همان معنی پیدا میکند که در غیر این صورت، یافتن آنها دشوار خواهد بود. متن کاوی ابزاری است که فرآیند تحقیق را سریع تر و به تست کردن پرس و جوها کمک میکند.
چالشهای استفاده از این ابزار
چالش اصلی سیستم Text Mining زبان طبیعی است که کلا مبهم است. ابهام به این صورت که یک اصطلاح دارای چندین معنا است و یک عبارت به روشهای مختلف تفسیر میشود. در نتیجه معانی متفاوتی بدست میآید. محدودیت دیگر این است که هنگام استفاده از سیستم استخراج اطلاعات (Information Extraction) تجزیه و تحلیل معنایی هم شامل آن میشود. بنابراین، متن کامل ارائه نمیشود بلکه فقط بخش محدودی از متن در اختیار کاربران قرار میگیرد. اما این روزها همه نیاز به درک بیشتری از متن دارند.
متن کاوی همچنین دارای محدودیتی در قوانین حق چاپ است. محدودیتهای زیادی در مورد متن کاوی یک سند وجود دارد و در بیشتر موارد شامل حقوق دارندگان حق چاپ میشود. اکثر متون به صورت متن باز (open-source) یافت نمیشوند و در چنین مواردی باید از نویسندگان، ناشران و سایر افراد مرتبط مجوز گرفت. یک محدودیت دیگر این است که Text Mining حقایق و fact جدیدی تولید نمیکند و یک پردازش نهایی محسوب نمیشود.
و در آخر باید خاطر نشان کرد که متن کاوی (Text Mining) یا تحلیل کمی متن (Text Analytics) یک فناوری موفق است اما، به این نکته توجه کنید که نتایج به دست آمده و عمق تجزیه و تحلیل در کسب و کارها متفاوت میباشد. بنابراین، با استفادهی هوشمندانه از این ابزار قطعا میتوانید نتایج خوبی برای شرکت خود رقم بزنید.