معرفی

دسته‌گر یکی از سرویس‌های واکاویک است که امکان دسته‌بندی و برچسب گذاری انواع متن‌ها را به صورت خودکار و هوشمند فراهم می کند. این سرویس کاملا قابل شخص‌سازی برای هر کاربر و برای کاربردهای مختلف است.

مفاهیم زیر در کار با سرویس دسته‌گر واکاویک مورد استفاده قرار می‌گیرد که در این صفحه تعریف شده اند:


ماژول

سرویس دسته‌گر واکاویک سطح بالایی از شخصی سازی را برای کاربران فراهم می‌کند. تنظیمات مورد نظر هر کاربر برای استفاده از این سرویس، در قالب مفهوم ماژول شناخته و ذخیره می‌شود. در حال حاضر هر کاربر می‌تواند یک یا چند ماژول بسازد و تنظیمات آن را طبق نیاز خود، و با توجه به نوع متن‌های مورد استفاده انجام دهد. برای اطلاع از روش ساخت یک ماژول جدید این صفحه را مطالعه کنید.

روش کار هر ماژول به این شکل است که تعدادی نمونه متن به همراه برچسب متناظر آنها برای ماژول ثبت می‌شود. سپس ماژول توسط این نمونه‌ها آموزش داده می شود. پس از انجام آموزش، کاربر می‌تواند از طریق API های دسته‌بندی واکاویک، متن‌های مورد نظر خود را به ماٰژول خود ارسال کند، و در پاسخ برچسب متناظر با آن متن را دریافت کند. در پاسخ هر درخواست، علاوه بر برچسب، احتمال صحت برچسب نیز ارائه می‌شود.


رکورد

در ماژول دسته‌گر، به هر متن نمونه و برچسب متناظر آن، یک رکورد گفته می‌شود. همانطور که در پاراگراف قبل گفته شد، پیش از استفاده از هر ماژول تعدادی رکورد باید به عنوان نمونه ثبت شود، تا ماژول مورد نظر از روی این نمونه‌ها بیاموزد که چگونه دسته‌بندی متن را انجام دهد.

در صفحه مربوط به هر ماژول، رکوردها از تب «رکوردها و برچسب‌ها» در بخش «نمایش رکوردها» قابل مشاهده خواهد بود.


برچسب

هدف دست‌بندی یا Classification، این است که، متن‌ها، در دسته‌های مورد نظر کاربر قرار بگیرد. برچسب‌ها نماینده دسته‌های مورد نظر کاربران هستند.

برای افزودن برچسب به هر ماژول، لازم است یک یا چند رکورد با برچسب مورد نظر، برای ماژول ثبت شود. زمانی که دسته‌بندی انجام می‌شود، با استفاده از الگوریتم های پردازش زبان طبیعی و ماشین لرنینگ، مرتبط ترین برچسب(از بین برچسب‌های تعریف شده) برای متن، تعیین می‌شود.


آموزش (Train)

شما در هر زمانی می‌توانید برای ماژول خود رکوردهای جدید اضافه کند. اما برای اینکه رکوردهای جدید اثر گذار باشند، و الگوریتم یادگیری ماشین واکاویک، رکوردهای جدید را نیز در محاسبات خود وارد کند.، لازم است پس از افزودن رکوردهای جدید، یک باز آموزش انجام شود.

در حال حاضر آخرین وضعیت آموزش هر ماژول در باکس سمت چپ بالای هر ماژول مشخص شده است. این باکس سه وضعیت دارد:

  1. وضعیت اول: هرگز آموزش انجام نشده

    تا کنون آموزش انجام نشده زمانی که ماژول تازه ساخته شده باشد، چه در حالتی که رکوردی اضافه شده باشد و چه نشده باشد، این باکس قرمز رنگ خواهد بود. در این شرایط در این باکس گزینه «انجام آموزش» را مشاهده خواهید کرد. اگر تعدادی رکورد اضافه شده باشد، با کلید روی «انجام آموزش»، آموزش ماژول با رکوردهای موجود انجام می‌شود. انجام آموزش ممکن است مدتی زمان ببرد. در زمانی که ماژول در حال آموز است، این باکس به شکل زیر در خواهد آمد: در حال آموزش

  2. وضعیت دوم: آموزش به روز است

    ماژول به روز است زمانی که ماژول با آخرین رکوردهای اضافه شده آموزش دیده باشد، باکس مورد نظر به شکل بالا در خواهد آمد. در این وضعیت تمامی رکوردها اثر گذارند، و دسته‌بندی با بهره‌گیری از همه رکوردها انجام می‌شود.

  3. وضعیت سوم: رکوردهای جدید اضافه شده است

    نیاز به باز آموزی زمانی که ماژول قبلا آموزش دیده باشد، اما پس از آن تعدادی رکورد جدید اضافه کرده باشید، باکس وضعیت آموزش به شکل بالا در خواهد آمد. در این وضعیت گزینه «انجام بازآموزی» را مشاهده خواهید کرد که با کلیک بر روی آن، ماژول آموزش داده می‌شود.


دیتاست (Dataset)

در واکاویک، به مجموعه همه رکورد‌هایی که برای هر ماژول ثبت شده و مورد استفاده قرار می‌گیرد، دیتاست گفته می‌شود.


ریشه‌یابی (Stemming)

ریشه‌یابی لغات یکی از فرآیند‌هایی است که در الگوریتم‌های پردازش زبان طبیعی مورد استفاده قرار می‌گیرد. هدف ریشه‌یابی یا Stemming همانطور که از نامش پیداست، این است که پردازش متن، به جای هر لغت، ریشه آن را در نظر بگیرد. ریشه‌یابی برای انواع مختلف کلمات مورد استفاده قرار می‌گیرد: اسمهای جمع، صرف افعال، و ... .

به عنوان نمونه لغت «کتابها» پس از ریشه‌یابی به «کتاب» و لغت «می‌رفتید» به لغت «رفت» تبدیل می‌شود. سرویس واکاویک توانمندی ریشه‌یابی نوشتار عامیانه را نیز دارد.

یکی از ویژگی‌های سرویس دسته‌گر واکاویک این است که به شما اجازه می‌‌دهد انتخاب کنید که آیا ریش‌یابی روی متن‌های مورد نظر شما انجام شود یا خیر. انتخاب این گزینه هم هنگام ساخت ماژول جدید، و هم پس از ساخت در بخش تنظیمات مازول قابل انجام است.


لغات زائد (Stopwords)

همه لغاتی که در متن‌ها استفاده می‌شوند، تاثیر یکسانی روی موضوع یا برچسب متناظر متن ندارد. به طور خاص حروف ربط (از، که، تا، به و ...) در هر متنی با هر موضوع یا برچسبی مورد استفاده قرار می‌گیرد. در الگوریتم‌های پردازش زبان طبیعی، عموما برای دقت بیشتر در نتایج، این لغات، که Stopword یا لغات زائد نامیده می‌شوند، پیش از پردازش حذف می‌شوند. شما می‌توانید در تنظیمات ماژول دسته‌گر خود انتخاب کنید که اولا آیا لازم است لغات زائد حذف شود یا خیر، و دوما چه لغاتی در متن‌های شما باید به عنوان لغات زائد در نظر گرفته شوند.