تعریف
د اسنادو طبقه بندي د ماشین زده کړې یا د قواعدو پر بنسټ میتودونو په کارولو سره د متن اسنادو په مخکینیو ټولګیو کې د طبقه بندي کولو پروسه ده. ټولګیو کې ممکن موضوعات، سپیم کشف، یا احساس شامل وي.
هدف
موخه دا ده چې د متن لوی مقدارونه په اغیزمنه توګه تنظیم او فلټر شي. دا د لټون، د منځپانګې اعتدال، او اتوماتیک کاري جریان ملاتړ کوي.
اهمیت
- د کټګورۍ اتومات کولو سره وخت خوندي کوي.
- د بریښنالیک سپیم فلټر کولو، قانوني کشف، او پوهې مدیریت لپاره کیلي.
- تېروتنې ممکن د اسنادو د ورکېدو یا غلط طبقه بندي کېدو لامل شي.
- د NLP دندو پورې اړوند لکه د احساساتو تحلیل.
څنګه کار کوي
- د متن اسناد راټول او مخکې له مخکې پروسس کړئ.
- متن د ځانګړتیاوو سره استازیتوب کړئ (د مثال په توګه، TF-IDF، ایمبیډینګونه).
- د روزنې طبقه بندي ماډلونه (SVMs، عصبي شبکې).
- په لیبل شوي ازموینې سیټونو کې د ماډل دقت تایید کړئ.
- د نویو اسنادو د طبقه بندي کولو لپاره طبقه بندي کوونکی ځای پر ځای کړئ.
مثالونه (حقیقي نړۍ)
- د جي مېل سپیم فلټر: ایمیلونه په سپیم او غیر سپیم ویشل کیږي.
- د خبرونو راټولونکي: مقالې د موضوع له مخې طبقه بندي کړئ.
- قانوني ټیکنالوژي: د کشف او اطاعت لپاره اسناد طبقه بندي کوي.
حوالې / نور لوستل
- مینینګ او نور. د معلوماتو د ترلاسه کولو معرفي. د کیمبرج پوهنتون پریس.
- جورافسکي او مارټین. د وینا او ژبې پروسس کول. سټینفورډ.
- د پوهې او معلوماتو انجینرۍ په اړه د IEEE معاملې.