د نوم شوي وجود پیژندنه (NER) د طبیعي ژبې پروسس کولو (NLP) کلیدي اړخ دی چې د متن په لوی مقدار کې د ځانګړي توضیحاتو پیژندلو او طبقه بندي کولو کې مرسته کوي. د NER غوښتنلیکونو کې د نورو په مینځ کې د معلوماتو استخراج، د متن لنډیز، او د احساساتو تحلیل شامل دي. د اغیزمن NER لپاره، د ماشین زده کړې ماډلونو روزلو لپاره متنوع ډیټاسیټونو ته اړتیا ده.
د NER لپاره پنځه د پام وړ خلاصې سرچینې ډیټاسیټونه دي:
- CONLL 2003: د خبر ډومین
- CADEC: طبي ډومین
- ويکينيرال: د ويکيپېډيا ډومین
- آنټو نوټس 5: مختلف ډومینونه
- BBN: مختلف ډومینونه
د دې ډیټاسیټونو ګټې په لاندې ډول دي:
- لاسرسي: دوی وړیا دي او همکاري هڅوي
- د معلوماتو بډایه: دوی متنوع ډاټا لري، د ماډل فعالیت ته وده ورکوي
- د ټولنې ملاتړ: دوی ډیری وختونه د ملاتړ کونکي ټولنې سره راځي
- د څیړنې اسانتیا: په ځانګړي توګه د څیړونکو لپاره ګټور دي چې د معلوماتو راټولولو محدود سرچینې لري
په هرصورت، دوی د زیانونو سره هم راځي:
- د معلوماتو کیفیت: دوی ممکن غلطۍ یا تعصبونه ولري
- د ځانګړتیا نشتوالی: دوی ممکن د دندو لپاره مناسب نه وي چې ځانګړي معلوماتو ته اړتیا لري
- د امنیت او محرمیت اندیښنې: د حساس معلوماتو سره تړلي خطرونه
- ساتنه: دوی ممکن منظم تازه معلومات ترلاسه نکړي
د احتمالي نیمګړتیاوو سره سره، د خلاصې سرچینې ډیټاسیټونه د NLP او ماشین زده کړې په پرمختګ کې مهم رول لوبوي، په ځانګړې توګه د نوم شوي ادارې پیژندنې په ساحه کې.
بشپړ مضمون دلته ولولی:
https://wikicatch.com/open-datasets-for-named-entity-recognition/