تعریف
د متن معلوماتو راټولول د مصنوعي ذهانت روزنې کې د کارولو لپاره د سرچینو لکه کتابونو، ویب پاڼو، یا چیٹ لاګونو څخه د لیکل شوي ژبې راټولولو پروسه ده.
هدف
موخه د NLP او LLM پراختیا لپاره د شرکت جوړول دي.
اهمیت
- د ژبې ماډلونو لپاره خام مواد چمتو کوي.
- د کاپي حق او جواز مسلې راپورته کوي.
- د معلوماتو تنوع په انصاف او دقت اغیزه کوي.
- باید زیانمنونکي یا غیر اړونده مینځپانګې فلټر کړئ.
څنګه کار کوي
- د متن سرچینې (ویب، اسناد، نقلونه) وپیژنئ.
- په اجازې سره متن کرول یا سکریپ کړئ.
- مینځپانګه پاکه او عادي کړئ.
- د تعقیب لپاره د میټاډاټا سره ذخیره کړئ.
- د روزنې دمخه یا ښه کولو کې وکاروئ.
مثالونه (حقیقي نړۍ)
- عام کرول: د ویب لوی مجموعه.
- د ويکيپېډيا ډمپونه: جوړښتي متن ډيټاسیټ.
- د کتابونو کارپس: د BERT روزنې لپاره کارول کیږي.
حوالې / نور لوستل
- د کامن کرول بنسټ.
- جورافسکي او مارټین. د وینا او ژبې پروسس کول.
- ISO/IEC TR 20547-5: د لویو معلوماتو حوالې جوړښت.
- د قضیې ځانګړي متن ډیټا راټولول