په LLMs کې د ټوکن کولو څرنګوالی

په LLMs کې د ټوکن کولو څرنګوالی

تعریف

ټوکن کول د متن په کوچنیو واحدونو (ټوکنونو) ویشلو پروسه ده لکه کلمې، فرعي کلمې، یا حروف، کوم چې د ژبې ماډلونو ته د معلوماتو په توګه کار کوي.

هدف

موخه دا ده چې متن په LLMs کې د روزنې او استنباط لپاره د مدیریت وړ برخو ته معیاري شي.

اهمیت

  • په NLP کې د پروسس کولو بنسټیز ګام.
  • د لغتونو اندازه او موثریت اغیزمنوي.
  • د نښه کولو انتخابونه دقت او فعالیت اغیزه کوي.
  • د سرایت کولو او ماډل روزنې پورې اړوند.

څنګه کار کوي

  1. د نښه کولو سکیم تعریف کړئ (کلمه، فرعي کلمه، کرکټر).
  2. د متن داخلولو لپاره ټوکنیزر تطبیق کړئ.
  3. د عددي IDs لپاره نقشه ټوکنونه.
  4. د پروسس لپاره ماډل ته د ټوکنونو تغذیه کول.
  5. د محصول ټوکنونه بیرته متن ته واړوئ.

مثالونه (حقیقي نړۍ)

  • د بایټ پییر انکوډینګ (BPE) چې په GPT ماډلونو کې کارول کیږي.
  • WordPiece په BERT کې کارول کیږي.
  • د جملې ټوټه چې په څو ژبو NLP کې کارول کیږي.

حوالې / نور لوستل

  • سینریچ او نور. "د فرعي کلمو واحدونو سره د نادرو کلمو عصبي ماشین ژباړه." ACL.
  • د ګوګل د جملې ټوټې اسناد.
  • جورافسکي او مارټین. د وینا او ژبې پروسس کول.

موږ ته ووایاست چې موږ ستاسو د راتلونکي AI نوښت سره څنګه مرسته کولی شو.