تعریف
ټوکن کول د متن په کوچنیو واحدونو (ټوکنونو) ویشلو پروسه ده لکه کلمې، فرعي کلمې، یا حروف، کوم چې د ژبې ماډلونو ته د معلوماتو په توګه کار کوي.
هدف
موخه دا ده چې متن په LLMs کې د روزنې او استنباط لپاره د مدیریت وړ برخو ته معیاري شي.
اهمیت
- په NLP کې د پروسس کولو بنسټیز ګام.
- د لغتونو اندازه او موثریت اغیزمنوي.
- د نښه کولو انتخابونه دقت او فعالیت اغیزه کوي.
- د سرایت کولو او ماډل روزنې پورې اړوند.
څنګه کار کوي
- د نښه کولو سکیم تعریف کړئ (کلمه، فرعي کلمه، کرکټر).
- د متن داخلولو لپاره ټوکنیزر تطبیق کړئ.
- د عددي IDs لپاره نقشه ټوکنونه.
- د پروسس لپاره ماډل ته د ټوکنونو تغذیه کول.
- د محصول ټوکنونه بیرته متن ته واړوئ.
مثالونه (حقیقي نړۍ)
- د بایټ پییر انکوډینګ (BPE) چې په GPT ماډلونو کې کارول کیږي.
- WordPiece په BERT کې کارول کیږي.
- د جملې ټوټه چې په څو ژبو NLP کې کارول کیږي.
حوالې / نور لوستل
- سینریچ او نور. "د فرعي کلمو واحدونو سره د نادرو کلمو عصبي ماشین ژباړه." ACL.
- د ګوګل د جملې ټوټې اسناد.
- جورافسکي او مارټین. د وینا او ژبې پروسس کول.