د انساني فیډبیک څخه د پیاوړتیا زده کړه (RLHF)

د ‏‎RLHF

تعریف

د بشري فیډبیک څخه د پیاوړتیا زده کړه (RLHF) د روزنې پروسې کې د انساني قضاوتونو په شاملولو سره د AI ماډلونو د انساني ارزښتونو سره د سمون لپاره یوه طریقه ده. دا ډیری وختونه د لویو ژبو ماډلونو د ښه کولو لپاره کارول کیږي.

هدف

موخه دا ده چې د مصنوعي ذهانت محصولات خوندي، ډیر ګټور او د انسانانو د غوره توبونو سره سم شي. RLHF د زیان رسوونکو، تعصب لرونکو، یا غیر اړونده ځوابونو کمولو سره د خبرو اترو سیسټمونه ښه کوي.

اهمیت

  • د مصنوعي ذهانت په روزنه کې انساني څارنه چمتو کوي.
  • د مصنوعي ذهانت سیسټمونو اعتبار ښه کوي.
  • د انساني تشریح اړتیاو له امله کار ته اړتیا لري.
  • د غوره توب ماډلینګ او سمون څیړنې پورې اړوند.

څنګه کار کوي

  1. د ماډل محصولاتو پرتله کولو سره د انسانانو نظرونه راټول کړئ.
  2. د انسانانو د غوره توبونو په اړه د انعام ماډل وروزو.
  3. د اساس ماډل د ښه تنظیم لپاره د تقویې زده کړې وکاروئ.
  4. د سمون اهدافو په وړاندې د فعالیت ارزونه.
  5. د اضافي فیډبیک سره تکرار کړئ.

مثالونه (حقیقي نړۍ)

  • OpenAI ChatGPT: د خوندي ځوابونو لپاره د RLHF سره ښه تنظیم شوی.
  • د انتروپیک اساسي مصنوعي ذهانت: د مستقیم غبرګون پرځای د اصولو لخوا رهبري کیږي.
  • InstructGPT: د OpenAI لومړنی ماډل چې RLHF ښیي.

حوالې / نور لوستل

موږ ته ووایاست چې موږ ستاسو د راتلونکي AI نوښت سره څنګه مرسته کولی شو.