تعریف
د بشري فیډبیک څخه د پیاوړتیا زده کړه (RLHF) د روزنې پروسې کې د انساني قضاوتونو په شاملولو سره د AI ماډلونو د انساني ارزښتونو سره د سمون لپاره یوه طریقه ده. دا ډیری وختونه د لویو ژبو ماډلونو د ښه کولو لپاره کارول کیږي.
هدف
موخه دا ده چې د مصنوعي ذهانت محصولات خوندي، ډیر ګټور او د انسانانو د غوره توبونو سره سم شي. RLHF د زیان رسوونکو، تعصب لرونکو، یا غیر اړونده ځوابونو کمولو سره د خبرو اترو سیسټمونه ښه کوي.
اهمیت
- د مصنوعي ذهانت په روزنه کې انساني څارنه چمتو کوي.
- د مصنوعي ذهانت سیسټمونو اعتبار ښه کوي.
- د انساني تشریح اړتیاو له امله کار ته اړتیا لري.
- د غوره توب ماډلینګ او سمون څیړنې پورې اړوند.
څنګه کار کوي
- د ماډل محصولاتو پرتله کولو سره د انسانانو نظرونه راټول کړئ.
- د انسانانو د غوره توبونو په اړه د انعام ماډل وروزو.
- د اساس ماډل د ښه تنظیم لپاره د تقویې زده کړې وکاروئ.
- د سمون اهدافو په وړاندې د فعالیت ارزونه.
- د اضافي فیډبیک سره تکرار کړئ.
مثالونه (حقیقي نړۍ)
- OpenAI ChatGPT: د خوندي ځوابونو لپاره د RLHF سره ښه تنظیم شوی.
- د انتروپیک اساسي مصنوعي ذهانت: د مستقیم غبرګون پرځای د اصولو لخوا رهبري کیږي.
- InstructGPT: د OpenAI لومړنی ماډل چې RLHF ښیي.
حوالې / نور لوستل
- کریسټیانو او نور. "د انساني غوره توبونو څخه ژوره پیاوړتیا زده کړه." نیوریپس ۲۰۱۷.
- د OpenAI لارښوونې GPT کاغذ.
- د NIST AI د خطر مدیریت چوکاټ.
- د انساني فیډبیک (RLHF) سره د پیاوړتیا زده کړه څه ده؟