د AI روزنې ډاټا

د AI روزنې ډاټا

تعریف

د مصنوعي ذهانت روزنیز معلومات هغه لیبل شوی ډیټاسیټ دی چې د ماشین زده کړې ماډلونو ته د نمونو پیژندلو او وړاندوینې رامینځته کولو زده کولو لپاره کارول کیږي. دا د "ځمکني حقیقت" استازیتوب کوي چې په وړاندې یې ماډلونه خپل داخلي پیرامیټرې تنظیموي.

هدف

موخه دا ده چې داسې مثالونه وړاندې شي چې د احصایوي اړیکو زده کولو لپاره الګوریتمونو ته لارښوونه وکړي. دا ماډلونو ته وړتیا ورکوي چې له مثالونو څخه تر نه لیدل شوي معلوماتو پورې عمومي کړي.

اهمیت

  • د روزنې معلوماتو کیفیت په مستقیم ډول د ماډل دقت اغیزه کوي.
  • تعصب لرونکي یا غیر متوازن معلومات غیر عادلانه یا بې باوره ماډلونه رامینځته کوي.
  • په کافي اندازه لوی ډیټاسیټونه عمومي کول ښه کوي.
  • د روزنې معلوماتو لیک د ازموینې سیټونو ته د ارزونې سره مخ کوي.

څنګه کار کوي

  1. د وړاندوینې دنده او د ډیټاسیټ اړتیاوې تعریف کړئ.
  2. اړونده خام معلومات راټول کړئ.
  3. معلومات د سمو پایلو سره لیبل کړئ یا تشریح کړئ.
  4. په روزنه، اعتبار، او ازموینې سیټونو ویشل شوي.
  5. ماډل ته روزنه ورکړئ چې د روزنې معلوماتو پراساس وزنونه تنظیم کړي.

مثالونه (حقیقي نړۍ)

  • د COCO ډیټاسیټ: د کشف او قطع کولو لپاره تشریح شوي انځورونه.
  • عام کرول: د LLMs د روزنې دمخه د لوی پیمانه ویب متن ډیټاسیټ.
  • LibriSpeech: د ASR روزنې لپاره د وینا ډیټاسیټ.

حوالې / نور لوستل

موږ ته ووایاست چې موږ ستاسو د راتلونکي AI نوښت سره څنګه مرسته کولی شو.