د ډاټاسټ خلاص کړئ
د خلاصې سرچینې ډیټاسیټونه ومومئ کوم چې تاسو د ML ماډلونو روزنې ته ځي
د AI/ML موډلونو سره د پیل کولو لپاره د سرچینې ډیټا سیټونه خلاص کړئ
ستاسو د AI او ML ماډلونو محصول یوازې د هغه ډیټا په څیر ښه دی چې تاسو یې د روزنې لپاره کاروئ - نو هغه دقیقیت چې تاسو د ډیټا راټولولو لپاره پلي کوئ او د دې ډیټا نښه کول او پیژندل مهم دي!
نو که تاسو غواړئ یو نوی AI/ML نوښت پیل کړئ او اوس تاسو ژر تر ژره پوه شئ چې د لوړ کیفیت روزنې ډیټا موندل به ستاسو د پروژې یو له خورا ننګونکي اړخونو څخه وي ځکه چې د لوړ کیفیت ډیټاسیټونه هغه تیل دي چې AI/ ساتي. د ML انجن چلول. موږ د خلاص ډیټاسیټونو لیست راټول کړی چې ستاسو د راتلونکي AI/ML ماډلونو کارولو او روزنې لپاره وړیا دي.
| تخصص | د ډیټا ډول | د ډیټاسیټ نوم | صنعت / څانګه | تشریح/د کارونې قضیه | لینک |
|---|---|---|---|---|---|
| +NLP | متن | د ایمیزون بیاکتنې | پست سوداګرۍ | د احساس تحلیل | لینک |
| تفصیل | د تیرو 35 کلونو څخه د 18 ملیون بیاکتنو او درجه بندیو سیټ په ساده متن کې د کارونکي او محصول توضیحاتو سره. | ||||
| +NLP | متن | د ويکيپېډيا لینکونو ډاټا | جنرال | لینک | |
| تفصیل | له ۴ ملیون څخه زیاتې مقالې چې د ویکیپیډیا څخه ۱.۹ ملیارد کلمې لري. هره مقاله د اړونده ادارې لپاره هایپر لینکونه لري. | ||||
| +NLP | متن | د سټینډفورډ احساس ونې بانک | ساعتېري | د احساس تحلیل | لینک |
| تفصیل | د روټین ټوماټوز فلم بیاکتنې له ۱۰،۰۰۰ څخه زیاتو جملو لپاره د احساساتو تشریحاتو ډیټاسیټ. د جملې په کچه شتون لري - هره جمله د پین ټریبنک فارمیټ کې د پارس ونو د بائنار کولو له لارې په فرعي جملو کې تحلیل شوې ده. | ||||
| +NLP | متن | ټویټر د متحده ایالاتو هوایی ډګر احساس | هوايي شرکت | د احساس تحلیل | لینک |
| تفصیل | په ۲۰۱۵ کال کې د امریکا د هوايي شرکتونو په اړه ټویټونه په مثبتو، بې طرفه او منفي احساساتو ووېشل شول. | ||||
| +CV | د انځور | Imagenet | جنرال | لینک | |
| تفصیل | ډیټا سیټ د ۱۴ ملیون څخه زیاتو انځورونو سره په مختلفو فایل فارمیټونو کې شاوخوا ۲۱۰۰۰ ترکیبونو ته نقشه شوی. ترکیبونه هغه ترکیبونه دي چې اړونده ادارې د عکس په توګه شتون لري. ۱ ملیون انځورونه د تړلو بکسونه لري او له ۱ ملیون څخه ډیر انځورونه د SIFT ځانګړتیاوې لري. | ||||
| +CV | د انځور | د ګوګل خلاص انځورونه | جنرال | لینک | |
| تفصیل | د امیج نیټ سره ورته ډیټاسیټ چې ۶۰۰ کټګورۍ لري. په پراختیا، اعتبار او روزنې ویشونو کې شتون لري. په ځینو انځورونو کې د تړلو بکسونه او بصري اړیکې هم شاملې دي. | ||||
| +NLP | متن | د کارنیل فلم ډیالوګونه | ساعتېري | ډیالوګونه | لینک |
| تفصیل | د خیالي خبرو اترو ټولګه، د کرکټرونو او فلمونو میټاډاټا سره. هره قطار د دوو کسانو ترمنځ یوه ډیالوګ ده، د پوښتنې او ځواب په بڼه. | ||||
| تفصیل | د پوښتنو او ځوابونو یو ډیټاسیټ چې د یاهو انساونرز پورټل څخه د اپریل ۲۰۰۷ او اکتوبر ۲۰۰۷ ترمنځ پوښتنې او ځوابونه لري. | ||||
| +NLP | متن | ایم ایس مارکو | جنرال | د پوښتنې ځواب | لینک |
| تفصیل | د پوښتنې او ځواب ډیټاسیټ د Bing د ویب لټون لاګونو څخه د تشریحاتو سره. هره پوښتنه د یو کارونکي لخوا چمتو شوی ځواب لري، او همدارنګه د ویب برخې چې ځواب لري. | ||||
| +NLP | متن | د طبیعي پوښتنو ډیټاسیټ | جنرال | د پوښتنې ځواب | لینک |
| تفصیل | د ګوګل لخوا خپور شوی، دا ډیټاسیټ د ویکیپیډیا مقالو څخه د کاروونکو اصلي پوښتنې او ځوابونه لري. | ||||
| +NLP | متن | ډي بي پيډيا | جنرال | د پوهې ګراف | لینک |
| تفصیل | د ويکيپېډيا يو منظم رېنډرنگ، چې ادارې او اړيکې د پوهې ګراف په توګه استخراج شوي دي. | ||||
| +NLP | متن | یاګو | جنرال | د پوهې ګراف | لینک |
| تفصیل | د پوهې ګراف چې د ويکيپېډيا، ورډ نیټ، او جيو نومونو څخه ادارې او اړیکې لري. | ||||
| +NLP | متن | فري بيس | جنرال | د پوهې ګراف | لینک |
| تفصیل | د پوهې یوه ګڼه ګوڼه سرچینه چې د ادارو او اړیکو څخه جوړه ده، اوس د ګوګل د پوهې ګراف کې شامله شوې ده. | ||||
| +NLP | متن | آنټونوټس | جنرال | د سیمانټیک رول لیبل کول | لینک |
| تفصیل | د CoNLL شریکو دندو کې کارول شوي نحوي، سیمانټیک، او د خبرو اترو کچې تشریحاتو سره یو ټولګه. | ||||
| تفصیل | د انګلیسي ډیټاسیټ چې د نومول شویو ادارو لکه شخص، سازمان، او موقعیت لپاره تشریح شوی. | ||||
| +CV | د انځور | COCO | جنرال | د څيز کشف | لینک |
| تفصیل | په متن کې عام شیان: د شیانو کشف، قطع کولو، او کیپشن کولو لپاره په پراخه کچه تشریح شوی ډیټاسیټ. | ||||
| +CV | د انځور | د پاسکال VOC | جنرال | د څيز کشف | لینک |
| تفصیل | د شیانو کشف او قطع کولو ننګونو لپاره د بنچمارک ډیټاسیټ. | ||||
| +CV | د انځور | د ښار منظرې | خپلواکي موټر چلول | سیمانټیک قطع کول | لینک |
| تفصیل | د ښاري منظرې د پوهیدو لپاره ډیټاسیټ د 30 ټولګیو لپاره د پکسل کچې تشریحاتو سره. | ||||
| +CV | د انځور | MNIST | جنرال | د عدد طبقه بندي | لینک |
| تفصیل | د لاس لیکل شوي عددونو ډیټاسیټ د 60,000 روزنې او 10,000 ازموینې عکسونو سره د 28x28 پکسلونو سره. | ||||
| +CV | د انځور | فیشن-MNIST | پرچون | د انځور درجه بندي | لینک |
| تفصیل | د زالانډو د مقالې انځورونو ډیټاسیټ د MNIST په څیر په ورته بڼه کې، د بنچمارکینګ لپاره د ډراپ ان بدیل په توګه کارول کیږي. | ||||
| +NLP | Audio | LibriSpeech | جنرال | ASR | لینک |
| تفصیل | د انګلیسي ژبې د لوستلو یوه ټولګه چې د آډیو کتابونو څخه اخیستل شوې، د 1000 ساعتونو وینا او اړوند متنونو سره. | ||||
| +NLP | Audio | ټیډ لیوم | جنرال | ASR | لینک |
| تفصیل | د غږ پیژندنې څیړنې لپاره د TED خبرې اترې د آډیو او سمون شوي نقلونو سره. | ||||
| +NLP | Audio | ټیمټ | جنرال | د فونیم پیژندنه | لینک |
| تفصیل | د امریکایی انګلیسي ویونکو د غږیز لیکل شوي وینا، چې په پراخه کچه د فونیم پیژندنې دندو لپاره کارول کیږي. | ||||
| +NLP | Audio | ګډ غږ | جنرال | ASR | لینک |
| تفصیل | د لوستل شویو ویناوو یو څو ژبنیز ټولګه چې د نړۍ له ګوټ ګوټ څخه رضاکارانو مرسته کړې ده. | ||||
| +NLP | Audio | VoxCeleb | جنرال | د ویناوال پیژندنه | لینک |
| تفصیل | د یوټیوب ویډیوګانو څخه راټول شوي د سپیکرو د پیژندنې یوه لویه ډیټاسیټ. | ||||
| +NLP | متن | د ويکيپېډيا ډمپ | جنرال | د ژبې ماډلینګ | لینک |
| تفصیل | د ويکيپېډيا د مقالو بشپړ متن ډمپونه، په منظم ډول تازه کېږي، د ژبې ماډلونو د روزنې لپاره کارول کېږي. | ||||
| +NLP | متن | ګیګاورډ | خبرونه - HUASHIL | د ژبې ماډلینګ | لینک |
| تفصیل | د ګڼ شمېر خبري ادارو څخه د خبرونو د متن معلوماتو جامع آرشیف. | ||||
| +NLP | متن | د IMDB بیاکتنې | ساعتېري | د احساس تحلیل | لینک |
| تفصیل | د بائنری احساساتو طبقه بندي لپاره د فلم بیاکتنې لوی ډیټاسیټ. | ||||
| +CV | ویډیو | Kinetics-700 | جنرال | د عمل پیژندنه | لینک |
| تفصیل | د یوټیوب ویډیو کلیپونو یوه لویه پیمانه، لوړ کیفیت لرونکی ډیټاسیټ چې د انسان د عمل ۷۰۰ ټولګي پوښي. | ||||
| +CV | ویډیو | UCF101 | جنرال | د عمل پیژندنه | لینک |
| تفصیل | د حقیقي عمل ویډیوګانو یوه ډیټاسیټ، د 101 عمل کټګوریو سره. | ||||
| +CV | ویډیو | د HMDB51 معرفي کول | جنرال | د عمل پیژندنه | لینک |
| تفصیل | د انساني حرکتونو یو لوی ویډیو ډیټابیس چې ۵۱ د عمل کټګورۍ لري. | ||||
| تفصیل | د مخ عکسونو یو ډیټابیس چې د مخ د بې قیده پیژندنې مطالعې لپاره ډیزاین شوی. | ||||
| +CV | د انځور | کاسیا-ویبفیس | جنرال | د پیژندنې پیژندل | لینک |
| تفصیل | د مخ د ژورې پیژندنې ماډلونو د روزنې لپاره د ملیونونو مخ عکسونو سره یو ډیټاسیټ. | ||||
| +NLP | متن | سکواډ | جنرال | د پوهیدو لوستل | لینک |
| تفصیل | د سټینفورډ د پوښتنو ځوابونو ډیټا سیټ: هغه پوښتنې چې د ګڼې ګوڼې کارګرانو لخوا د ویکیپیډیا مقالو په یوه سیټ کې راپورته کیږي. | ||||
| تفصیل | د CNN د خبرونو پر بنسټ د پوښتنو او ځوابونو سره د ماشین د پوهیدو ډیټاسیټ. | ||||
| +NLP | متن | ملټي این ایل آی | جنرال | د طبیعي ژبې استنباط | لینک |
| تفصیل | د جملې-جوړې طبیعي ژبې استنباط لپاره په څو ژانرونو کې یو ډیټاسیټ. | ||||
| +NLP | متن | د SNLI | جنرال | د طبیعي ژبې استنباط | لینک |
| تفصیل | د سټینفورډ طبیعي ژبې انفرنس کورپس د جملو جوړو سره چې د انټیلیمینټ، تضاد، یا بې طرفه په توګه لیبل شوي دي. | ||||
| تفصیل | د ويکيپېډيا د تاييد شويو ښو او مشخصو مقالو له سيټ څخه د ۱۰۰ مليونو څخه د زياتو ټوکنونو ټولګه استخراج شوې ده. | ||||
| تفصیل | د موټرو د ۱۹۶ ټولګیو د ۱۶،۱۸۵ انځورونو ډیټاسیټ. | ||||
| +CV | د انځور | د اکسفورډ ګلونه ۱۰۲ | بوټني | د ښه دانه طبقه بندي | لینک |
| تفصیل | د ګلونو ۱۰۲ کټګورۍ چې معمولا په انګلستان کې پیښیږي. | ||||
| +CV | د انځور | CIFAR-10 | جنرال | د انځور درجه بندي | لینک |
| تفصیل | د لسو ټولګیو انځورونه: الوتکه، موټر، مرغۍ، پیشو، هوسۍ، سپی، چنګښه، اس، کښتۍ، او لارۍ. | ||||
| +CV | د انځور | CIFAR-100 | جنرال | د انځور درجه بندي | لینک |
| تفصیل | د CIFAR-10 سره ورته ډیټاسیټ، مګر د 100 ښه دانه لرونکو ټولګیو سره. | ||||
| +CV | د انځور | د VOC اشخاصو ترتیب | جنرال | د حالت اټکل | لینک |
| تفصیل | د PASCAL VOC یوه برخه چې د شخص د ترتیب تشریحاتو لکه سر، لاسونه او پښې تمرکز کوي. | ||||
| +CV | د انځور | د MPII انساني حالت | جنرال | د حالت اټکل | لینک |
| تفصیل | شاوخوا ۲۵۰۰۰ انځورونه چې له ۴۰۰۰۰ څخه زیاتو خلکو سره د بدن بندونه لري. | ||||
| تفصیل | د متن د کټګورۍ څیړنې لپاره د رویټرز نیوز وایر مقالو ټولګه. | ||||
| +NLP | متن | 20 خبري ګروپونه | جنرال | د متن طبقه بندي | لینک |
| تفصیل | د ۲۰،۰۰۰ خبري ګروپونو اسنادو ټولګه چې په ۲۰ مختلفو خبري ګروپونو ویشل شوې ده. | ||||