د ML لپاره د NLP ډیټاسیټ

ستاسو د ماشین زده کړې ماډلونو ته د لوړ چارج کولو لپاره غوره NLP ډیټا سیټ

د NLP ډیټاسیټونه د ډیری طبیعي ژبې پروسس کولو پروژو ملا تیر دي، چې د متن طبقه بندي، د احساساتو تحلیل، او د پوښتنو ځوابولو په څیر د پراخو دندو لپاره انعطاف وړاندې کوي. د مثال په توګه، د بلاګ لیکوالۍ کارپس د نږدې 681,000 بلاګرانو څخه 20,000 څخه ډیر بلاګ پوسټونه لري، چې دا د لیکلو سټایلونو، لیکوال پیژندنې، او نورو مطالعې لپاره یوه بډایه سرچینه جوړوي.

د هغو کسانو لپاره چې په اکاډمیک څیړنه کې لیوالتیا لري، د arXiv څیړنیزو مقالو ډیټاسیټ په ډیری څانګو کې د ساینسي مقالو پراخه ټولګه ته لاسرسی چمتو کوي، د NLP پرمختللي دندو لکه د حوالې تحلیل او د اسنادو طبقه بندي ملاتړ کوي. د فدرالي تدارکاتو ډیټا مرکز ډیټاسیټ یو بل ارزښتناک سرچینه ده، چې د فدرالي قراردادونو په اړه مفصل معلومات وړاندې کوي — د هغو پروژو لپاره مثالی چې د حکومت معلوماتو او د ادارې پیژندنه پکې شامله ده.

دا د nlp ډیټاسیټونه په پراخه کچه د ماشین زده کړې ماډلونو د روزنې او ارزونې لپاره کارول کیږي، چې د څیړونکو او پراختیا کونکو سره د nlp په مختلفو دندو کې د دوی سیسټمونو فعالیت ښه کولو کې مرسته کوي. که تاسو د بلاګ پوسټونو، څیړنیزو مقالو، یا دولتي معلوماتو سره کار کوئ، دا ډیټاسیټونه د قوي او څو اړخیز NLP غوښتنلیکونو لپاره بنسټ چمتو کوي.

NLP څه شی دی؟

NLP (د طبیعي ژبې پروسس کول) د کمپیوټر سره د انسان په ژبه پوهیدو کې مرسته کوي. دا د کمپیوټرونو د لوستلو، پوهیدو، او متن او وینا ته ځواب ویلو په څیر دی لکه څنګه چې انسانان کوي.

NLP څه کولی شي؟

  • ګډوډ متن په منظم ډیټا بدل کړئ
  • پوه شئ چې نظرونه مثبت دي که منفي
  • د ژبو ترمنځ ژباړه
  • د اوږد متنونو لنډیز جوړ کړئ
  • او نور زیات!
  • د NLP سره پیل کول:

د ښه NLP سیسټمونو رامینځته کولو لپاره ، تاسو د دوی روزنې لپاره ډیری مثالونو ته اړتیا لرئ - لکه څنګه چې انسانان د ډیر تمرین سره ښه زده کوي. ښه خبر دا دی چې ډیری وړیا سرچینې شتون لري چیرې چې تاسو دا مثالونه موندلی شئ: غېږه, کاګل او ګیټ هب. د دې پلیټ فارمونو څخه ډیټاسیټونه په اسانۍ سره لاسرسی کیدی شي، کوم چې د NLP پروژې پراختیا ګړندۍ کوي.

د NLP بازار اندازه او وده:

تر 2023 پورې ، د طبیعي ژبې پروسس کولو (NLP) بازار شاوخوا 26 ملیارد ډالرو ارزښت درلود. تمه کیږي چې دا به د پام وړ وده وکړي، د 30 څخه تر 2023 پورې شاوخوا 2030٪ د جامع کلنۍ ودې نرخ (CAGR) سره. دا وده د روغتیا پاملرنې، مالیې، او پیرودونکو خدماتو په څیر صنعتونو کې د NLP غوښتنلیکونو غوښتنې زیاتوالي له امله پرمخ وړل کیږي.

د ښه NLP ډیټاسیټ غوره کولو څرنګوالی، لاندې عوامل په پام کې ونیسئ:

  • اړوند: ډاډ ترلاسه کړئ چې ډیټاسیټ ستاسو د ځانګړي دندې یا ډومین سره سمون لري.
  • اندازه: لوی ډیټاسیټونه عموما د ماډل فعالیت ښه کوي، مګر د کیفیت سره اندازه توازن کوي.
  • تنوع: د موډل د پیاوړتیا لپاره د مختلفو ژبو سټایلونو او شرایطو سره ډیټاسیټونه وګورئ.
  • د کیفیت د: د ښه لیبل شوي او دقیقو معلوماتو لپاره وګورئ ترڅو د غلطو معرفي کولو څخه مخنیوی وشي.
  • د لار موندنې: ډاډ ترلاسه کړئ چې ډیټاسیټ د کارولو لپاره شتون لري او د جواز ورکولو کوم محدودیتونه په پام کې ونیسئ.
  • مخکې پروسې: معلومه کړئ چې ایا ډیټاسیټ د پام وړ پاکولو یا دمخه پروسس کولو ته اړتیا لري.
  • د ټولنې ملاتړ: مشهور ډیټاسیټونه اکثرا ډیرې سرچینې او د ټولنې ملاتړ لري، کوم چې ګټور وي.

د دې فکتورونو په ارزولو سره، تاسو کولی شئ یو داسې ډیټاسیټ غوره کړئ چې ستاسو د پروژې اړتیاو سره سم وي. د NLP پروژو کې د غوره پایلو ترلاسه کولو لپاره د سم ډیټاسیټ غوره کول اړین دي، ځکه چې دوی مستقیم د ماډل فعالیت او د روزنې موثریت اغیزه کوي.

غوره 33 باید د NLP لپاره خلاص ډیټاسیټونه وګورئ

جنرال

  • د UCI سپیمبیس (لینک)

    سپیمبیس، چې په Hewlett-Packard Labs کې جوړ شوی، د کاروونکو لخوا د سپیم بریښنالیکونو ټولګه لري، چې موخه یې د شخصي سپیم فلټر جوړول دي. دا د بریښنالیک پیغامونو څخه د 4600 څخه ډیر لیدونه لري، چې له هغې څخه نږدې 1820 سپیم دي.

  • د اینرون ډیټاسیټ (لینک)

    د اینرون ډیټا سیټ د بې نومه 'اصلي' بریښنالیکونو پراخه ټولګه لري چې خلکو ته د دوی د ماشین زده کړې ماډلونو د روزنې لپاره شتون لري. دا د 150 څخه زیاتو کاروونکو څخه د نیم ملیون څخه ډیر بریښنالیکونه لري، په عمده توګه د اینرون لوړ پوړي مدیریت. دا ډیټا سیټ په جوړښتي او غیر جوړښتي بڼو کې د کارولو لپاره شتون لري. د غیر جوړښتي معلوماتو د ښه کولو لپاره، تاسو باید د معلوماتو پروسس کولو تخنیکونه پلي کړئ.

  • د وړاندیز کونکي سیسټم ډیټاسیټ (لینک)

    د وړاندیز کونکي سیسټم ډیټاسیټ د مختلف ډیټاسیټونو لوی ټولګه ده چې مختلف ځانګړتیاوې لري لکه،

    • د محصول بیاکتنه
    • د ستوري درجه بندي
    • د فټنس تعقیب
    • د سندرو ډاټا
    • ټولنیزې شبکې
    • د مهال ویش
    • د کارونکي / توکي تعامل
    • د GPS ډاټا
  • د Penn Treebank (لینک)

    دا کارپس، د وال سټریټ ژورنال څخه، د ترتیب لیبل کولو ماډلونو ازموینې لپاره مشهور دی.

  • NLTK (لینک)

    دا پایتون کتابتون د NLP لپاره له ۱۰۰ څخه زیاتو کارپورا او لغتي سرچینو ته لاسرسی چمتو کوي. پدې کې د NLTK کتاب هم شامل دی، چې د کتابتون کارولو لپاره روزنیز کورس دی. NLTK د ورډ نیټ ته لاسرسی لري، چې د انګلیسي ژبې یو لوی لغتي ډیټابیس دی، چیرې چې کلمې لکه اسمونه، فعلونه، صفتونه او فعلونه د شریکو معنیو پراساس په ترکیبونو کې ګروپ شوي دي. NLTK د NLP څیړنې لپاره د کارپورا او لغتي سرچینو تشریح شوی لیست هم چمتو کوي.

  • نړیوال انحصار (لینک)

    UD د ګرامر تشریح کولو لپاره دوامداره لار وړاندې کوي، په 100 ژبو کې سرچینې، 200 ونې بانکونه، او د ټولنې له 300 څخه زیاتو غړو ملاتړ.

د احساساتو تحلیل ډیټاسیټونه

  • د فلمونو او مالیاتو لپاره قاموس (لینک)

    د احساس تحلیل
    د فلمونو او مالي ډیټاسیټ لپاره قاموس د مالي ډکولو او فلم بیاکتنو کې د مثبت یا منفي قطبیت لپاره د ډومین ځانګړي قاموس چمتو کوي. دا قاموسونه د IMDb او US Form-8 ډکولو څخه اخیستل شوي.

  • احساس ۱۴۰ (لینک)

    احساس 140 له 160,000 څخه ډیر ټویټونه لري د مختلف احساساتو سره په 6 مختلف برخو کې طبقه بندي شوي: د ټویټ نیټه ، قطبي ، متن ، د کارونکي نوم ، ID ، او پوښتنې. دا ډیټاسیټ تاسو ته دا امکان ورکوي چې د ټویټر فعالیت پراساس د برانډ ، محصول یا حتی یوې موضوع احساسات ومومئ. څرنګه چې دا ډیټاسیټ په اوتومات ډول رامینځته شوی ، د نورو انسانانو لخوا تشریح شوي ټویټونو برعکس ، دا د مثبت احساساتو او منفي احساساتو سره ټویټونه د نامناسب په توګه طبقه بندي کوي.

  • د ملټي ډومین احساس ډیټاسیټ (لینک)

    دا ملټي ډومین احساسات ډیټاسیټ د مختلف محصولاتو لپاره د ایمیزون بیاکتنو ذخیره ده. د محصول ځینې کټګورۍ لکه کتابونه په زرګونو بیاکتنې لري، پداسې حال کې چې نور یوازې څو سوه بیاکتنې لري. سربیره پردې ، د ستوري درجه بندي سره بیاکتنې په بائنری لیبلونو بدل کیدی شي.

  • د سټینډفورډ سینټیمینټ TreeBank (لینک)

    د Rotten Tomatoes څخه دا NLP ډیټاسیټ اوږده جملې او نور تفصیلي متن مثالونه لري.

  • د بلاګ لیکوالۍ کارپس (لینک)

    دا ټولګه د نږدې 1.4 ملیون کلمو سره د بلاګ پوسټونه لري، هر بلاګ جلا ډیټاسیټ دی.

  • د OpinRank ډیټاسیټ (لینک)

    د اډمونډز او TripAdvisor څخه 300,000 بیاکتنې، د موټر ماډل یا د سفر ځای او هوټل لخوا تنظیم شوي.

د متن ډیټاسیټ

  • د Wiki QA کارپس (لینک)

    د خلاص ډومین پوښتنې او ځواب څیړنې کې د مرستې لپاره رامینځته شوی ، د WiKi QA کارپس یو له خورا پراخه عامه ډیټاسیټونو څخه دی. د Bing د لټون انجن پوښتنو لاګونو څخه ترتیب شوی، دا د پوښتنو او ځوابونو جوړه سره راځي. دا له 3000 څخه ډیر پوښتنې او 1500 لیبل شوي ځوابونه لري.

  • د حقوقي قضیو راپورونو ډیټاسیټ (لینک)

    د حقوقي قضیې راپورونو ډیټاسیټ د 4000 حقوقي قضیو ټولګه لري او د اتوماتیک متن لنډیز کولو او حوالې تحلیل لپاره د روزنې لپاره کارول کیدی شي. هر سند، کیچ فریزونه، د حوالې ټولګي، د حوالې کیچ فریزونه، او نور ډیر څه کارول کیږي.

  • باپرډی (لینک)

    د خطر ډیټاسیټ د 200,000 څخه زیاتو پوښتنو ټولګه ده چې د مشهور کوئز تلویزیون خپرونه کې ښودل شوي چې د Reddit کارونکي لخوا راټول شوي. د هر ډیټا نقطه د هغې د خپریدو نیټې، د قسط شمیره، ارزښت، پړاو، او پوښتنې/ځواب لخوا طبقه بندي کیږي.

  • 20 خبري ګروپونه (لینک)

    د 20,000 اسنادو ټولګه کې 20 خبري ګروپونه او مضامین شامل دي، د مذهب څخه تر مشهور سپورت پورې د موضوعاتو توضیحات.

  • د رویټرز خبري ډیټاسیټ (لینک)

    لومړی ځل په 1987 کې ښکاره شو، دا ډیټاسیټ لیبل شوی، لیست شوی، او د ماشین زده کړې موخو لپاره تالیف شوی.

  • ArXiv (لینک)

    دا د پام وړ 270 GB ډیټا سیټ کې د ټولو آر ایکسیو څیړنیزو مقالو بشپړ متن شامل دی.

  • د اروپا د پارلمان اجراات موازي کارپس (لینک)

    د پارلمان د غونډو څخه د جملې جوړه د 21 اروپایی ژبو څخه ننوتل شامل دي، چې د ماشین زده کړې کارپورا لپاره ځینې لږ عام ژبې ځانګړتیاوې لري.

  • د ملیارد کلمې بنچمارک (لینک)

    د WMT 2011 News Crawl څخه اخیستل شوی، د ژبې ماډلینګ ډیټاسیټ نږدې یو ملیارد کلمې لري چې د نوي ژبې ماډلینګ تخنیکونو ازموینې لپاره.

د غږیزو ویناوو ډیټاسیټونه

  • د ویکیپیډیا کارپورا خبرې شوې (لینک)

    آډیو وینا دا ډیټاسیټ د هرچا لپاره مناسب دی چې د انګلیسي ژبې هاخوا ته ځي. دا ډیټاسیټ د هغو مقالو ټولګه لري چې په هالنډي او الماني او انګلیسي ژبو خبرې کیږي. دا د موضوعاتو متنوع لړۍ لري او د سپیکر سیټونه په سلګونو ساعتونو کې ځي.

  • 2000 HUB5 انګلیسي (لینک)

    د 2000 HUB5 انګلیسي ډیټاسیټ په انګلیسي ژبه کې د 40 تلیفوني خبرو اترو لیږدونه لري. معلومات د سټنډرډونو او ټیکنالوژۍ ملي انسټیټیوټ لخوا چمتو شوي، او اصلي تمرکز یې د خبرو اترو پیژندلو او د وینا متن ته بدلول دي.

  • LibriSpeech (لینک)

    د LibriSpeech ډیټاسیټ د شاوخوا 1000 ساعتونو انګلیسي وینا مجموعه ده چې اخیستل شوي او په سمه توګه د موضوعاتو له مخې د آډیو کتابونو څخه فصلونو ته ویشل شوي، دا د طبیعي ژبې پروسس کولو لپاره یو مناسب وسیله جوړوي.

  • د وړیا خبرې کولو ډیجیټ ډیټاسیټ (لینک)

    پدې NLP ډیټاسیټ کې په انګلیسي کې د ویل شوي شمیرو له 1,500 څخه ډیر ریکارډونه شامل دي.

  • د M-AI لابراتوار سپیچ ډیټاسیټ (لینک)

    ډیټاسیټ نږدې 1,000 ساعته آډیو د نقلونو سره وړاندیز کوي ، چې ډیری ژبې پکې شاملې دي او د نارینه ، ښځینه او مخلوط غږونو لخوا طبقه بندي شوي.

  • د شور غږ ډیټابیس (لینک)

    دا ډیټاسیټ موازي شور او پاک بیان ریکارډونه وړاندې کوي، د وینا د لوړولو سافټویر پراختیا لپاره هدف لري مګر په ننګونکي شرایطو کې د وینا روزنې لپاره هم ګټور دي.

د بیاکتنې ډیټا سیټونه

  • Yelp بیاکتنې (لینک)

    د Yelp ډیټاسیټ د 8.5 پلس سوداګرۍ، د دوی بیاکتنې، او د کاروونکو معلوماتو شاوخوا 160,000 ملیون بیاکتنې پراخه ټولګه لري. بیاکتنې د احساساتو تحلیل کې ستاسو ماډلونو روزلو لپاره کارول کیدی شي. سربیره پردې، دا ډیټاسیټ له 200,000 څخه ډیر عکسونه هم لري چې اته لوی ښاریز ځایونه پوښي.

  • د IMDB بیاکتنې (لینک)

    د IMDB بیاکتنې د خورا مشهور ډیټاسیټونو څخه دي چې د 50 زرو څخه ډیرو فلمونو لپاره د کاسټ معلومات ، درجه بندي ، توضیحات او ژانر لري. دا ډیټاسیټ ستاسو د ماشین زده کړې ماډلونو ازموینې او روزنې لپاره کارول کیدی شي.

  • د ایمیزون بیاکتنې او درجه بندي ډیټاسیټ (لینک)

    د ایمیزون بیاکتنه او درجه بندي ډیټاسیټ د 1996 څخه تر 2014 پورې د ایمیزون څخه راټول شوي د میټاډاټا او مختلف محصولاتو بیاکتنې ارزښتناکه ټولګه لري - شاوخوا 142.8 ملیون ریکارډونه. په میټاډاټا کې قیمت، د محصول توضیحات، برانډ، کټګورۍ، او نور شامل دي، پداسې حال کې چې بیاکتنې د متن کیفیت، د متن ګټورتیا، درجه بندي، او نور ډیر څه لري.

د پوښتنو او ځوابونو ډیټاسیټونه

  • د سټینفورډ پوښتنې او ځواب ډیټاسیټ (SQuAD) (لینک)

    دا د لوستلو درک کولو ډیټاسیټ 100,000 ځواب ورکوونکي پوښتنې او 50,000 بې ځوابه پوښتنې لري، چې ټول د ویکیپیډیا د کارمندانو لخوا رامینځته شوي.

  • طبیعي پوښتنې (لینک)

    دا ټریننګ سیټ له 300,000 څخه ډیر د روزنې مثالونه، 7,800 پراختیایی مثالونه، او 7,800 ازموینې مثالونه لري، هر یو د ګوګل پوښتنې او د ویکیپیډیا سره سمون لري.

  • TriviaQA (لینک)

    دا ننګونکي پوښتنې سیټ 950,000 QA جوړې لري، په شمول د انسان لخوا تایید شوي او ماشین تولید شوي فرعي سیټونه.

  • CLEVR (تشکیل ژبه او ابتدايي بصری استدلال) (لینک)

    دا بصری پوښتنې ځواب ورکوونکی ډیټاسیټ د 3D وړاندې شوي توکي او په زرګونو پوښتنې د بصري صحنې په اړه توضیحاتو سره وړاندې کوي.

نو، کوم ډیټاسیټ تاسو د خپل ماشین زده کړې ماډل روزلو لپاره غوره کړی؟

لکه څنګه چې موږ ځو، موږ به تاسو ته د الف سره پریږدو pro-tip.

ډاډ ترلاسه کړئ چې د خپلو اړتیاو لپاره د NLP ډیټاسیټ غوره کولو دمخه د README فایل له لارې په بشپړ ډول لاړشئ. ډیټاسیټ به ټول اړین معلومات ولري چې تاسو ورته اړتیا لرئ، لکه د ډیټاسیټ مینځپانګه، مختلف پیرامیټونه چې په هغې کې ډاټا طبقه بندي شوې، او د ډیټاسیټ احتمالي کارولو قضیې.

پرته له دې چې تاسو جوړ کړئ موډلونه، زموږ د ماشینونو سره زموږ د ژوند سره نږدې او داخلي توګه د یوځای کولو په زړه پورې امکان شتون لري. د NLP سره، د سوداګرۍ امکانات، فلمونه، د وینا پیژندنه، مالیه، او نور څو چنده زیات شوي.

ټولنیز شریکول