د لاس لیکلو ډیټاسیټونه

ستاسو د ML ماډلونو روزنې لپاره 22 غوره خلاصې سرچینې OCR او د لاس لیکلو ډیټا سیټونه

د آپټیکل کرکټر پیژندنې کارولو کې زیاتوالی په عمده ډول د اتوماتیک پیژندنې سیسټمونو تولید زیاتوالي ته منسوب کیدی شي. د پایلې په توګه، د OCR ټیکنالوژۍ نړیوال بازار ارزښت، ټاکل شوی 8.93 ميليارده $ په 2021 کې، اټکل کیږي چې د 15.4 او 2022 ترمنځ د 2030٪ CAGR وده وکړي.

مګر واقعیا د OCR ټیکنالوژي څه ده؟ او ولې دا د سوداګرۍ لپاره د لوبې بدلون کونکی دی چې د اغیزمن AI ماډلونه رامینځته کوي؟ راځئ چې معلومه کړو.

OCR (د نظری کرکټر پیژندنه) څه شی دی؟

OCR هغه ټیکنالوژي ده چې د اسنادو مختلف ډولونه لکه سکین شوي کاغذ اسناد، PDFs، یا د متن عکسونه د ترمیم وړ او د لټون وړ ډیټا بدلوي. دا کار کوي:

  • په انځور کې د متن جوړښت تحلیل
  • متن په کرښو او حروفونو ویشل
  • د دې بصري کرکټرونو بدلول د ماشین لوستلو وړ متن ته

عام استعمالونه پدې کې شامل دي:

  • سکین شوي اسناد د ترمیم وړ متن فایلونو ته بدلول
  • د چاپ شوي کتابونو ډیجیټل کول
  • د عکسونو څخه متن استخراج
  • د لاس لیکل شوي نسخې ډیجیټل متن ته بدلول
  • د جواز پلیټ پیژندنه

د Ocr روزنې ډاټا

د خلاصې سرچینې ډیټا سیټونو ګټې او ننګونې

سوداګرۍ باید د یو بل په وړاندې ګټې او ننګونې ودروي ترڅو پوه شي چې ایا دوی باید د دوی د ML غوښتنلیکونو لپاره وړیا کارولو ډیټا غوره کړي.

ګټې

  • معلوماتو ته د لاسرسي لپاره په اسانۍ سره شتون لري. د معلوماتو د شتون له امله، د غوښتنلیک د پراختیا لګښت د پام وړ کم شوی.
  • د غوښتنلیک لپاره د معلوماتو راټولولو وخت او هڅې د پام وړ کم شوي ځکه چې ډیټاسیټ په اسانۍ سره شتون لري.
  • دلته د ټولنې فورمونو یا د مرستې ګروپونو کثرت شتون لري چې د ډیټاسیټ زده کړې ، تطبیق او اصلاح کولو کې مرسته کوي.
  • د خلاصې سرچینې ډیټاسیټ یوه لویه ګټه دا ده چې دا په تخصیص باندې هیڅ محدودیت نلري.
  •   د خلاصې سرچینې ډیټا د نفوس یوې لویې برخې ته د لاسرسي وړ دي ، پرته له پیسو خنډونو تحلیل او نوښت ممکن کوي.

ننګونې

  • د پروژې لپاره مشخص معلومات ترلاسه کول ستونزمن دي. سربیره پردې، د معلوماتو د ورکیدو او د شته معلوماتو د ناسم استعمال احتمال شته.
  • د ملکیت معلوماتو ترلاسه کول وخت، هڅې او لګښت لري
  • پداسې حال کې چې دا ممکن د معلوماتو ترلاسه کول اسانه وي، د پوهې او تحلیل لګښت ممکن د ابتدايي ګټې څخه ډیر وي.
  • نور پراختیا کونکي هم د غوښتنلیکونو پراختیا لپاره ورته ډیټا کاروي.
  • دا ډیټاسیټونه د امنیت سرغړونو ، محرمیت او رضایت لپاره خورا زیان منونکي دي.

د ماشین زده کړې لپاره 22 غوره لاسي لیک او OCR ډیټا سیټونه

د خلاصې سرچینې ocr ډیټاسیټونه

ډیری خلاصې سرچینې ډیټاسیټونه د متن پیژندنې غوښتنلیک پراختیا لپاره شتون لري. ځینې ​​​​غوره 22 دي

  1. د NIST ډیټابیس

    NIST یا د ساینس ملي انسټیټیوټ د 3600 کرکټر عکسونو سره د 810,000 څخه ډیر د لاسي لیکلو نمونو وړیا کارولو ټولګه وړاندې کوي.

  2. د MNIST ډیټابیس

    د NSIT د ځانګړي ډیټابیس 1 او 3 څخه اخیستل شوی، د MNIST ډیټابیس د ټریننګ سیټ لپاره د 60,000 لاسي لیکل شوي شمیرو او د ازموینې سیټ لپاره 10,000 مثالونو راټولول دي. دا د خلاصې سرچینې ډیټابیس د روزنې ماډلونو سره مرسته کوي چې نمونې وپیژني پداسې حال کې چې دمخه پروسس کولو کې لږ وخت مصرفوي.

  3. د متن کشف

    د خلاصې سرچینې ډیټابیس، د متن کشف ډیټابیس شاوخوا 500 داخلي او بهر د لاسلیک تختو، دروازو تختو، احتیاط پلیټونو، او نور ډیر څه لري.

  4. سټینفورډ OCR

    د سټینفورډ لخوا خپور شوی، دا د کارولو وړ وړیا ډیټاسیټ د MIT د ژبو سیسټمونو ګروپ لخوا د لاس لیکل شوي کلمو ټولګه ده.

  5. د سړک لید متن

    د ګوګل د سړک لید عکسونو څخه راټول شوی ، دا ډیټا سیټ د متن کشف عکسونه لري په عمده ډول د بورډونو او د سړک په کچه نښو.

  6. لاسوند توکبنسټ

    د اسنادو ډیټابیس د 941 لاسي لیکل شوي اسنادو ټولګه ده، په شمول د میزونو، فورمولونو، انځورونو، ډیاګرامونو، لیستونو او نور په شمول، د 189 لیکوالانو څخه.

  7. د ریاضیاتو څرګندونه

    د ریاضیاتو څرګندونه یو ډیټابیس دی چې 101 ریاضياتي سمبولونه او 10,000 څرګندونې لري.

  8. د سړک لید کور شمیرې

    د ګوګل سټریټ ویو څخه راټول شوي ، دا د سړک لید کور شمیرې یو ډیټابیس دی چې د 73257 سړک کور شمیرې لري.

  9. د طبیعي چاپیریال OCR

    د طبیعي چاپیریال OCR، په ټوله نړۍ کې د نږدې 660 انځورونو او 5238 متن تشریحاتو ډیټاسیټ دی.

  10. د ریاضیاتو څرګندونه

    له 10,000 څخه ډیر څرګندونې د 101+ ریاضی سمبولونو سره.

  11. په لاس لیکل شوي چینايي کرکټرونه

    د 909,818 لاسي لیکل شوي چینايي کرکټر عکسونو ډیټاسیټ ، د شاوخوا 10 خبرونو مقالو سره معادل.

  12. عربي چاپ شوی متن

    د 113,284 عربي فونټونو په کارولو سره د 10 کلمو لرونکی لغت.

  13. په لاس لیکل شوی انګلیسي متن

    په سپینه تخته کې په لاس لیکل شوی انګلیسي متن له 1700 څخه ډیر ننوتلو سره.

  14. د 3000 چاپیریال انځورونه

    د مختلف چاپیریال څخه 3000 عکسونه ، پشمول د مختلف ر lightingا لاندې بیروني او داخلي صحنې.

  15. د Chars74K ډاټا

    74,000 انځورونه د انګلیسي او کناډا عددونو.

  16. IAM (IAM لاس لیک)

    د IAM ډیټابیس 13,353 د لاس لیکل شوي متن عکسونه لري چې د 657 لیکوالانو لخوا د برتانیا انګلیسي لینکسټر-اوسلو/برګن کارپس څخه دي.

  17. FUNSD (په شور کې سکین شوي اسنادو کې د فورمې تفاهم)

    FUNSD کې 199 تشریح شوي ، سکین شوي فارمونه د متنوع او شور وړ لیدونو سره شامل دي ، د فارم پوهیدو لپاره ننګونکي.

  18. د OCR متن

    د TextOCR بنچمارک د متن پیژندنه په طبیعي عکسونو کې په خپل سري شکل شوي صحنې متن کې.

  19. ټویټر 100k

    ټویټر100k یو لوی ډیټا سیټ دی چې د ضعیف نظارت شوي کراس میډیا ترلاسه کولو لپاره دی.

  20. SSIG-SegPlate - د جواز پلیټ کریکټ سیګمینټیشن (LPCS)

    دا ډیټا سیټ د 101 ورځني موټرو عکسونو سره د جواز پلیټ کریکټ سیګمینټیشن (LPCS) ارزوي.

  21. 105,941 انځورونه طبیعي صحنې د 12 ژبو OCR ډیټا

    په ډیټا کې 12 ژبې (6 آسیایي، 6 اروپایي) او مختلف طبیعي منظرې او زاویې شاملې دي. دا د لاین کچې پابندۍ بکسونه او د متن لیږدونه وړاندې کوي. دا د څو ژبو OCR کارونو لپاره ګټور دی.

  22. د هند د نښان بورډ انځور ډیټاسیټ

    ډیټاسیټ د طبقه بندي او کشف لپاره د هندي ترافیک نښه عکسونه لري چې د ورځې ، ماښام او شپې په مختلف موسم شرایطو کې اخیستل شوي.

دا د متن کشف غوښتنلیکونو لپاره د ML ماډلونو روزنې لپاره ځینې غوره خلاصې سرچینې ډیټا سیټونه وو. د هغه انتخاب کول چې ستاسو د سوداګرۍ او غوښتنلیک اړتیاو سره سمون لري وخت او هڅې کولی شي. په هرصورت، تاسو باید د دې ډیټاسیټونو سره تجربه وکړئ مخکې له دې چې مناسبه پریکړه وکړئ.

[هم ولولئ: د OCR انفوګرافیک - تعریف، ګټې، ننګونې، او د کارولو قضیې]

د دې لپاره چې تاسو سره د باور وړ او مؤثره متن کشف غوښتنلیک په لور پرمختګ کې مرسته وکړئ شیپ - د لوړ پوړ ټیکنالوژۍ حل چمتو کونکی. موږ د مختلفو پیرودونکو پروژو لپاره د دودیز، مطلوب، او اغیزمن OCR روزنې ډیټاسیټونو رامینځته کولو لپاره زموږ تخنیکي تجربه کاروو. زموږ د وړتیاوو په بشپړه توګه درک کولو لپاره، نن ورځ موږ سره اړیکه ونیسئ.

له دې مقالې څخه خوند واخیست؟ د نورو تازه معلوماتو لپاره په لینکډین کې شایپ تعقیب کړئ.

ټولنیز شریکول