د قضیې مطالعه: د وینا اتوماتیک پیژندنه

له 8k څخه ډیر آډیو ساعتونه راټول شوي، 800 ساعته د څو ژبو غږ ټیکنالوژۍ لپاره لیکل شوي

د خبرو اترو AI

پېژندنه

هند یو داسې پلیټ فارم ته اړتیا لري چې په هندي ژبو کې ډیجیټل خدمات چمتو کولو لپاره څو ژبني ډیټاسیټونو او د AI پراساس د ژبې ټیکنالوژۍ حلونو رامینځته کولو باندې تمرکز وکړي. د دې نوښت پیل کولو لپاره، پیرودونکي د شیپ سره ملګرتیا وکړه ترڅو د څو ژبو وینا ماډلونو جوړولو لپاره هندي ژبه راټول او لیږد کړي.

حجم

د راټول شوي معلوماتو ساعتونه
10
د تشریح شویو پاڼو شمیر
10 +
د پروژې موده
< 1 میاشتې

ننګونې

د هندي ژبو لپاره د دوی د سپیچ ټیکنالوژۍ وینا سړک نقشه کې د پیرودونکي سره د مرستې لپاره، ټیم اړتیا درلوده چې د AI ماډل جوړولو لپاره د روزنې ډیټا لوی مقدار ترلاسه کړي، برخې کړي او لیږد کړي. د پیرودونکي مهمې اړتیاوې دا وې:

د ډاټا ټولګه

  • د هندوستان له لیرې پرتو ځایونو څخه د 8000 ساعتونو روزنې ډیټا ترلاسه کړئ
  • عرضه کونکی د 20-70 کلونو عمر ګروپونو څخه د غیر معمولي وینا راټولولو لپاره
  • د عمر، جنسیت، تعلیم او ژبو له مخې د ویناوالو متنوع ترکیب ډاډمن کړئ
  • هر آډیو ثبت کول باید لږترلږه 16kHz وي د 16 بټونو / نمونې سره.
د ډاټا ټولګه

د معلوماتو لیږد

د حروفو او ځانګړو سمبولونو، املا او ګرامر، کیپیټل کولو، لنډیزونو، تړونونو، انفرادي خبرې کولو حروفونو، شمیرو، جزاګانو، مخففاتو او ابتکاراتو، ګډوډ وینا، د نه پوهیدو وړ وینا، غیر هدفي ژبې، ژبې

د معلوماتو لیږد

د کیفیت معاینه او فیډبیک

ټول ریکارډونه د کیفیت ارزونې او اعتبار څخه تیریږي، یوازې د تایید شوي وینا ریکارډونه باید وسپارل شي

د حل

د خبرو اترو AI په اړه زموږ د ژورې پوهې سره، موږ د پیرودونکي سره د آډیو ډیټا راټولولو کې مرسته وکړه، د متخصص راټولونکو، ژبپوهانو او تشریح کونکو ټیم سره د هند له لیرې پرتو سیمو څخه د آډیو ډیټا لوی کارپس رامینځته کولو لپاره.

د شیپ لپاره د کار ساحه شامله وه مګر د آډیو روزنې ډیټا لوی مقدار ترلاسه کولو پورې محدود نه و ، د ډیټا لیږد کول او د اړونده JSON فایلونو وړاندې کول چې میټاډاټا لري [د دواړو وینا کونکو او لیږدونکو لپاره. د هر سپیکر لپاره، میټاډاټا کې د سپیکر نامعلوم ID، د وسیلې توضیحات، د ډیموګرافیک معلومات لکه جندر، عمر، او تعلیم، د دوی د پنکوډ، ټولنیز-اقتصادي حالت، ژبې خبرې کول، او د دوی د ژوند د مودې ریکارډ شامل دي. د هر لیږدونکي لپاره، ډاټا د نامعلوم لیږدونکي ID، ډیموګرافیک توضیحات د ویناوالو سره ورته دي، د دوی د لیږد تجربه موده، او د هغو ژبو بشپړ ماتول چې دوی یې لوستل، لیکل او خبرې کولی شي.

شیپ راټول شو 8000 د آډیو ډیټا ساعتونه / په پیمانه او د 800 ساعتونو په کچه ناڅاپي وینا لیکل شوي پداسې حال کې چې د پیچلو پروژو لپاره د وینا ټیکنالوژۍ روزنې لپاره اړین کیفیت مطلوب کچې ساتل. د هر ګډونوال څخه د واضح رضایت فورمه اخیستل شوې وه. راټول شوي / ناڅاپي وینا د پوهنتون لخوا چمتو شوي عکسونو پراساس وه. د 3500 انځورونه 1000 عام دي او 2500 د ولسوالۍ ځانګړي کلتور، فستیوالونو او نورو پورې اړه لري. انځورونه مختلف ډومینونه لکه د اورګاډي سټیشنونه، بازارونه، هوا او نور انځوروي.

د ډاټا ټولګه

د بهرنیو چارو ولسوالۍ آډیو ساعتونه نقل (ساعتونه)
بهار ساران، ختیځ چمپارن، ګوپال ګنج، سیتامري، سمستی پور، دربهنگا، مدهیپوره، بھاگلپور، ګیا، کشن ګنج، ویشالي، لکیسرای، سهارسا، سوپول، ارریا، بیګوسرای، جهان آباد، پورنیا، مظفرپور، جموئي 2000 200
उत्तर प्रदेश دیوریا، وارانسی، ګورخپور، غازی پور، مظفر نگر، ایتا، همیرپور، جیوتیبا فلی نگر، بوداون، جالون 1000 100
راجستان ناګور، چورو 200 20
اتخشان تېري ګروال، اترکاشي 200 20
چھټسګھ بلاسپور، رایګر، کبیردام، سرګوجا، کوربا، جاشپور، راجنندګاون، بلرامپور، بستار، سکما 1000 100
لویدیځ بنګله دیش پشیم میډینی پور، مالدا، جلپایګوری، پورولیا، کلکته، جارګرام، شمالي 24 پرګناس، دکشین دیناجپور 800 80
جهانکشنډ صاحب ګنج، جمتاره 200 20
آندرا پردیش ګونټور، چتور، ویزاکاپټنم، کرشنا، انتاپور، سریکاکولم 600 60
تلنګانه کریم نگر، نلګونډا 200 20
Goa شمالي او جنوبي ګوا 100 10
کرناتکا دکشین کناډا، ګلبرګا، دھرواد، بیلاري، میسور، شیموګا، بیجاپور، بیلګام، رایچور، چامراج نگر 1000 100
مهاراشرا سندودرګ، دول، ناګپور، پونا، اورنګ آباد، چندرپور، سولاپور 700 70
ټول 8000 800

عمومي لارښوونې

بڼه

  • آډیو په 16 kHz کې، 16 بټونه / نمونه.
  • یو واحد چینل.
  • خام آډیو پرته له ټرانسکوډ کولو څخه.

ډول

  • ناڅاپه وینا.
  • د پوهنتون لخوا چمتو شوي عکسونو پراساس جملې. د 3500 انځورونو څخه، 1000 عمومي دي او 2500 د ولسوالۍ ځانګړي کلتور، جشنونو او نورو پورې اړه لري. انځورونه مختلف ډومینونه لکه د اورګاډي سټیشنونه، بازارونه، هوا او نور انځوروي.

د ثبت کولو پس منظر

  • په خاموشه، له گونج څخه پاک چاپیریال کې ثبت شوی.
  • د ثبت کولو پرمهال د سمارټ فون ګډوډي (کمپن یا خبرتیا) شتون نلري.
  • هیڅ تحریفونه لکه کلپ کول یا لرې ساحې اغیزې.
  • د تلیفون څخه وایبریشنونه د منلو وړ ندي؛ بهرني کمپنونه د زغم وړ دي که آډیو روښانه وي.

د سپیکر توضیحات

  • د عمر حد د 20-70 کلونو ترمنځ په هره ولسوالۍ کې د جنسیت متوازن ویش سره.
  • په هره ولسوالي کې لږ تر لږه ۴۰۰ اصلي ویونکي.
  • ویونکي باید د خپلې کورنۍ ژبه/ژبه وکاروي.
  • د رضایت فورمه د ټولو ګډون کونکو لپاره لازمي ده.

د کیفیت چک او د کیفیت مهم تضمین

د QA پروسه د آډیو ریکارډونو او لیږدونو لپاره د کیفیت تضمین ته لومړیتوب ورکوي. د آډیو معیارونه په دقیق خاموشۍ تمرکز کوي، د برخې موده، د واحد سپیکر روښانه کول، او د عمر او ټولنیز-اقتصادي حالت په شمول تفصيلي میټاډاټا. د لیږد معیارونه د ټاګ دقت، د کلمې ریښتیا، او د برخې سمې توضیحات ټینګار کوي. د منلو بنچمارک حکم کوي چې که د آډیو بیچ 20٪ څخه ډیر دا معیارونه ناکام کړي، دا رد شوی. د 20٪ څخه لږ توپیرونو لپاره، د ورته پروفایلونو سره بدیل ریکارډونه اړین دي.

د معلوماتو لیږد

د لیږد لارښوونې یوازې هغه وخت په دقت او لفظي لیږد ټینګار کوي کله چې ټکي روښانه او د پوهیدو وړ وي؛ ناڅرګند ټکي د مسلې پر بنسټ د [نا پوهیدو وړ] یا [د اوریدلو وړ] په توګه نښه شوي. په اوږده آډیو کې د جملې حدود د سره په نښه شوي، او د ګرامري غلطیو هیڅ ډول پارافراس یا سمون ته اجازه نشته. د لفظي لیږد خطاګانې، سلینګونه، او تکرارونه پوښي مګر غلط پیل، ډک غږونه، او ټکانونه پریږدي. شالید او مخکینۍ غږونه د تشریحي ټاګونو سره لیکل شوي ، پداسې حال کې چې مناسب نومونه ، سرلیکونه او شمیرې د ځانګړي لیږد قواعد تعقیبوي. د سپیکر لیبلونه د هرې جملې لپاره کارول کیږي، او نیمګړې جملې ورسره اشاره کیږي.

د پروژې کاري جریان

د کار جریان د آډیو لیږد پروسې تشریح کوي. دا د بورډینګ او روزنې برخه اخیستونکو سره پیل کیږي. دوی د یو اپلیکیشن په کارولو سره آډیو ثبتوي، کوم چې د QA پلیټ فارم ته اپلوډ شوی. دا آډیو د کیفیت چک او اتوماتیک برخې څخه تیریږي. د تخنیک ټیم بیا د لیږد لپاره برخې چمتو کوي. د لاسي لیږد وروسته، د کیفیت تضمین ګام شتون لري. نقلونه پیرودونکي ته سپارل کیږي، او که ومنل شي، تحویلي بشپړ ګڼل کیږي. که نه، بیاکتنې د پیرودونکي فیډبیک پراساس کیږي.

د پروژې کاري جریان

پایلې

د متخصص ژبپوهانو لخوا د لوړ کیفیت آډیو ډیټا به زموږ پیرودونکي ته دا وړتیا ورکړي چې په ټاکل شوي وخت کې په مختلف هندي ژبو کې د مختلف ژبو سره د څو ژبو وینا پیژندنې ماډلونه په سمه توګه وروزي او رامینځته کړي. د وینا پیژندنې ماډلونه د دې لپاره کارول کیدی شي:

  • د ډیجیټل شاملولو لپاره د ژبې خنډ له منځه یوسي ترڅو اتباع په خپله مورنۍ ژبه کې نوښتونو سره وصل کړي.
  • ډیجیټل حکومتداري ته وده ورکوي
  • کتلست په هندي ژبو کې د خدماتو او محصولاتو لپاره د ایکوسیستم جوړولو لپاره
  • د عامه ګټو په ډومینونو کې ډیر ځایی ډیجیټل مینځپانګه ، په ځانګړي توګه حکومتداري او پالیسي

موږ په خبرو اترو کې د شیپ له مهارت څخه په ویره کې یو. په 8000 متنوع ولسوالیو کې د 800 ساعتونو آډیو ډیټا او د 80 ساعتونو لیږد سره د XNUMX ساعتونو اداره کولو دنده د پام وړ وه. دا د دې ډومین د پیچلو توضیحاتو او باریکیو په اړه د شیپ ژوره پوهه وه چې د داسې ننګونې پروژې بریالۍ اجرا کول یې ممکن کړل. د دې پراخه اندازې ډیټا پیچلتیاو له لارې په بې ساري ډول اداره کولو او نیویګیټ کولو لپاره د دوی وړتیا پداسې حال کې چې د لوړ کیفیت تضمین کول واقعیا د ستاینې وړ دي.

د سرو زرو پنځه ستوري

د خپل خبرو اترو مصنوعي ذهانت (AI) اپلیکېشن پراختیا ۱۰۰٪ ګړندۍ کړئ