د قضیې مطالعه: د وینا اتوماتیک پیژندنه
له 8k څخه ډیر آډیو ساعتونه راټول شوي، 800 ساعته د څو ژبو غږ ټیکنالوژۍ لپاره لیکل شوي
پېژندنه
هند یو داسې پلیټ فارم ته اړتیا لري چې په هندي ژبو کې ډیجیټل خدمات چمتو کولو لپاره څو ژبني ډیټاسیټونو او د AI پراساس د ژبې ټیکنالوژۍ حلونو رامینځته کولو باندې تمرکز وکړي. د دې نوښت پیل کولو لپاره، پیرودونکي د شیپ سره ملګرتیا وکړه ترڅو د څو ژبو وینا ماډلونو جوړولو لپاره هندي ژبه راټول او لیږد کړي.
حجم
ننګونې
د هندي ژبو لپاره د دوی د سپیچ ټیکنالوژۍ وینا سړک نقشه کې د پیرودونکي سره د مرستې لپاره، ټیم اړتیا درلوده چې د AI ماډل جوړولو لپاره د روزنې ډیټا لوی مقدار ترلاسه کړي، برخې کړي او لیږد کړي. د پیرودونکي مهمې اړتیاوې دا وې:
د ډاټا ټولګه
- د هندوستان له لیرې پرتو ځایونو څخه د 8000 ساعتونو روزنې ډیټا ترلاسه کړئ
- عرضه کونکی د 20-70 کلونو عمر ګروپونو څخه د غیر معمولي وینا راټولولو لپاره
- د عمر، جنسیت، تعلیم او ژبو له مخې د ویناوالو متنوع ترکیب ډاډمن کړئ
- هر آډیو ثبت کول باید لږترلږه 16kHz وي د 16 بټونو / نمونې سره.
د معلوماتو لیږد
د حروفو او ځانګړو سمبولونو، املا او ګرامر، کیپیټل کولو، لنډیزونو، تړونونو، انفرادي خبرې کولو حروفونو، شمیرو، جزاګانو، مخففاتو او ابتکاراتو، ګډوډ وینا، د نه پوهیدو وړ وینا، غیر هدفي ژبې، ژبې
د کیفیت معاینه او فیډبیک
ټول ریکارډونه د کیفیت ارزونې او اعتبار څخه تیریږي، یوازې د تایید شوي وینا ریکارډونه باید وسپارل شي
د حل
د خبرو اترو AI په اړه زموږ د ژورې پوهې سره، موږ د پیرودونکي سره د آډیو ډیټا راټولولو کې مرسته وکړه، د متخصص راټولونکو، ژبپوهانو او تشریح کونکو ټیم سره د هند له لیرې پرتو سیمو څخه د آډیو ډیټا لوی کارپس رامینځته کولو لپاره.
د شیپ لپاره د کار ساحه شامله وه مګر د آډیو روزنې ډیټا لوی مقدار ترلاسه کولو پورې محدود نه و ، د ډیټا لیږد کول او د اړونده JSON فایلونو وړاندې کول چې میټاډاټا لري [د دواړو وینا کونکو او لیږدونکو لپاره. د هر سپیکر لپاره، میټاډاټا کې د سپیکر نامعلوم ID، د وسیلې توضیحات، د ډیموګرافیک معلومات لکه جندر، عمر، او تعلیم، د دوی د پنکوډ، ټولنیز-اقتصادي حالت، ژبې خبرې کول، او د دوی د ژوند د مودې ریکارډ شامل دي. د هر لیږدونکي لپاره، ډاټا د نامعلوم لیږدونکي ID، ډیموګرافیک توضیحات د ویناوالو سره ورته دي، د دوی د لیږد تجربه موده، او د هغو ژبو بشپړ ماتول چې دوی یې لوستل، لیکل او خبرې کولی شي.
شیپ راټول شو 8000 د آډیو ډیټا ساعتونه / په پیمانه او د 800 ساعتونو په کچه ناڅاپي وینا لیکل شوي پداسې حال کې چې د پیچلو پروژو لپاره د وینا ټیکنالوژۍ روزنې لپاره اړین کیفیت مطلوب کچې ساتل. د هر ګډونوال څخه د واضح رضایت فورمه اخیستل شوې وه. راټول شوي / ناڅاپي وینا د پوهنتون لخوا چمتو شوي عکسونو پراساس وه. د 3500 انځورونه 1000 عام دي او 2500 د ولسوالۍ ځانګړي کلتور، فستیوالونو او نورو پورې اړه لري. انځورونه مختلف ډومینونه لکه د اورګاډي سټیشنونه، بازارونه، هوا او نور انځوروي.
د ډاټا ټولګه
| د بهرنیو چارو | ولسوالۍ | آډیو ساعتونه | نقل (ساعتونه) |
|---|---|---|---|
| بهار | ساران، ختیځ چمپارن، ګوپال ګنج، سیتامري، سمستی پور، دربهنگا، مدهیپوره، بھاگلپور، ګیا، کشن ګنج، ویشالي، لکیسرای، سهارسا، سوپول، ارریا، بیګوسرای، جهان آباد، پورنیا، مظفرپور، جموئي | 2000 | 200 |
| उत्तर प्रदेश | دیوریا، وارانسی، ګورخپور، غازی پور، مظفر نگر، ایتا، همیرپور، جیوتیبا فلی نگر، بوداون، جالون | 1000 | 100 |
| راجستان | ناګور، چورو | 200 | 20 |
| اتخشان | تېري ګروال، اترکاشي | 200 | 20 |
| چھټسګھ | بلاسپور، رایګر، کبیردام، سرګوجا، کوربا، جاشپور، راجنندګاون، بلرامپور، بستار، سکما | 1000 | 100 |
| لویدیځ بنګله دیش | پشیم میډینی پور، مالدا، جلپایګوری، پورولیا، کلکته، جارګرام، شمالي 24 پرګناس، دکشین دیناجپور | 800 | 80 |
| جهانکشنډ | صاحب ګنج، جمتاره | 200 | 20 |
| آندرا پردیش | ګونټور، چتور، ویزاکاپټنم، کرشنا، انتاپور، سریکاکولم | 600 | 60 |
| تلنګانه | کریم نگر، نلګونډا | 200 | 20 |
| Goa | شمالي او جنوبي ګوا | 100 | 10 |
| کرناتکا | دکشین کناډا، ګلبرګا، دھرواد، بیلاري، میسور، شیموګا، بیجاپور، بیلګام، رایچور، چامراج نگر | 1000 | 100 |
| مهاراشرا | سندودرګ، دول، ناګپور، پونا، اورنګ آباد، چندرپور، سولاپور | 700 | 70 |
| ټول | 8000 | 800 | |
عمومي لارښوونې
بڼه
- آډیو په 16 kHz کې، 16 بټونه / نمونه.
- یو واحد چینل.
- خام آډیو پرته له ټرانسکوډ کولو څخه.
ډول
- ناڅاپه وینا.
- د پوهنتون لخوا چمتو شوي عکسونو پراساس جملې. د 3500 انځورونو څخه، 1000 عمومي دي او 2500 د ولسوالۍ ځانګړي کلتور، جشنونو او نورو پورې اړه لري. انځورونه مختلف ډومینونه لکه د اورګاډي سټیشنونه، بازارونه، هوا او نور انځوروي.
د ثبت کولو پس منظر
- په خاموشه، له گونج څخه پاک چاپیریال کې ثبت شوی.
- د ثبت کولو پرمهال د سمارټ فون ګډوډي (کمپن یا خبرتیا) شتون نلري.
- هیڅ تحریفونه لکه کلپ کول یا لرې ساحې اغیزې.
- د تلیفون څخه وایبریشنونه د منلو وړ ندي؛ بهرني کمپنونه د زغم وړ دي که آډیو روښانه وي.
د سپیکر توضیحات
- د عمر حد د 20-70 کلونو ترمنځ په هره ولسوالۍ کې د جنسیت متوازن ویش سره.
- په هره ولسوالي کې لږ تر لږه ۴۰۰ اصلي ویونکي.
- ویونکي باید د خپلې کورنۍ ژبه/ژبه وکاروي.
- د رضایت فورمه د ټولو ګډون کونکو لپاره لازمي ده.
د کیفیت چک او د کیفیت مهم تضمین
د QA پروسه د آډیو ریکارډونو او لیږدونو لپاره د کیفیت تضمین ته لومړیتوب ورکوي. د آډیو معیارونه په دقیق خاموشۍ تمرکز کوي، د برخې موده، د واحد سپیکر روښانه کول، او د عمر او ټولنیز-اقتصادي حالت په شمول تفصيلي میټاډاټا. د لیږد معیارونه د ټاګ دقت، د کلمې ریښتیا، او د برخې سمې توضیحات ټینګار کوي. د منلو بنچمارک حکم کوي چې که د آډیو بیچ 20٪ څخه ډیر دا معیارونه ناکام کړي، دا رد شوی. د 20٪ څخه لږ توپیرونو لپاره، د ورته پروفایلونو سره بدیل ریکارډونه اړین دي.
د معلوماتو لیږد
د لیږد لارښوونې یوازې هغه وخت په دقت او لفظي لیږد ټینګار کوي کله چې ټکي روښانه او د پوهیدو وړ وي؛ ناڅرګند ټکي د مسلې پر بنسټ د [نا پوهیدو وړ] یا [د اوریدلو وړ] په توګه نښه شوي. په اوږده آډیو کې د جملې حدود د سره په نښه شوي، او د ګرامري غلطیو هیڅ ډول پارافراس یا سمون ته اجازه نشته. د لفظي لیږد خطاګانې، سلینګونه، او تکرارونه پوښي مګر غلط پیل، ډک غږونه، او ټکانونه پریږدي. شالید او مخکینۍ غږونه د تشریحي ټاګونو سره لیکل شوي ، پداسې حال کې چې مناسب نومونه ، سرلیکونه او شمیرې د ځانګړي لیږد قواعد تعقیبوي. د سپیکر لیبلونه د هرې جملې لپاره کارول کیږي، او نیمګړې جملې ورسره اشاره کیږي.
د پروژې کاري جریان
د کار جریان د آډیو لیږد پروسې تشریح کوي. دا د بورډینګ او روزنې برخه اخیستونکو سره پیل کیږي. دوی د یو اپلیکیشن په کارولو سره آډیو ثبتوي، کوم چې د QA پلیټ فارم ته اپلوډ شوی. دا آډیو د کیفیت چک او اتوماتیک برخې څخه تیریږي. د تخنیک ټیم بیا د لیږد لپاره برخې چمتو کوي. د لاسي لیږد وروسته، د کیفیت تضمین ګام شتون لري. نقلونه پیرودونکي ته سپارل کیږي، او که ومنل شي، تحویلي بشپړ ګڼل کیږي. که نه، بیاکتنې د پیرودونکي فیډبیک پراساس کیږي.
پایلې
د متخصص ژبپوهانو لخوا د لوړ کیفیت آډیو ډیټا به زموږ پیرودونکي ته دا وړتیا ورکړي چې په ټاکل شوي وخت کې په مختلف هندي ژبو کې د مختلف ژبو سره د څو ژبو وینا پیژندنې ماډلونه په سمه توګه وروزي او رامینځته کړي. د وینا پیژندنې ماډلونه د دې لپاره کارول کیدی شي:
- د ډیجیټل شاملولو لپاره د ژبې خنډ له منځه یوسي ترڅو اتباع په خپله مورنۍ ژبه کې نوښتونو سره وصل کړي.
- ډیجیټل حکومتداري ته وده ورکوي
- کتلست په هندي ژبو کې د خدماتو او محصولاتو لپاره د ایکوسیستم جوړولو لپاره
- د عامه ګټو په ډومینونو کې ډیر ځایی ډیجیټل مینځپانګه ، په ځانګړي توګه حکومتداري او پالیسي
موږ په خبرو اترو کې د شیپ له مهارت څخه په ویره کې یو. په 8000 متنوع ولسوالیو کې د 800 ساعتونو آډیو ډیټا او د 80 ساعتونو لیږد سره د XNUMX ساعتونو اداره کولو دنده د پام وړ وه. دا د دې ډومین د پیچلو توضیحاتو او باریکیو په اړه د شیپ ژوره پوهه وه چې د داسې ننګونې پروژې بریالۍ اجرا کول یې ممکن کړل. د دې پراخه اندازې ډیټا پیچلتیاو له لارې په بې ساري ډول اداره کولو او نیویګیټ کولو لپاره د دوی وړتیا پداسې حال کې چې د لوړ کیفیت تضمین کول واقعیا د ستاینې وړ دي.