د قضیې مطالعه: د خبرو اترو AI

په 3 هندي ژبو کې د ASR جوړولو لپاره د 8k ساعتونو څخه ډیر ډیټا راټول شوي ، قطع شوي او لیکل شوي

د وینا راټولول
د حکومت موخه دا ده چې د بهشیني پروژې له لارې خپلو اتباعو ته په خپله مورنۍ ژبه انټرنیټ او ډیجیټل خدماتو ته اسانه لاسرسۍ وړ کړي.

BHASHINI، د هند د AI لخوا پرمخ وړل شوي ژبې ژباړې پلیټ فارم، د ډیجیټل هند نوښت یوه حیاتي برخه ده.

د مصنوعي استخباراتو (AI) او د طبیعي ژبې پروسس کولو (NLP) وسیلو چمتو کولو لپاره ډیزاین شوی چې MSMEs، پیل کولو، او خپلواک نوښتګرانو ته، د بهشیني پلیټ فارم د عامه سرچینې په توګه کار کوي. د دې هدف دا دی چې د هند اتباعو ته د دې وړتیا ورکړي چې د دوی په مورنیو ژبو کې د هیواد ډیجیټل نوښتونو سره اړیکه ونیسي.

برسیره پردې، دا موخه په هندي ژبو کې د انټرنیټ منځپانګې شتون د پام وړ پراخول دي. دا په ځانګړې توګه د عامه ګټو برخو لکه حکومتداري او پالیسي، ساینس او ​​​​ټیکنالوژي او داسې نور په نښه کوي. په پایله کې، دا به خلک وهڅوي چې انټرنیټ په خپله ژبه وکاروي، د دوی فعال ګډون ته وده ورکړي.

د ژبې د خنډونو څخه د تیریدو په موخه د مرسته کونکو، شریکانو ادارو او اتباعو متنوع ایکوسیستم فعالولو لپاره NLP کارول، په دې توګه د ډیجیټل شمولیت او پیاوړتیا ډاډمن کول

د حقیقي نړۍ حل

د ډیټا سره د سیمه ایز کولو ځواک خلاصول

هندوستان یو داسې پلیټ فارم ته اړتیا لري چې په هندي ژبو کې ډیجیټل خدمات چمتو کولو لپاره د څو ژبو ډیټاسیټونو او AI پراساس د ژبې ټیکنالوژۍ حلونو رامینځته کولو باندې تمرکز وکړي. د دې نوښت د پیل کولو لپاره، د هند د ټیکنالوژۍ انسټیټیوټ، مدراس (IIT Madras) د شیپ سره ملګرتیا وکړه ترڅو د څو ژبو وینا ماډلونو جوړولو لپاره د هندي ژبې ډیټاسیټونه راټول، برخې او لیږد کړي.

ننګونې

د هندي ژبو لپاره د دوی د سپیچ ټیکنالوژۍ وینا سړک نقشه کې د پیرودونکي سره د مرستې لپاره ، ټیم اړتیا درلوده چې د AI ماډل رامینځته کولو لپاره د روزنې ډیټا لوی مقدار ترلاسه کړي ، برخې کړي او لیږد کړي. د پیرودونکي مهمې اړتیاوې دا وې:

د ډاټا ټولګه

  • په 3000 هندي ژبو کې د 8 ساعتونو روزنې ډیټا په هره ژبه کې د 4 ژبو سره ترلاسه کړئ.
  • د هرې ژبې لپاره، عرضه کوونکي به د Extempore Speech او
    د 18-60 کلونو د عمر ګروپونو څخه د خبرو اترو وینا
  • د عمر، جنس، تعلیم او ژبو له مخې د ویناوالو متنوع ترکیب ډاډمن کړئ
  • د مشخصاتو سره سم د ثبت کولو چاپیریال متنوع ترکیب ډاډمن کړئ.
  • هر آډیو ریکارډ باید لږترلږه 16kHz وي مګر په غوره توګه 44kHz

د معلوماتو ویش

  • د 15 ثانیو لپاره د وینا برخې رامینځته کړئ او د هر ورکړل شوي سپیکر لپاره آډیو ملیسیکنډونو ته ټایم سټمپ کړئ ، د غږ ډول (وینا ، ببل ، میوزیک ، شور) ، په خبرو اترو کې ، ویناوې او جملې
  • په پیل او پای کې د 200-400 ملی ثانوي پیډینګ سره د خپل هدف شوي غږ سیګنال لپاره هره برخه جوړه کړئ.
  • د ټولو برخو لپاره، لاندې توکي باید ډک شي لکه د پیل وخت، د پای وخت، د برخې ID، د غږ کچه، د غږ ډول، د ژبې کوډ، د سپیکر ID، او داسې نور.

د معلوماتو لیږد

  • د حروفو او ځانګړو سمبولونو، املا او ګرامر، کیپیټل کولو، مخففاتو، تړونونو، انفرادي خبرې کولو حروفونو، شمیرو، جزاګانو، مخففاتو، ګډوډ، وینا، نا پوهیدلو وینا، غیر هدفي ژبې، غیر هدفي ژبې، او داسې نور په اړه د توضیحاتو لیږد لارښوونې تعقیب کړئ.

د کیفیت معاینه او فیډبیک

  • ټول ریکارډونه د کیفیت ارزونې او اعتبار څخه تیریږي، یوازې تایید شوې وینا باید وړاندې شي

د حل

د خبرو اترو AI په اړه زموږ د ژورې پوهاوي سره، موږ د پیرودونکي سره د متخصص راټولونکو، ژبپوهانو او تشریح کونکو ټیم سره د معلوماتو راټولولو، برخې کولو او لیږد کې مرسته وکړه ترڅو په 8 هندي ژبو کې د آډیو ډیټاسیټ لوی کارپس رامینځته کړي.

د شیپ لپاره د کار ساحه شامله وه مګر د آډیو روزنې ډیټا لوی مقدار ترلاسه کولو پورې محدود نه و ، د آډیو ریکارډونو په څو برخو ویشل ، د ډیټا لیږد کول او د اړونده JSON فایلونو وړاندې کول چې میټاډاټا لري [سپیکر ID ، عمر ، جندر ، ژبه ، ژبه ،
مورنۍ ژبه، وړتوب، مسلک، ډومین، د فایل بڼه، فریکونسی، چینل، د آډیو ډول، د ویناوالو شمیر، د بهرنیو ژبو شمیر، کارول شوي ترتیب، نارو بانډ یا وایډ بانډ آډیو، او نور.] 

شیپ په پیمانه د 3000 ساعتونو آډیو ډیټا راټول کړل پداسې حال کې چې د پیچلو پروژو لپاره د وینا ټیکنالوژۍ روزنې لپاره اړین کیفیت مطلوب کچې ساتل. د هر ګډونوال څخه د واضح رضایت فورمه اخیستل شوې وه.

1. د ډاټا ټولګه