د قضیې مطالعه: د خبرو اترو AI

په ۸ هندي ژبو کې د ASR جوړولو لپاره له ۳۰۰۰ ساعتونو څخه زیات معلومات راټول شوي، ویشل شوي او لیکل شوي دي

خبرې اترې ai

د حکومت موخه دا ده چې د بهشیني پروژې له لارې خپلو اتباعو ته په خپله مورنۍ ژبه انټرنیټ او ډیجیټل خدماتو ته اسانه لاسرسۍ وړ کړي.

BHASHINI، د هند د AI لخوا پرمخ وړل شوي ژبې ژباړې پلیټ فارم، د ډیجیټل هند نوښت یوه حیاتي برخه ده.

د مصنوعي استخباراتو (AI) او د طبیعي ژبې پروسس کولو (NLP) وسیلو چمتو کولو لپاره ډیزاین شوی چې MSMEs، پیل کولو، او خپلواک نوښتګرانو ته، د بهشیني پلیټ فارم د عامه سرچینې په توګه کار کوي. د دې هدف دا دی چې د هند اتباعو ته د دې وړتیا ورکړي چې د دوی په مورنیو ژبو کې د هیواد ډیجیټل نوښتونو سره اړیکه ونیسي.

برسیره پردې، دا موخه په هندي ژبو کې د انټرنیټ منځپانګې شتون د پام وړ پراخول دي. دا په ځانګړې توګه د عامه ګټو برخو لکه حکومتداري او پالیسي، ساینس او ​​​​ټیکنالوژي او داسې نور په نښه کوي. په پایله کې، دا به خلک وهڅوي چې انټرنیټ په خپله ژبه وکاروي، د دوی فعال ګډون ته وده ورکړي.

د حقیقي نړۍ حل

د ډیټا سره د سیمه ایز کولو ځواک خلاصول

India needed a platform that would concentrate on creating multilingual datasets and AI-based language technology solutions in order to provide digital services in Indian languages. To launch this initiative, Indian Institute of Technology, Madras (IIT Madras) partnered with Shaip to collect, segment and transcribe Indian language datasets to build multi-lingual speech models.

ننګونې

د هندي ژبو لپاره د دوی د سپیچ ټیکنالوژۍ وینا سړک نقشه کې د پیرودونکي سره د مرستې لپاره ، ټیم اړتیا درلوده چې د AI ماډل رامینځته کولو لپاره د روزنې ډیټا لوی مقدار ترلاسه کړي ، برخې کړي او لیږد کړي. د پیرودونکي مهمې اړتیاوې دا وې:

د ډاټا ټولګه

  • په 3000 هندي ژبو کې د 8 ساعتونو روزنې ډیټا په هره ژبه کې د 4 ژبو سره ترلاسه کړئ.
  • د هرې ژبې لپاره، عرضه کوونکي به د Extempore Speech او
    د 18-60 کلونو د عمر ګروپونو څخه د خبرو اترو وینا
  • د عمر، جنس، تعلیم او ژبو له مخې د ویناوالو متنوع ترکیب ډاډمن کړئ
  • د مشخصاتو سره سم د ثبت کولو چاپیریال متنوع ترکیب ډاډمن کړئ.
  • هر آډیو ریکارډ باید لږترلږه 16kHz وي مګر په غوره توګه 44kHz

د معلوماتو ویش

  • د 15 ثانیو لپاره د وینا برخې رامینځته کړئ او د هر ورکړل شوي سپیکر لپاره آډیو ملیسیکنډونو ته ټایم سټمپ کړئ ، د غږ ډول (وینا ، ببل ، میوزیک ، شور) ، په خبرو اترو کې ، ویناوې او جملې
  • په پیل او پای کې د 200-400 ملی ثانوي پیډینګ سره د خپل هدف شوي غږ سیګنال لپاره هره برخه جوړه کړئ.
  • د ټولو برخو لپاره، لاندې توکي باید ډک شي لکه د پیل وخت، د پای وخت، د برخې ID، د غږ کچه، د غږ ډول، د ژبې کوډ، د سپیکر ID، او داسې نور.

د معلوماتو لیږد

  • د حروفو او ځانګړو سمبولونو، املا او ګرامر، کیپیټل کولو، مخففاتو، تړونونو، انفرادي خبرې کولو حروفونو، شمیرو، جزاګانو، مخففاتو، ګډوډ، وینا، نا پوهیدلو وینا، غیر هدفي ژبې، غیر هدفي ژبې، او داسې نور په اړه د توضیحاتو لیږد لارښوونې تعقیب کړئ.

د کیفیت معاینه او فیډبیک

  • ټول ریکارډونه د کیفیت ارزونې او اعتبار څخه تیریږي، یوازې تایید شوې وینا باید وړاندې شي

د حل

With our deep understanding of conversational AI, we helped the client collect, segment and transcribe the data with a team of expert collectors, linguists and annotators to build large corpus of audio dataset in 8 Indian languages.

The scope of work for Shaip included but was not limited to acquiring large volumes of audio training data, segmenting the audio recordings in multiple, transcribing the data and delivering corresponding JSON files containing the metadata [SpeakerID, Age, Gender, Language, Dialect, Mother Tongue, Qualification, Occupation, Domain, File format, Frequency, Channel, Type of Audio, No. of speakers, No. Of Foreign Languages, Setup used, Narrowband or Wideband audio, etc.].

شیپ په پیمانه د 3000 ساعتونو آډیو ډیټا راټول کړل پداسې حال کې چې د پیچلو پروژو لپاره د وینا ټیکنالوژۍ روزنې لپاره اړین کیفیت مطلوب کچې ساتل. د هر ګډونوال څخه د واضح رضایت فورمه اخیستل شوې وه.

1. د ډاټا ټولګه

2. د معلوماتو ویش

  • The audio data that was collected was further bifurcated into speech segments of 15 seconds each and timestamped to the milliseconds for each given speaker, type of sound, turns, utterances, and phrases in a conversation.
  • د غږ سیګنال په پیل او پای کې د 200-400 ملی ثانوي پیډینګ سره د خپل هدف شوي غږ سیګنال لپاره هره برخه جوړه کړه.
  • د ټولو برخو لپاره، لاندې توکي موجود وو او ډک شوي لکه د پیل وخت، د پای وخت، د برخې ID، د غږ کچه (لوډ، نورمال، خاموش)، د لومړني غږ ډول (وینا، ببل، موسیقي، شور، اوورلیپ)، د ژبې کوډ سپیکر ID، لیږد او داسې نور.

3. کیفیت چک او فیډبیک

  • ټول ریکارډونه د کیفیت لپاره ارزول شوي او یوازې د 90٪ WER او 90٪ TER سره تایید شوي وینا ریکارډونه وړاندې شوي.
  • د کیفیت چک لیست تعقیب شوی:
    » د برخې اوږدوالی اعظمي 15 ثانیې
    » د ځانګړو ډومینونو څخه لیږد، لکه: هوا، د خبرونو مختلف ډولونه، روغتیا، کرهنه، تعلیم، دندې یا مالیه
    » ټیټ شالید شور
    » هیڅ آډیو کلیپ بند نه دی - هیڅ تحریف نشته
    » د لیږد لپاره د آډیو قطع کول درست کړئ

4. د معلوماتو لیږد

ټولې خبرې شوي ټکي، پشمول د شک، ډک ټکي، غلط پیل، او نور لفظي ټکي، په نقل کې په سمه توګه نیول شوي. موږ د لوی او کوچني حروفو، املا، لوی کولو، لنډیزونو، انقباض، شمیرو، په شاوخوا کې د توضیحاتو لیږد لارښوونې هم تعقیب کړې
ټکي ټکي، مخففونه، بې ځایه وینا، غیر وینا غږونه او نور. سربیره پردې د راټولولو او لیږد لپاره د کار جریان په لاندې ډول دی:

پایلې

د ماهر ژبپوهانو لخوا د لوړ کیفیت آډیو ډیټا به د هند ټیکنالوژۍ انسټیټیوټ - مدراس ته دا وړتیا ورکړي چې په ټاکل شوي وخت کې په 8 هندي ژبو کې د څو ژبو د وینا پیژندنې ماډلونه په سمه توګه روزنه او رامینځته کړي. د وینا پیژندنې ماډلونه د دې لپاره کارول کیدی شي:

  • د ډیجیټل شاملولو لپاره د ژبې خنډ له منځه یوسي ترڅو اتباع په خپله مورنۍ ژبه کې نوښتونو سره وصل کړي.
  • ډیجیټل حکومتداري ته وده ورکوي
  • کتلست په هندي ژبو کې د خدماتو او محصولاتو لپاره د ایکوسیستم جوړولو لپاره
  • د عامه ګټو په ډومینونو کې ډیر ځایی ډیجیټل مینځپانګه ، په ځانګړي توګه حکومتداري او پالیسي
طلايي-پنځه ستوري

موږ د خبرو اترو AI فضا کې د شیپ له مهارت څخه متاثره شوي یو. د دوی په ټولیزه توګه د پروژې اجرا کولو وړتیا د سرچینې کولو، قطع کولو، لیږد کولو او د اړتیا وړ روزنې ډیټا په 8 ژبو کې د متخصص ژبپوهانو لخوا په سختو مهال ویشونو او لارښوونو کې وړاندې کول؛ پداسې حال کې چې لاهم د منلو وړ کیفیت معیار ساتي."

موږ ته ووایاست چې موږ ستاسو د راتلونکي AI نوښت سره څنګه مرسته کولی شو.