کیس اسٹڈی: بات چیت AI

3 ہندوستانی زبانوں میں ASR بنانے کے لیے 8k گھنٹے سے زیادہ ڈیٹا اکٹھا کیا گیا، الگ کیا گیا اور نقل کیا گیا
بات چیت ai
حکومت کا مقصد بھاشنی پروجیکٹ کے ذریعے اپنے شہریوں کو ان کی اپنی مادری زبان میں انٹرنیٹ اور ڈیجیٹل سروسز تک آسان رسائی فراہم کرنا ہے۔

بھاشینی، ہندوستان کا AI سے چلنے والا زبان کا ترجمہ پلیٹ فارم، ڈیجیٹل انڈیا پہل کا ایک اہم حصہ ہے۔

مصنوعی ذہانت (AI) اور نیچرل لینگویج پروسیسنگ (NLP) ٹولز MSMEs، سٹارٹ اپس اور آزاد اختراع کاروں کو فراہم کرنے کے لیے ڈیزائن کیا گیا، بھاشینی پلیٹ فارم عوامی وسائل کے طور پر کام کرتا ہے۔ اس کا مقصد ہندوستانی شہریوں کو ان کی مادری زبانوں میں ملک کے ڈیجیٹل اقدامات کے ساتھ بات چیت کرنے کے قابل بنا کر ڈیجیٹل شمولیت کو فروغ دینا ہے۔

مزید برآں، اس کا مقصد ہندوستانی زبانوں میں انٹرنیٹ مواد کی دستیابی کو نمایاں طور پر بڑھانا ہے۔ یہ خاص طور پر عوامی مفاد کے شعبوں جیسے کہ گورننس اور پالیسی، سائنس اور ٹیکنالوجی وغیرہ کو نشانہ بنایا جاتا ہے۔ نتیجتاً، یہ شہریوں کو اپنی زبان میں انٹرنیٹ استعمال کرنے کی ترغیب دے گا، ان کی فعال شرکت کو فروغ دے گا۔

حقیقی دنیا کا حل۔

ڈیٹا کے ساتھ لوکلائزیشن کی طاقت کو جاری کرنا

ہندوستان کو ایک ایسے پلیٹ فارم کی ضرورت ہے جو ہندوستانی زبانوں میں ڈیجیٹل خدمات فراہم کرنے کے لیے کثیر لسانی ڈیٹاسیٹس اور AI پر مبنی زبان ٹیکنالوجی کے حل پر توجہ مرکوز کرے۔ اس اقدام کو شروع کرنے کے لیے، انڈین انسٹی ٹیوٹ آف ٹیکنالوجی، مدراس (IIT Madras) نے کثیر لسانی تقریری ماڈلز کی تعمیر کے لیے ہندوستانی زبان کے ڈیٹاسیٹ کو جمع کرنے، تقسیم کرنے اور نقل کرنے کے لیے Shaip کے ساتھ شراکت کی۔

چیلنجز

کلائنٹ کی ہندوستانی زبانوں کے لیے اسپیچ ٹکنالوجی کے اسپیچ روڈ میپ میں مدد کرنے کے لیے، ٹیم کو AI ماڈل بنانے کے لیے بڑی تعداد میں تربیتی ڈیٹا کو حاصل کرنے، تقسیم کرنے اور نقل کرنے کی ضرورت ہے۔ کلائنٹ کی اہم ضروریات یہ تھیں:

ڈیٹا جمع

  • ہر زبان میں 3000 بولیوں کے ساتھ 8 ہندوستانی زبانوں میں 4 گھنٹے کا تربیتی ڈیٹا حاصل کریں۔
  • ہر زبان کے لیے، سپلائر Extempore Speech اور جمع کرے گا۔
    18-60 سال کے عمر کے گروپوں سے گفتگو کی تقریر
  • عمر، جنس، تعلیم اور بولیوں کے لحاظ سے بولنے والوں کے متنوع امتزاج کو یقینی بنائیں
  • تفصیلات کے مطابق ریکارڈنگ کے ماحول کے متنوع مرکب کو یقینی بنائیں۔
  • ہر آڈیو ریکارڈنگ کم از کم 16kHz ہو گی لیکن ترجیحاً 44kHz ہو گی۔

ڈیٹا سیگمنٹیشن

  • 15 سیکنڈ کے اسپیچ سیگمنٹس بنائیں اور آڈیو کو ہر دیے گئے اسپیکر کے لیے ملی سیکنڈ میں ٹائم اسٹیمپ کریں، آواز کی قسم (تقریر، ببل، موسیقی، شور)، موڑ، الفاظ، اور گفتگو میں جملے
  • شروع اور آخر میں 200-400 ملی سیکنڈ پیڈنگ کے ساتھ اس کے ہدف شدہ ساؤنڈ سگنل کے لیے ہر سیگمنٹ بنائیں۔
  • تمام سیگمنٹس کے لیے، مندرجہ ذیل اشیاء کو بھرنا ضروری ہے، یعنی شروع کا وقت، اختتامی وقت، سیگمنٹ ID، بلندی کی سطح، آواز کی قسم، زبان کا کوڈ، اسپیکر ID، وغیرہ۔

ڈیٹا کی نقل

  • حروف اور خصوصی علامات، ہجے اور گرامر، کیپیٹلائزیشن، مخففات، سنکچن، انفرادی بولے جانے والے حروف، اعداد، رموز، مخففات، متضاد، تقریر، ناقابل فہم تقریر، غیر ہدفی زبانیں، غیر ہدفی زبانیں، وغیرہ کے بارے میں تفصیلات کی نقل کے رہنما خطوط پر عمل کریں۔

کوالٹی چیک اور فیڈ بیک

  • تمام ریکارڈنگز کو معیار کی تشخیص اور توثیق سے گزرنا ہے، صرف تصدیق شدہ تقریر پیش کی جائے گی۔

حل

بات چیت کے AI کے بارے میں ہماری گہری سمجھ کے ساتھ، ہم نے کلائنٹ کو 8 ہندوستانی زبانوں میں آڈیو ڈیٹاسیٹ کا بڑا کارپس بنانے کے لیے ماہر جمع کرنے والوں، ماہر لسانیات اور تشریح کاروں کی ٹیم کے ساتھ ڈیٹا اکٹھا کرنے، اس کی تقسیم اور نقل کرنے میں مدد کی۔

شیپ کے لیے کام کا دائرہ شامل تھا لیکن اس میں آڈیو ٹریننگ ڈیٹا کی بڑی مقدار حاصل کرنے، آڈیو ریکارڈنگز کو ایک سے زیادہ میں تقسیم کرنے، ڈیٹا کو نقل کرنے اور میٹا ڈیٹا پر مشتمل JSON فائلوں کو ڈیلیور کرنے تک محدود نہیں تھا۔
مادری زبان، اہلیت، پیشہ، ڈومین، فائل کی شکل، فریکوئنسی، چینل، آڈیو کی قسم، بولنے والوں کی تعداد، غیر ملکی زبانوں کی تعداد، استعمال شدہ سیٹ اپ، نارو بینڈ یا وائیڈ بینڈ آڈیو وغیرہ۔]

شیپ نے 3000 گھنٹے کا آڈیو ڈیٹا بڑے پیمانے پر اکٹھا کیا جبکہ اسپیچ ٹکنالوجی کو پیچیدہ پروجیکٹس کے لیے تربیت دینے کے لیے مطلوبہ معیار کو برقرار رکھا۔ ہر ایک شرکاء سے واضح رضامندی کا فارم لیا گیا تھا۔

1. ڈیٹا مجموعہ

2. ڈیٹا کی تقسیم

  • جو آڈیو ڈیٹا اکٹھا کیا گیا تھا اسے مزید 15 سیکنڈ کے اسپیچ سیگمنٹس میں تقسیم کیا گیا تھا اور ہر دیئے گئے اسپیکر کے لیے ملی سیکنڈ میں ٹائم اسٹیمپ کیا گیا تھا، بات چیت میں آواز کی قسم، موڑ، الفاظ اور فقرے
  • ساؤنڈ سگنل کے آغاز اور اختتام پر 200-400 ملی سیکنڈ پیڈنگ کے ساتھ اپنے ہدف شدہ ساؤنڈ سگنل کے لیے ہر سیگمنٹ بنایا۔
  • تمام سیگمنٹس کے لیے، درج ذیل اشیاء موجود اور بھری ہوئی تھیں، یعنی آغاز کا وقت، اختتامی وقت، سیگمنٹ ID، بلندی کی سطح (بلند، نارمل، خاموش)، بنیادی آواز کی قسم (تقریر، ببل، موسیقی، شور، اوورلیپ)، زبان کا کوڈ اسپیکر۔ آئی ڈی، ٹرانسکرپشن وغیرہ

3. کوالٹی چیک اور فیڈ بیک

  • تمام ریکارڈنگ کو معیار کے لیے جانچا گیا اور صرف 90% کے WER اور 90% کی TER کے ساتھ درست تقریر کی ریکارڈنگ فراہم کی گئی۔
  • کوالٹی چیک لسٹ کی پیروی کی گئی:
    » سیگمنٹ کی لمبائی کے زیادہ سے زیادہ 15 سیکنڈ
    » مخصوص ڈومینز سے نقل، یعنی: موسم، مختلف قسم کی خبریں، صحت، زراعت، تعلیم، نوکریاں یا مالیات
    » پس منظر کا کم شور
    »کوئی آڈیو کلپ بند نہیں - کوئی تحریف نہیں۔
    » ٹرانسکرپشن کے لیے درست آڈیو سیگمنٹیشن

4. ڈیٹا ٹرانسکرپشن
تمام بولے گئے الفاظ، بشمول ہچکچاہٹ، فلر الفاظ، غلط آغاز، اور دیگر زبانی ٹکس، نقل میں درست طریقے سے پکڑے گئے تھے۔ ہم نے بڑے اور چھوٹے حروف، ہجے، کیپٹلائزیشن، مخففات، سنکچن، اعداد،
اوقاف، مخففات، متضاد تقریر، غیر تقریری شور وغیرہ۔ مزید یہ کہ جمع کرنے اور نقل کرنے کے لیے کام کا بہاؤ درج ذیل ہے:

نتائج

ماہر لسانیات کا اعلیٰ معیار کا آڈیو ڈیٹا انڈین انسٹی ٹیوٹ آف ٹکنالوجی – مدراس کو مقررہ وقت میں مختلف بولیوں کے ساتھ 8 ہندوستانی زبانوں میں کثیر لسانی اسپیچ ریکگنیشن ماڈلز کو درست طریقے سے تربیت دینے اور تیار کرنے کے قابل بنائے گا۔ تقریر کی شناخت کے ماڈل کو استعمال کیا جا سکتا ہے:

  • شہریوں کو ان کی اپنی مادری زبان میں اقدامات سے جوڑ کر ڈیجیٹل شمولیت کے لیے زبان کی رکاوٹ کو دور کریں۔
  • ڈیجیٹل گورننس کو فروغ دیتا ہے۔
  • ہندوستانی زبانوں میں خدمات اور مصنوعات کے لیے ایک ماحولیاتی نظام بنانے کے لیے کیٹالسٹ
  • عوامی دلچسپی کے ڈومینز میں زیادہ مقامی ڈیجیٹل مواد، خاص طور پر، گورننس اور پالیسی
گولڈن-5-ستارہ

ہم بات چیت کے AI اسپیس میں شیپ کی مہارت سے متاثر ہوئے۔ سخت ٹائم لائنز اور رہنما خطوط کے اندر 8 زبانوں میں ماہر لسانیات سے مطلوبہ تربیتی ڈیٹا کو سورسنگ، سیگمنٹنگ، ٹرانسکرائبنگ اور ڈیلیور کرنے سے ان کی مجموعی پراجیکٹ پر عمل درآمد کی اہلیت؛ معیار کے قابل قبول معیار کو برقرار رکھتے ہوئے"

اپنی بات چیت کی AI ایپلیکیشن کی ترقی کو 100% تیز کریں

نمایاں مؤکل

دنیا کے معروف AI مصنوعات تیار کرنے کے لئے ٹیموں کو بااختیار بنانا۔