کار میں صوتی ڈیٹا اکٹھا کرنا

کیس اسٹڈی: کار میں آواز سے چلنے والے نظاموں کے لیے کلیدی جملے کا مجموعہ
کلیدی جملے کا مجموعہ

آٹو انڈسٹری میں کار کے اندر آواز سے چلنے والے سسٹمز کی مانگ میں اضافہ ہو رہا ہے، جس سے اس بات کی وضاحت ہو رہی ہے کہ ہم اپنی نقل و حرکت والی گاڑیوں کے ساتھ کس طرح مشغول رہتے ہیں۔

آٹوموٹیو انڈسٹری نے آواز سے چلنے والے نظام کو تیزی سے اپنایا ہے، جس میں فورڈ، ٹیسلا، اور BMW جیسے بڑے پلیئرز اپنی گاڑیوں میں آواز کی شناخت کو مربوط کر رہے ہیں۔ 2022 تک، یہ اندازہ لگایا گیا تھا کہ 50% سے زیادہ نئی کاروں میں آواز کی شناخت کی صلاحیتیں موجود تھیں۔ ان انضمام کا مقصد حفاظت کو بڑھانا ہے، جس سے ڈرائیوروں کو بغیر کسی خلفشار کے نیویگیشن، تفریحی اور مواصلاتی افعال چلانے کی اجازت ملتی ہے۔

آٹوز میں آواز کی شناخت کے لیے مارکیٹ ویلیو 1 تک $2023 بلین سے تجاوز کرنے کا تخمینہ لگایا گیا تھا، جو کہ ہاتھ سے پاک، کار میں ذہین تعاملات کی بڑھتی ہوئی مانگ کی نشاندہی کرتا ہے۔

اٹو موٹیو.

تحقیق سے پتہ چلتا ہے کہ 2022 تک، 73٪ ڈرائیور کار میں وائس اسسٹنٹ استعمال کریں گے۔

آٹوموٹیو وائس ریکگنیشن سسٹم مارکیٹ کی قیمت 2.01 میں USD 2021 Bn تھی، اور 3.51 تک USD 2027 بلین تک پہنچنے کی توقع ہے، جس میں تقریباً 8.07% کا CAGR درج کیا گیا ہے۔

حقیقی دنیا کا حل۔

ڈیٹا جو آواز سے چلنے والے سسٹمز کو طاقت دیتا ہے۔

کاروں میں آواز سے چلنے والے نظام حفاظت اور سہولت کو بڑھاتے ہیں۔ وہ ڈرائیوروں کو پہیے سے ہاتھ ہٹائے یا سڑک سے نظریں ہٹائے بغیر نیویگیشن تک رسائی، کال کرنے، ٹیکسٹ بھیجنے اور موسیقی کو کنٹرول کرنے کی اجازت دیتے ہیں۔ زبانی احکامات کا جواب دے کر، یہ سسٹم خلفشار کو کم کرتے ہیں، ملٹی ٹاسکنگ کو فروغ دیتے ہیں، اور ڈرائیونگ پر مسلسل توجہ کو یقینی بناتے ہیں۔ 

کلائنٹ بات چیت کی ذہانت میں ایک عالمی رہنما ہے جو صوتی AI حل پیش کرتا ہے جو کاروبار کو اپنے صارفین کو بات چیت کے ناقابل یقین تجربات پیش کرنے دیتا ہے۔ وہ سرکردہ آٹوموٹو کمپنیوں کے ساتھ کام کر رہے تھے تاکہ اپنے آواز سے چلنے والے نظام کو برانڈڈ کلیدی فقروں کے ساتھ تربیت دیں اور آڈیو ڈیٹا اکٹھا کرنے میں شیپ کی مہارت کی ضرورت ہے۔

حقیقی دنیا کا حل
چیلنجز

چیلنجز

  • کراؤڈ سورسنگ: عالمی سطح پر فی زبان 2800+ مقامی بولنے والوں کو بھرتی کریں۔
  • ڈیٹا کا مجموعہ: مقررہ مدت کے اندر 200 زبانوں میں 12k+ پرامپٹس کو محفوظ کریں۔
  • سیاق و سباق اور ارادے کی شناخت: صارف کی درخواستوں کو درست طریقے سے سمجھنے کے لیے، ایک ہی کلیدی جملے کے لیے مختلف تغیرات پر سسٹمز کو تربیت دینے کی ضرورت ہے۔
  • پس منظر کے شور کو سنبھالنا: ML ماڈل کی درستگی کے لیے حقیقی دنیا کے پس منظر کے شور کو ایڈریس کریں۔
  • تعصب کو کم کرنا: شمولیت کو یقینی بنانے کے لیے متنوع ڈیموگرافکس سے آواز کے نمونے حاصل کریں۔.
  • آڈیو تفصیلات: 16khz 16bits PCM، مونو، سنگل چینل، WAV؛ کوئی پروسیسنگ نہیں.
  • ریکارڈنگ کا ماحول: ریکارڈنگ میں پس منظر کے شور یا خلل کے بغیر صاف آڈیو ہونا چاہیے۔ عام تقریر کا استعمال کرتے ہوئے ریکارڈ کیے جانے والے کلیدی جملے۔
  • کوالٹی چیک:  تمام تقریری ریکارڈنگز کو معیار کی جانچ اور توثیق سے گزرنا پڑے گا، صرف درست تقریر کی ریکارڈنگ ہی فراہم کی جائیں گی۔ اگر Shaip منظور شدہ معیار کے معیارات پر پورا نہیں اترتا ہے، تو Shaip بغیر کسی اضافی قیمت کے ڈیٹا کو دوبارہ ڈیلیور کرے گا۔

حل

Shaip نے بات چیت کی AI جگہ میں اپنی مہارت کے ساتھ کلائنٹ کو اس کے ساتھ فعال کیا:

  • ڈیٹا کا مجموعہ: مقررہ مدت میں 208 بولنے والوں سے 12 عالمی زبانوں میں 2800k کلیدی جملے/برانڈ پرامپٹس جمع کیے گئے
  • متنوع لہجے اور بولیاں: دنیا بھر سے بھرتی کیے گئے ماہرین، مطلوبہ لہجوں اور بولیوں میں ماہر۔
  • سیاق و سباق اور ارادے کی شناخت: ہر مقرر کو 20 مختلف تغیرات میں کلیدی جملے ریکارڈ کرنے کا کام سونپا گیا تھا، جس سے ML ماڈلز کو سیاق و سباق اور ارادے کے لحاظ سے صارف کی درخواستوں کو درست طریقے سے سمجھنے کے قابل بنایا گیا تھا۔
  • پس منظر شور ہینڈلنگ: قدیم آڈیو کوالٹی کو یقینی بنانے کے لیے، ہم نے یقینی بنایا کہ کلیدی جملے 40dB سے کم شور کی سطح کے ساتھ ایک پرسکون ماحول میں کیپچر کیے گئے ہیں، جو کہ ٹی وی، ریڈیو، موسیقی، تقریر، یا سڑک کی آوازوں جیسے پس منظر میں خلل سے خالی ہیں۔
  • تعصب کو کم کرنا: تعصب کو کم کرنے کے لیے، ہم نے متنوع علاقوں سے تعلق رکھنے والے افراد کو شامل کیا اور 50% مرد اور 50% خواتین کے ساتھ متوازن آبادیاتی نمائندگی کو برقرار رکھا، جس کی عمر کے گروپ 18 سے 60 سال کے درمیان تھے۔
  • ریکارڈنگ کے رہنما خطوط: کلیدی جملے تیز یا سست رفتار جیسے کسی تغیر کے بغیر، ایک مستقل، عام تقریر کے پیٹرن میں پکڑے گئے تھے۔ شروع اور اختتام دونوں پر 2 سیکنڈ کی خاموشی اس بات کی ضمانت کے لیے کہ تقریر کا کوئی حصہ نادانستہ طور پر نہیں کاٹا گیا تھا۔
  • ریکارڈنگ فارمٹا: آڈیو کو 16kHz پر ریکارڈ کیا گیا، مونو میں 16-bit PCM، ایک چینل کا استعمال کرتے ہوئے، اور WAV فائل فارمیٹ میں محفوظ کیا گیا۔ آڈیو غیر پروسیس شدہ رہتا ہے، یعنی اس میں کمپریشن، ریورب، یا EQ کا کوئی اطلاق نہیں تھا۔
  • : کوالٹی ہر تقریر کی ریکارڈنگ کو سخت معیار کی جانچ اور توثیق کا نشانہ بنایا گیا تھا۔ صرف ریکارڈنگز فراہم کی گئیں جنہوں نے اس تشخیص کو پاس کیا تھا۔ کوئی بھی فائل جو متفقہ معیار کے معیار سے کم تھی دوبارہ ریکارڈ کی گئی اور بغیر کسی اضافی چارجز کے فراہم کی گئی۔
حل
نتائج

نتائج

اعلیٰ معیار کا برانڈ کلیدی جملہ آڈیو ڈیٹا یا وائس پرامپٹس آٹوموٹیو کمپنیوں اور ان کے صارفین کو اس قابل بنائے گا کہ:

  1. برانڈنگ اور شناخت: مخصوص، برانڈ کے فقرے کے ساتھ صوتی اشارے کمپنیوں کو صارف اور برانڈ کے درمیان براہ راست اور یادگار کنکشن بنانے میں مدد کرتا ہے جو برانڈ کی یاد کو بڑھاتا ہے۔
  2. استعمال میں آسانی: صوتی کمانڈز ڈرائیوروں کے لیے پہیے سے ہاتھ ہٹائے یا اپنی آنکھیں سڑک سے ہٹائے بغیر گاڑیوں کے ساتھ بات چیت کرنا آسان بناتی ہیں جس سے سڑک کی حفاظت میں اضافہ ہوتا ہے۔
  3. فعالیت: صوتی کمانڈز کار کی خصوصیات تک رسائی اور کنٹرول کو مزید بدیہی بناتی ہیں۔ چاہے اس کا نیویگیشن ہو، میڈیا پلے بیک، یا کلائمیٹ کنٹرول۔
  4. دوسرے سسٹمز کے ساتھ انضمام: بہت سے آواز سے چلنے والے نظام اسمارٹ فونز، سمارٹ ہوم ڈیوائسز، اور دیگر IoT آلات کے ساتھ مربوط ہیں۔ مثال کے طور پر، ایک صارف گھر کے قریب پہنچتے ہی اپنی کار کو گھر کی لائٹس آن کرنے کے لیے کہہ سکتا ہے۔
  5. مسابقتی فائدہ: اعلی درجے کی آواز سے چلنے والے نظام کی پیشکش ایک فروخت کا مقام اور فرق کرنے والا ہو سکتا ہے۔ نئی کار خریدنے پر غور کرتے وقت خریدار جدید ترین ٹیکنالوجی کی تلاش کرتے ہیں۔
  6. مستقبل کا ثبوت: جیسے جیسے ٹیک تیار ہوتی ہے اور IoT روزمرہ کی زندگی میں مزید مربوط ہوتا جاتا ہے، ایک مضبوط آواز سے چلنے والا نظام آٹوموٹیو کمپنیوں کو مستقبل کی ٹیک کے لیے زیادہ موافق بننے کے لیے رکھتا ہے۔
  7. آمدنی کے مواقع: منیٹائزیشن کے اضافی مواقع یعنی وائس سسٹم سفارشات یا مربوط ای کامرس کے تجربات پیش کرتے ہیں (جیسے کھانے کا آرڈر دینا یا قریبی خدمات تلاش کرنا) جو ملحقہ آمدنی فراہم کر سکتے ہیں۔
گولڈن-5-ستارہ

جب ہم نے آٹوموٹیو سیکٹر کے لیے وائس پرامپٹس کا حصول شروع کیا تو چیلنجز بے شمار تھے۔ ہمارے کلائنٹ کے عالمی کلائنٹ کی نمائندگی کے لیے تقریر، لہجوں اور لہجوں میں تنوع کو حاصل کرنا بہت ضروری تھا۔ شیپ نہ صرف ایک وینڈر کے طور پر بلکہ ایک حقیقی پارٹنر کے طور پر سامنے آیا۔ مختلف علاقوں سے مختلف آوازوں کو محفوظ کرنے کے لیے ان کا عزم قابل تعریف تھا۔ وہ محض آوازیں اکٹھا کرنے سے آگے نکل گئے۔ انہوں نے ہمارے پروجیکٹ کی ضروریات کی باریکیوں کو سمجھ لیا، اعلیٰ درجے کی ریکارڈنگ کی ضمانت دی۔ آڈیو جمع کرنے کے معیارات پر ان کی بے عیب پابندی ان کی پیشہ ورانہ مہارت اور پروجیکٹ کے لیے لگن کو ظاہر کرتی ہے۔

اپنی بات چیت کی AI ایپلیکیشن کی ترقی کو 100% تیز کریں