شیپ اب یوبیویوٹی ایکو سسٹم کا حصہ ہے: ایک ہی ٹیم - اب بڑے پیمانے پر صارفین کی مدد کے لیے وسیع وسائل کی حمایت حاصل ہے۔ |
ML کے لیے NLP ڈیٹاسیٹ

آپ کے مشین لرننگ ماڈلز کو سپرچارج کرنے کے لیے سرفہرست NLP ڈیٹا سیٹ

NLP ڈیٹاسیٹس بہت سے قدرتی لینگویج پروسیسنگ پروجیکٹس میں ریڑھ کی ہڈی کی حیثیت رکھتے ہیں، جو متن کی درجہ بندی، جذبات کا تجزیہ، اور سوالوں کے جوابات جیسے کاموں کی ایک وسیع رینج کے لیے لچک پیش کرتے ہیں۔ مثال کے طور پر، بلاگ تصنیف کارپس، تقریباً 681,000 بلاگرز کی 20,000 بلاگ پوسٹس پر مشتمل ہے، جو اسے لکھنے کے انداز، مصنف کی شناخت، اور مزید کا مطالعہ کرنے کا ایک بھرپور ذریعہ بناتا ہے۔

علمی تحقیق میں دلچسپی رکھنے والوں کے لیے، arXiv ریسرچ پیپرز ڈیٹاسیٹ متعدد شعبوں میں سائنسی مقالوں کے وسیع مجموعے تک رسائی فراہم کرتا ہے، جو کہ اعلی درجے کے NLP کاموں جیسے حوالہ جات کے تجزیہ اور دستاویز کی درجہ بندی میں معاونت کرتا ہے۔ فیڈرل پروکیورمنٹ ڈیٹا سینٹر ڈیٹاسیٹ ایک اور قیمتی وسیلہ ہے، جو وفاقی معاہدوں پر تفصیلی معلومات پیش کرتا ہے—حکومتی ڈیٹا اور ہستی کی شناخت پر مشتمل منصوبوں کے لیے مثالی ہے۔

یہ nlp ڈیٹاسیٹس بڑے پیمانے پر مشین لرننگ ماڈلز کی تربیت اور جانچ کے لیے استعمال کیے جاتے ہیں، جس سے محققین اور ڈیولپرز کو مختلف nlp کاموں میں اپنے سسٹمز کی کارکردگی کو بہتر بنانے میں مدد ملتی ہے۔ چاہے آپ بلاگ پوسٹس، ریسرچ پیپرز، یا سرکاری ڈیٹا کے ساتھ کام کر رہے ہوں، یہ ڈیٹا سیٹس مضبوط اور ورسٹائل NLP ایپلیکیشنز کی بنیاد فراہم کرتے ہیں۔

این ایل پی کیا ہے؟

این ایل پی (نیچرل لینگویج پروسیسنگ) کمپیوٹر کو انسانی زبان کو سمجھنے میں مدد کرتا ہے۔ یہ کمپیوٹر کو پڑھنا، سمجھنا، اور متن اور تقریر کا جواب دینا سکھانے جیسا ہے جس طرح انسان کرتے ہیں۔

NLP کیا کر سکتا ہے؟

  • گندے متن کو منظم ڈیٹا میں تبدیل کریں۔
  • سمجھیں کہ تبصرے مثبت ہیں یا منفی
  • زبانوں کے درمیان ترجمہ کریں۔
  • لمبی تحریروں کے خلاصے بنائیں
  • اور بہت کچھ!
  • NLP کے ساتھ شروع کرنا:

اچھے NLP سسٹم بنانے کے لیے، آپ کو ان کی تربیت کے لیے بہت سی مثالوں کی ضرورت ہوتی ہے – بالکل اسی طرح جیسے انسان زیادہ مشق کے ساتھ بہتر طریقے سے سیکھتا ہے۔ اچھی خبر یہ ہے کہ بہت سارے مفت وسائل ہیں جہاں آپ یہ مثالیں تلاش کرسکتے ہیں: گلے لگانے والا چہرہ, کاگل اور GitHub کے. ان پلیٹ فارمز سے ڈیٹا سیٹس تک آسانی سے رسائی حاصل کی جاسکتی ہے، جو NLP پروجیکٹ کی ترقی کو تیز کرتی ہے۔

NLP مارکیٹ کا سائز اور ترقی:

2023 تک، نیچرل لینگویج پروسیسنگ (NLP) مارکیٹ کی قیمت تقریباً 26 بلین ڈالر تھی۔ 30 سے 2023 تک تقریباً 2030% کی کمپاؤنڈ سالانہ ترقی کی شرح (CAGR) کے ساتھ اس میں نمایاں طور پر بڑھنے کی امید ہے۔ یہ ترقی صحت کی دیکھ بھال، مالیات اور کسٹمر سروس جیسی صنعتوں میں NLP ایپلی کیشنز کی بڑھتی ہوئی مانگ کی وجہ سے ہے۔

اچھے NLP ڈیٹاسیٹ کا انتخاب کیسے کریں، درج ذیل عوامل پر غور کریں:

  • مطابقت: یقینی بنائیں کہ ڈیٹاسیٹ آپ کے مخصوص کام یا ڈومین کے ساتھ موافق ہے۔
  • سائز: بڑے ڈیٹا سیٹس عام طور پر ماڈل کی کارکردگی کو بہتر بناتے ہیں، لیکن معیار کے ساتھ سائز میں توازن رکھتے ہیں۔
  • تنوع: ماڈل کی مضبوطی کو بڑھانے کے لیے مختلف زبان کے اسلوب اور سیاق و سباق کے ساتھ ڈیٹا سیٹس تلاش کریں۔
  • کوالٹی: غلطیاں پیش کرنے سے بچنے کے لیے اچھی طرح سے لیبل لگا ہوا اور درست ڈیٹا چیک کریں۔
  • رسائی: یقینی بنائیں کہ ڈیٹا سیٹ استعمال کے لیے دستیاب ہے اور کسی بھی لائسنسنگ پابندیوں پر غور کریں۔
  • پیشگی کارروائی: تعین کریں کہ آیا ڈیٹاسیٹ کو اہم صفائی یا پری پروسیسنگ کی ضرورت ہے۔
  • کمیونٹی سپورٹ: مقبول ڈیٹا سیٹس میں اکثر وسائل اور کمیونٹی سپورٹ ہوتے ہیں، جو مددگار ہو سکتے ہیں۔

ان عوامل کا جائزہ لے کر، آپ ایک ڈیٹا سیٹ منتخب کر سکتے ہیں جو آپ کے پروجیکٹ کی ضروریات کے مطابق ہو۔ NLP پروجیکٹس میں بہترین نتائج حاصل کرنے کے لیے صحیح ڈیٹاسیٹس کا انتخاب ضروری ہے، کیونکہ یہ ماڈل کی کارکردگی اور تربیت کی کارکردگی کو براہ راست متاثر کرتے ہیں۔

NLP کے لیے سرفہرست 33 اوپن ڈیٹاسیٹس ضرور دیکھیں

جنرل

  • UCI کا اسپیمبیس (لنک)

    Spambase، Hewlett-Packard Labs میں تخلیق کیا گیا، صارفین کے ذریعے اسپام ای میلز کا ایک مجموعہ رکھتا ہے، جس کا مقصد ذاتی نوعیت کا اسپام فلٹر تیار کرنا ہے۔ اس میں ای میل پیغامات سے 4600 سے زیادہ مشاہدات ہیں، جن میں سے 1820 کے قریب سپام ہیں۔

  • اینرون ڈیٹاسیٹ (لنک)

    اینرون ڈیٹا سیٹ میں گمنام 'حقیقی' ای میلز کا ایک وسیع ذخیرہ ہے جو عوام کو ان کے مشین لرننگ ماڈلز کو تربیت دینے کے لیے دستیاب ہے۔ یہ 150 سے زیادہ صارفین کی طرف سے نصف ملین سے زیادہ ای میلز کا حامل ہے، خاص طور پر اینرون کی سینئر مینجمنٹ۔ یہ ڈیٹا سیٹ ساختی اور غیر ساختہ دونوں شکلوں میں استعمال کے لیے دستیاب ہے۔ غیر ساختہ ڈیٹا کو بڑھانے کے لیے، آپ کو ڈیٹا پروسیسنگ کی تکنیکوں کا اطلاق کرنا ہوگا۔

  • تجویز کنندہ سسٹمز ڈیٹاسیٹ (لنک)

    Recommender System dataset مختلف ڈیٹا سیٹس کا ایک بہت بڑا مجموعہ ہے جس میں مختلف خصوصیات ہیں جیسے کہ،

    • مصنوعات کے جائزے
    • ستارے کی درجہ بندی
    • صحت سے باخبر رہنا
    • گانے کا ڈیٹا
    • سوشل نیٹ ورک
    • Timestamps
    • صارف/آئٹم کے تعاملات
    • GPS ڈیٹا۔
  • پین ٹری بینک (لنک)

    وال سٹریٹ جرنل کا یہ کارپس، ترتیب لیبلنگ ماڈلز کی جانچ کے لیے مشہور ہے۔

  • این ایل ٹی کے (لنک)

    یہ Python لائبریری NLP کے لیے 100 سے زیادہ کارپورا اور لغوی وسائل تک رسائی فراہم کرتی ہے۔ اس میں NLTK کتاب بھی شامل ہے، لائبریری کو استعمال کرنے کا ایک تربیتی کورس۔ NLTK میں WordNet تک رسائی شامل ہے، انگریزی کا ایک بڑا لغوی ڈیٹا بیس، جہاں اسم، فعل، صفت، اور فعل جیسے الفاظ کو مشترکہ معانی کی بنیاد پر ہم آہنگی میں گروپ کیا جاتا ہے۔ NLTK NLP تحقیق کے لیے کارپورا اور لغوی وسائل کی ایک تشریح شدہ فہرست بھی فراہم کرتا ہے۔

  • یونیورسل انحصار (لنک)

    UD 100 سے زیادہ زبانوں میں وسائل، 200 ٹری بینکس، اور 300 سے زیادہ کمیونٹی ممبران کی حمایت کے ساتھ، گرامر کی تشریح کرنے کا ایک مستقل طریقہ فراہم کرتا ہے۔

جذباتی تجزیہ ڈیٹاسیٹس

  • فلموں اور مالیات کے لیے لغت (لنک)

    احساس تجزیہ
    The Dictionaries for Movies and Finance ڈیٹاسیٹ فنانس فلنگز اور مووی ریویو میں مثبت یا منفی polarity کے لیے ڈومین کے لیے مخصوص لغات فراہم کرتا ہے۔ یہ لغات IMDb اور US Form-8 بھرنے سے تیار کی گئی ہیں۔

  • جذبہ 140 (لنک)

    Sentiment 140 میں 160,000 سے زیادہ ٹویٹس ہیں جن میں مختلف ایموٹیکنز کو 6 مختلف شعبوں میں درجہ بندی کیا گیا ہے: ٹویٹ کی تاریخ، قطبیت، متن، صارف کا نام، ID، اور استفسار۔ یہ ڈیٹا سیٹ آپ کے لیے ٹویٹر کی سرگرمی پر مبنی کسی برانڈ، پروڈکٹ، یا کسی موضوع کے جذبات کو دریافت کرنا ممکن بناتا ہے۔ چونکہ یہ ڈیٹاسیٹ خود بخود بن جاتا ہے، دوسری انسانی تشریح شدہ ٹویٹس کے برعکس، یہ مثبت جذبات اور منفی جذبات والی ٹویٹس کو ناموافق قرار دیتا ہے۔

  • ملٹی ڈومین جذباتی ڈیٹاسیٹ (لنک)

    یہ ملٹی ڈومین جذباتی ڈیٹاسیٹ مختلف مصنوعات کے لیے Amazon کے جائزوں کا ذخیرہ ہے۔ کچھ پروڈکٹ کیٹیگریز، جیسے کتابوں کے جائزے ہزاروں میں ہوتے ہیں، جبکہ دیگر کے صرف چند سو جائزے ہوتے ہیں۔ اس کے علاوہ، ستارے کی درجہ بندی والے جائزوں کو بائنری لیبلز میں تبدیل کیا جا سکتا ہے۔

  • اسٹینڈ فورڈ سینٹیمنٹ ٹری بینک (لنک)

    Rotten Tomatoes کے اس NLP ڈیٹاسیٹ میں لمبے فقرے اور مزید تفصیلی متن کی مثالیں شامل ہیں۔

  • بلاگ تصنیف کارپس (لنک)

    اس مجموعہ میں تقریباً 1.4 ملین الفاظ پر مشتمل بلاگ پوسٹس ہیں، ہر بلاگ ایک علیحدہ ڈیٹا سیٹ ہے۔

  • OpinRank ڈیٹاسیٹ (لنک)

    Edmunds اور TripAdvisor کے 300,000 جائزے، کار کے ماڈل یا سفر کی منزل اور ہوٹل کے ذریعے ترتیب دیے گئے ہیں۔

ٹیکسٹ ڈیٹا سیٹ

  • وکی QA کارپس (لنک)

    اوپن ڈومین سوال و جواب کی تحقیق میں مدد کے لیے بنایا گیا، WiKi QA کارپس عوامی طور پر دستیاب سب سے وسیع ڈیٹا سیٹس میں سے ایک ہے۔ Bing سرچ انجن کے استفسار کے لاگ سے مرتب کیا گیا، یہ سوال و جواب کے جوڑے کے ساتھ آتا ہے۔ اس میں 3000 سے زیادہ سوالات اور 1500 لیبل والے جوابی جملے ہیں۔

  • قانونی کیس رپورٹس ڈیٹاسیٹ (لنک)

    لیگل کیس رپورٹس ڈیٹاسیٹ میں 4000 قانونی مقدمات کا مجموعہ ہے اور اسے خودکار متن کے خلاصے اور حوالہ جات کے تجزیہ کی تربیت کے لیے استعمال کیا جا سکتا ہے۔ ہر دستاویز، کیچ فریسز، اقتباس کی کلاسز، اقتباس کیچ فریسز، اور بہت کچھ استعمال کیا جاتا ہے۔

  • خطرے (لنک)

    Jeopardy ڈیٹاسیٹ 200,000 سے زیادہ سوالات کا مجموعہ ہے جو ایک Reddit صارف کے ذریعہ لائے گئے مشہور کوئز ٹی وی شو میں شامل ہیں۔ ہر ڈیٹا پوائنٹ کو اس کی نشر ہونے والی تاریخ، قسط نمبر، قدر، راؤنڈ، اور سوال/جواب کے لحاظ سے درجہ بندی کیا جاتا ہے۔

  • 20 نیوز گروپس (لنک)

    20,000 دستاویزات کے مجموعے میں 20 نیوز گروپس اور مضامین شامل ہیں، جن میں مذہب سے لے کر مشہور کھیلوں تک کے موضوعات کی تفصیل ہے۔

  • رائٹرز نیوز ڈیٹاسیٹ (لنک)

    1987 میں پہلی بار ظاہر ہونے والے، اس ڈیٹاسیٹ کو مشین لرننگ کے مقاصد کے لیے لیبل، انڈیکس، اور مرتب کیا گیا ہے۔

  • ArXiv (لنک)

    اس 270 جی بی ڈیٹاسیٹ میں تمام arXiv تحقیقی مقالوں کا مکمل متن شامل ہے۔

  • یورپی پارلیمنٹ کی کارروائی متوازی کارپس (لنک)

    پارلیمنٹ کی کارروائی کے جملوں کے جوڑے میں 21 یورپی زبانوں کے اندراجات شامل ہیں، جن میں مشین لرننگ کارپورا کے لیے کچھ کم عام زبانیں شامل ہیں۔

  • بلین ورڈ بینچ مارک (لنک)

    WMT 2011 News Crawl سے ماخوذ، یہ لینگویج ماڈلنگ ڈیٹاسیٹ جدید زبان کی ماڈلنگ تکنیکوں کی جانچ کے لیے تقریباً ایک ارب الفاظ پر مشتمل ہے۔

آڈیو اسپیچ ڈیٹاسیٹس

  • سپوکن ویکیپیڈیا کارپورا (لنک)

    آڈیو تقریر یہ ڈیٹا سیٹ ہر اس شخص کے لیے بہترین ہے جو انگریزی زبان سے آگے بڑھنا چاہتے ہیں۔ اس ڈیٹاسیٹ میں ڈچ اور جرمن اور انگریزی میں بولے جانے والے مضامین کا مجموعہ ہے۔ اس میں متنوع موضوعات اور اسپیکر سیٹ ہیں جو سینکڑوں گھنٹوں میں چلتے ہیں۔

  • 2000 HUB5 انگریزی (لنک)

    2000 HUB5 انگریزی ڈیٹاسیٹ میں انگریزی زبان میں 40 ٹیلی فون گفتگو کی نقلیں ہیں۔ ڈیٹا نیشنل انسٹی ٹیوٹ آف اسٹینڈرڈز اینڈ ٹیکنالوجی کی طرف سے فراہم کیا گیا ہے، اور اس کی بنیادی توجہ بات چیت کی تقریر کو پہچاننا اور تقریر کو متن میں تبدیل کرنا ہے۔

  • LibriSpeech (لنک)

    LibriSpeech ڈیٹاسیٹ تقریباً 1000 گھنٹے کی انگریزی تقریر کا ایک مجموعہ ہے جسے آڈیو کتابوں کے ابواب میں موضوعات کے لحاظ سے مناسب طریقے سے تقسیم کیا گیا ہے، جو اسے قدرتی زبان کی کارروائی کے لیے ایک بہترین ٹول بناتا ہے۔

  • مفت اسپاکن ڈیجیٹ ڈیٹاسیٹ (لنک)

    اس NLP ڈیٹاسیٹ میں انگریزی میں بولے جانے والے ہندسوں کی 1,500 سے زیادہ ریکارڈنگز شامل ہیں۔

  • M-AI لیبز اسپیچ ڈیٹاسیٹ (لنک)

    ڈیٹاسیٹ تقریباً 1,000 گھنٹے کی آڈیو نقل کے ساتھ پیش کرتا ہے، جس میں متعدد زبانیں شامل ہیں اور مرد، خواتین اور مخلوط آوازوں کے لحاظ سے درجہ بندی کی گئی ہیں۔

  • شور والی تقریر کا ڈیٹا بیس (لنک)

    اس ڈیٹاسیٹ میں متوازی شور اور صاف تقریر کی ریکارڈنگ شامل ہے، جس کا مقصد تقریر کو بڑھانے والے سافٹ ویئر کی ترقی کے لیے ہے لیکن مشکل حالات میں تقریر کی تربیت کے لیے بھی فائدہ مند ہے۔

ڈیٹاسیٹس کا جائزہ

  • Yelp جائزہ (لنک)

    Yelp ڈیٹاسیٹ میں 8.5 پلس کاروباروں، ان کے جائزوں، اور صارف کے ڈیٹا کے تقریباً 160,000 ملین جائزوں کا ایک وسیع ذخیرہ ہے۔ تجزیوں کا استعمال آپ کے ماڈلز کو جذباتی تجزیہ پر تربیت دینے کے لیے کیا جا سکتا ہے۔ اس کے علاوہ، اس ڈیٹاسیٹ میں 200,000 سے زیادہ تصاویر ہیں جو آٹھ میٹروپولیٹن مقامات کا احاطہ کرتی ہیں۔

  • آئی ایم ڈی بی جائزہ (لنک)

    آئی ایم ڈی بی کے جائزے 50 ہزار سے زیادہ فلموں کے لیے کاسٹ کی معلومات، درجہ بندی، تفصیل اور صنف پر مشتمل سب سے مشہور ڈیٹا سیٹس میں سے ہیں۔ یہ ڈیٹا سیٹ آپ کے مشین لرننگ ماڈلز کو جانچنے اور تربیت دینے کے لیے استعمال کیا جا سکتا ہے۔

  • ایمیزون کے جائزے اور درجہ بندی کا ڈیٹا سیٹ (لنک)

    ایمیزون کا جائزہ اور درجہ بندی کے ڈیٹاسیٹ میں 1996 سے 2014 تک ایمیزون سے جمع کیے گئے میٹا ڈیٹا اور مختلف پروڈکٹس کے جائزوں کا ایک قیمتی ذخیرہ شامل ہے - تقریباً 142.8 ملین ریکارڈ۔ میٹا ڈیٹا میں قیمت، پروڈکٹ کی تفصیل، برانڈ، زمرہ، اور بہت کچھ شامل ہے، جب کہ جائزوں میں متن کا معیار، متن کی افادیت، درجہ بندی، اور بہت کچھ ہوتا ہے۔

سوال و جواب کے ڈیٹاسیٹس

  • سٹینفورڈ سوال و جواب کا ڈیٹاسیٹ (SQuAD) (لنک)

    اس ریڈنگ کمپری ہینشن ڈیٹاسیٹ میں 100,000 قابل جواب سوالات اور 50,000 ناقابل جواب سوالات ہیں، یہ سب ویکیپیڈیا کے کراؤڈ ورکرز کے ذریعہ تخلیق کیے گئے ہیں۔

  • قدرتی سوالات (لنک)

    اس تربیتی سیٹ میں 300,000 سے زیادہ تربیتی مثالیں، 7,800 ترقی کی مثالیں، اور 7,800 ٹیسٹ کی مثالیں ہیں، ہر ایک گوگل کے سوال اور ایک مماثل ویکیپیڈیا صفحہ کے ساتھ۔

  • ٹریویا کیو اے (لنک)

    اس چیلنجنگ سوال سیٹ میں 950,000 QA جوڑے ہیں، جن میں انسانی تصدیق شدہ اور مشین سے تیار کردہ سب سیٹ شامل ہیں۔

  • CLEVR (تشکیلاتی زبان اور ابتدائی بصری استدلال) (لنک)

    اس بصری سوال کا جواب دینے والے ڈیٹا سیٹ میں 3D پیش کردہ اشیاء اور بصری منظر کے بارے میں تفصیلات کے ساتھ ہزاروں سوالات شامل ہیں۔

تو، آپ نے اپنے مشین لرننگ ماڈل کو تربیت دینے کے لیے کس ڈیٹاسیٹ کا انتخاب کیا ہے؟

جیسے ہی ہم جائیں گے، ہم آپ کو ایک کے ساتھ چھوڑ دیں گے۔ پرو ٹپ.

اپنی ضروریات کے لیے NLP ڈیٹاسیٹ لینے سے پہلے README فائل کو اچھی طرح سے دیکھنا یقینی بنائیں۔ ڈیٹاسیٹ میں وہ تمام ضروری معلومات شامل ہوں گی جن کی آپ کو ضرورت ہو سکتی ہے، جیسے ڈیٹاسیٹ کا مواد، مختلف پیرامیٹرز جن پر ڈیٹا کی درجہ بندی کی گئی ہے، اور ڈیٹاسیٹ کے ممکنہ استعمال کے معاملات۔

آپ کے بنائے ہوئے ماڈلز سے قطع نظر، ہماری مشینوں کو ہماری زندگیوں کے ساتھ زیادہ قریب سے اور اندرونی طور پر مربوط کرنے کا ایک دلچسپ امکان ہے۔ NLP کے ساتھ، کاروبار، فلموں، تقریر کی شناخت، فنانس، اور بہت کچھ کے امکانات کئی گنا بڑھ گئے ہیں۔

سماجی دیں