اے آئی/ایم ایل ماڈلز کے ساتھ شروع کرنے کے لیے اوپن سورس ڈیٹاسیٹس۔
آپ کے AI & ML ماڈلز کی پیداوار صرف اتنا ہی اچھا ہے جتنا آپ اس کی تربیت کے ل use استعمال کرتے ہیں - لہذا اس بات کا درست ہونا کہ آپ ڈیٹا کی جمع اور اس ڈیٹا کی ٹیگنگ اور شناخت پر لاگو ہوتے ہیں!
لہذا اگر آپ نیا AI / ML اقدام شروع کرنا چاہتے ہیں اور اب آپ کو تیزی سے یہ احساس ہو گیا ہے کہ اعلی معیار کے تربیتی اعداد و شمار کا پتہ لگانا آپ کے منصوبے کا ایک زیادہ مشکل پہلو ہوگا کیوں کہ اعلی معیار کے ڈیٹاسیٹ وہ ایندھن ہیں جو AI / برقرار رکھتا ہے ایم ایل انجن چل رہا ہے۔ ہم نے کھلی ڈیٹاسیٹس کی ایک فہرست جمع کی ہے جو مستقبل کے آپ کے AI / ML ماڈلز کے استعمال اور تربیت کے لئے آزاد ہیں۔
| پراوینی | ڈیٹا کی قسم | ڈیٹاسیٹ کا نام | صنعت / محکمہ | تشریح / استعمال کیس | لنک |
|---|---|---|---|---|---|
| +ینیلپی | متن | ایمیزون جائزہ | ای کامرس | احساس تجزیہ | لنک |
| تفصیل | صارف اور مصنوعات کی تفصیلات کے ساتھ سادہ متن میں گذشتہ 35 سالوں سے 18 ملین جائزوں اور درجہ بندیوں کا ایک سیٹ۔ | ||||
| +ینیلپی | متن | ویکیپیڈیا روابط ڈیٹا | جنرل | لنک | |
| تفصیل | 4 ملین سے زیادہ 1.9 بلین پر مشتمل مضامین۔ ویکیپیڈیا کے الفاظ ہر مضمون میں متعلقہ ادارے کے لیے ہائپر لنکس ہوتے ہیں۔ | ||||
| +ینیلپی | متن | اسٹینڈ فورڈ سینٹمنٹ ٹری بینک | تفریح | احساس تجزیہ | لنک |
| تفصیل | Rotten Tomatoes فلم کے 10,000 سے زیادہ ریویو جملوں کے لیے جذباتی تشریحات کا ڈیٹاسیٹ۔ فقرے کی سطح پر دستیاب ہے - ہر جملہ کو Penn Treebank فارمیٹ میں پارس ٹریز کو بائنرائز کرکے ذیلی فقروں میں پارس کیا جاتا ہے۔ | ||||
| +ینیلپی | متن | ٹویٹر یو ایس ایئر لائن سینٹینٹ | ایر لائن | احساس تجزیہ | لنک |
| تفصیل | یو ایس ایئر لائنز پر 2015 کے ٹویٹس مثبت، غیر جانبدار اور منفی جذبات میں بٹ گئے۔ | ||||
| +CV | تصویر | امیجنیٹ | جنرل | لنک | |
| تفصیل | 14 ملین سے زیادہ کے ساتھ ڈیٹا سیٹ۔ مختلف فائل فارمیٹس میں تصاویر کو تقریباً 21,000 synsets میں میپ کیا گیا ہے۔ Synsets ایک تصویر کے طور پر موجود متعلقہ اداروں کے مترادفات ہیں۔ 1 Mn تصاویر میں باؤنڈنگ بکس اور 1 Mn سے زیادہ ہیں۔ تصاویر میں SIFT خصوصیات ہیں۔ | ||||
| +CV | تصویر | گوگل کی اوپن امیجز | جنرل | لنک | |
| تفصیل | 600 زمروں کے ساتھ امیج نیٹ سے ملتا جلتا ڈیٹا سیٹ۔ ترقی، توثیق اور تربیتی تقسیم میں دستیاب ہے۔ کچھ تصاویر میں باؤنڈنگ بکس اور بصری تعلقات بھی شامل ہیں۔ | ||||
| +ینیلپی | متن | کارنیل مووی ڈائیلاگز | تفریح | ڈائیلاگ | لنک |
| تفصیل | کرداروں اور فلموں کے میٹا ڈیٹا کے ساتھ خیالی گفتگو کا مجموعہ۔ ہر قطار دو لوگوں کے درمیان ایک ڈائیلاگ ہے، سوال جواب کی شکل میں۔ | ||||
| تفصیل | اپریل 2007 اور اکتوبر 2007 کے درمیان Yahoo Answers پورٹل سے سوالات اور جوابات کے ساتھ ایک سوال جواب ڈیٹا سیٹ۔ | ||||
| +ینیلپی | متن | ایم ایس مارکو | جنرل | سوال جواب | لنک |
| تفصیل | Bing کے ویب سرچ لاگز سے تشریحات کے ساتھ ایک سوال جواب ڈیٹا سیٹ۔ ہر سوال میں صارف کی طرف سے فراہم کردہ جواب کے ساتھ ساتھ ویب حصئوں پر مشتمل ہوتا ہے جس میں جواب ہوتا ہے۔ | ||||
| +ینیلپی | متن | قدرتی سوالات کا ڈیٹا سیٹ | جنرل | سوال جواب | لنک |
| تفصیل | گوگل کے ذریعہ جاری کردہ، اس ڈیٹاسیٹ میں وکی پیڈیا کے مضامین کے حقیقی صارف کے سوالات اور جوابات شامل ہیں۔ | ||||
| +ینیلپی | متن | ڈی بی پیڈیا | جنرل | نالج گراف۔ | لنک |
| تفصیل | ویکیپیڈیا کی ایک ساختی رینڈرنگ، جس میں اداروں اور تعلقات کو علمی گراف کے طور پر نکالا گیا ہے۔ | ||||
| +ینیلپی | متن | YAGO | جنرل | نالج گراف۔ | لنک |
| تفصیل | Wikipedia، WordNet، اور GeoNames سے اداروں اور تعلقات پر مشتمل ایک علمی گراف۔ | ||||
| +ینیلپی | متن | فری بیس | جنرل | نالج گراف۔ | لنک |
| تفصیل | ہجوم سے حاصل کردہ نالج بیس جس میں اداروں اور رشتوں پر مشتمل ہے، جو اب گوگل نالج گراف میں شامل ہے۔ | ||||
| +ینیلپی | متن | آنٹونوٹس | جنرل | سیمنٹک رول لیبلنگ | لنک |
| تفصیل | نحوی، معنوی، اور گفتگو کی سطح کی تشریحات کے ساتھ ایک کارپس جو CoNLL مشترکہ کاموں میں استعمال ہوتا ہے۔ | ||||
| تفصیل | ایک انگلش ڈیٹاسیٹ جو نامزد اداروں جیسے کہ شخص، تنظیم اور مقام کے لیے تشریح شدہ ہے۔ | ||||
| +CV | تصویر | COCO | جنرل | آبجیکٹ کا پتہ لگانا | لنک |
| تفصیل | سیاق و سباق میں مشترکہ آبجیکٹ: آبجیکٹ کا پتہ لگانے، سیگمنٹیشن، اور کیپشننگ کے لیے ایک بھرپور تشریح شدہ ڈیٹاسیٹ۔ | ||||
| +CV | تصویر | پاسکل VOC | جنرل | آبجیکٹ کا پتہ لگانا | لنک |
| تفصیل | آبجیکٹ کا پتہ لگانے اور تقسیم کرنے کے چیلنجوں کے لیے ایک بینچ مارک ڈیٹاسیٹ۔ | ||||
| +CV | تصویر | شہر کے مناظر | خود مختار ڈرائیونگ | سیمنٹ سیگمنٹیشن | لنک |
| تفصیل | 30 کلاسوں کے لیے پکسل سطح کی تشریحات کے ساتھ شہری منظر کو سمجھنے کے لیے ڈیٹا سیٹ۔ | ||||
| +CV | تصویر | MNIST | جنرل | ہندسوں کی درجہ بندی | لنک |
| تفصیل | 60,000 ٹریننگ اور 28x28 پکسلز کی 10,000 ٹیسٹ امیجز کے ساتھ ہاتھ سے لکھا ہندسوں کا ڈیٹاسیٹ۔ | ||||
| +CV | تصویر | فیشن-MNIST | پرچون | تصویری درجہ بندی | لنک |
| تفصیل | Zalando کے آرٹیکل امیجز کا ڈیٹا سیٹ MNIST کی شکل میں، بینچ مارکنگ کے لیے ڈراپ ان متبادل کے طور پر استعمال ہوتا ہے۔ | ||||
| +ینیلپی | آڈیو | LibriSpeech | جنرل | عصر | لنک |
| تفصیل | آڈیو بکس سے اخذ کردہ انگریزی تقریر کا ایک مجموعہ، جس میں 1000 گھنٹے کی تقریر اور متعلقہ متن شامل ہیں۔ | ||||
| +ینیلپی | آڈیو | TED-LIUM | جنرل | عصر | لنک |
| تفصیل | اسپیچ ریکگنیشن ریسرچ کے لیے آڈیو اور منسلک ٹرانسکرپشنز کے ساتھ ٹرانسکرائب شدہ TED بات چیت کرتا ہے۔ | ||||
| +ینیلپی | آڈیو | TIMIT | جنرل | فونیم کی شناخت | لنک |
| تفصیل | امریکی انگریزی بولنے والوں کی صوتی طور پر نقل کی گئی تقریر، بڑے پیمانے پر فونیم کی شناخت کے کاموں کے لیے استعمال ہوتی ہے۔ | ||||
| +ینیلپی | آڈیو | مشترکہ آواز | جنرل | عصر | لنک |
| تفصیل | دنیا بھر کے رضاکاروں کے ذریعہ پڑھی جانے والی تقریر کا ایک کثیر لسانی کارپس۔ | ||||
| +ینیلپی | آڈیو | ووکس سیلیب | جنرل | اسپیکر کی پہچان | لنک |
| تفصیل | YouTube ویڈیوز سے جمع کردہ ایک بڑے پیمانے پر اسپیکر کی شناخت کا ڈیٹاسیٹ۔ | ||||
| +ینیلپی | متن | ویکیپیڈیا ڈمپ | جنرل | زبان کی ماڈلنگ | لنک |
| تفصیل | ویکیپیڈیا کے مضامین کے مکمل ٹیکسٹ ڈمپ، باقاعدگی سے اپ ڈیٹ کیے جاتے ہیں، جو زبان کے نمونوں کی تربیت کے لیے استعمال ہوتے ہیں۔ | ||||
| +ینیلپی | متن | گیگا ورڈ | خبریں | زبان کی ماڈلنگ | لنک |
| تفصیل | متعدد نیوز ایجنسیوں کے نیوز وائر ٹیکسٹ ڈیٹا کا ایک جامع ذخیرہ۔ | ||||
| +ینیلپی | متن | آئی ایم ڈی بی جائزہ | تفریح | احساس تجزیہ | لنک |
| تفصیل | بائنری جذبات کی درجہ بندی کے لیے بڑی مووی ریویو ڈیٹاسیٹ۔ | ||||
| +CV | ویڈیو | کائنےٹکس -700 | جنرل | ایکشن کی پہچان | لنک |
| تفصیل | YouTube ویڈیو کلپس کا ایک بڑے پیمانے پر، اعلیٰ معیار کا ڈیٹاسیٹ جس میں 700 انسانی ایکشن کلاسز شامل ہیں۔ | ||||
| +CV | ویڈیو | یو سی ایف 101 | جنرل | ایکشن کی پہچان | لنک |
| تفصیل | 101 ایکشن کیٹیگریز کے ساتھ حقیقت پسندانہ ایکشن ویڈیوز کا ڈیٹا سیٹ۔ | ||||
| +CV | ویڈیو | HMDB51 | جنرل | ایکشن کی پہچان | لنک |
| تفصیل | 51 ایکشن کیٹیگریز کے ساتھ ایک بڑا ہیومن موشن ویڈیو ڈیٹا بیس۔ | ||||
| تفصیل | چہرے کی تصویروں کا ڈیٹابیس غیر محدود چہرے کی شناخت کے مطالعہ کے لیے ڈیزائن کیا گیا ہے۔ | ||||
| +CV | تصویر | CASIA-ویب فیس | جنرل | چہرے کی شناخت | لنک |
| تفصیل | چہرے کی شناخت کے گہرے ماڈلز کی تربیت کے لیے لاکھوں چہرے کی تصاویر والا ڈیٹا سیٹ۔ | ||||
| +ینیلپی | متن | دستہ | جنرل | پڑھنے کی توسیع | لنک |
| تفصیل | Stanford Question Answering Dataset: ویکیپیڈیا کے مضامین کے ایک سیٹ پر ہجوم کے کارکنوں کے سوالات۔ | ||||
| تفصیل | CNN نیوز آرٹیکلز پر مبنی سوالات اور جوابات کے ساتھ مشین فہمی ڈیٹاسیٹ۔ | ||||
| +ینیلپی | متن | ملٹی این ایل آئی | جنرل | قدرتی زبان کا اندازہ | لنک |
| تفصیل | متعدد انواع میں جملے کے جوڑے کے قدرتی زبان کے تخمینے کے لیے ڈیٹا سیٹ۔ | ||||
| +ینیلپی | متن | ایس این ایل آئی | جنرل | قدرتی زبان کا اندازہ | لنک |
| تفصیل | اسٹینفورڈ نیچرل لینگویج انفرنس کارپس جس میں جملے کے جوڑے شامل ہیں جن کا لیبل لگا ہوا ہے، تضاد، یا غیر جانبدار۔ | ||||
| تفصیل | ویکیپیڈیا پر تصدیق شدہ اچھے اور نمایاں مضامین کے سیٹ سے نکالے گئے 100 ملین سے زیادہ ٹوکنز کا مجموعہ۔ | ||||
| تفصیل | کاروں کی 196 کلاسوں کی 16,185 تصاویر کا ڈیٹاسیٹ۔ | ||||
| +CV | تصویر | آکسفورڈ فلاورز 102 | نباتیات | عمدہ درجہ بندی | لنک |
| تفصیل | 102 پھولوں کے زمرے جو عام طور پر برطانیہ میں پائے جاتے ہیں۔ | ||||
| +CV | تصویر | CIFAR-10 | جنرل | تصویری درجہ بندی | لنک |
| تفصیل | 10 کلاسز کی تصاویر: ہوائی جہاز، آٹوموبائل، پرندہ، بلی، ہرن، کتا، مینڈک، گھوڑا، جہاز، اور ٹرک۔ | ||||
| +CV | تصویر | CIFAR-100 | جنرل | تصویری درجہ بندی | لنک |
| تفصیل | CIFAR-10 جیسا ڈیٹا سیٹ، لیکن 100 عمدہ کلاسوں کے ساتھ۔ | ||||
| +CV | تصویر | VOC پرسن لے آؤٹ | جنرل | پوز کا تخمینہ | لنک |
| تفصیل | PASCAL VOC کا ایک حصہ جو شخصی ترتیب کے تشریحات جیسے کہ سر، ہاتھ اور پاؤں پر فوکس کرتا ہے۔ | ||||
| +CV | تصویر | MPII انسانی پوز | جنرل | پوز کا تخمینہ | لنک |
| تفصیل | تقریباً 25,000 تصاویر جن میں 40,000 سے زیادہ لوگ شامل ہیں جن کے جسم کے جوڑوں کی تشریح کی گئی ہے۔ | ||||
| تفصیل | متن کی درجہ بندی کی تحقیق کے لیے رائٹرز نیوز وائر کے مضامین کا مجموعہ۔ | ||||
| +ینیلپی | متن | 20 نیوز گروپس | جنرل | متن کی درجہ بندی | لنک |
| تفصیل | 20،000 نیوز گروپ دستاویزات کا مجموعہ 20 مختلف نیوز گروپس میں تقسیم۔ | ||||