نماذج الإجابة على الأسئلة المستندة إلى “SQuAD”
معيار ستانفورد لتقييم فهم اللغة الطبيعية
في عام 2016، قدّم باحثو جامعة ستانفورد، بقيادة برناف راجبوركار وآخرين، مجموعة بيانات جديدة تُعرف باسم “مجموعة بيانات ستانفورد للإجابة على الأسئلة” (Stanford Question Answering Dataset – SQuAD).
تتألف هذه المجموعة من أكثر من 100,000 سؤال تم إنشاؤها بواسطة مجموعة من العاملين عبر الإنترنت، استنادا إلى مقالات من موسوعة ويكيبيديا.
تهدف SQuAD إلى تقييم قدرة النماذج الحاسوبية على فهم النصوص والإجابة على الأسئلة المتعلقة بها، حيث يُطلب من النماذج استخراج إجابات دقيقة من مقاطع النصوص المعطاة.(Scribd)
تُعد SQuAD واحدة من أبرز مجموعات البيانات في مجال فهم اللغة الطبيعية، وقد أصبحت معيارا لتقييم أداء نماذج معالجة اللغة الطبيعية، مثل RoBERTa وALBERT، في مهام الإجابة على الأسئلة. ساهمت هذه المجموعة في دفع الأبحاث قدما في مجال الذكاء الاصطناعي، خاصة في تطوير نماذج أكثر دقة وفعالية في فهم اللغة البشرية.
1. هيكلية مجموعة بيانات SQuAD
تتكون SQuAD من مقالات مختارة من ويكيبيديا، حيث تم اختيار فقرات محددة من هذه المقالات. ثم طُلب من العاملين عبر الإنترنت إنشاء أسئلة تتعلق بهذه الفقرات، مع تحديد الإجابات كنصوص مقتبسة مباشرة من الفقرة المعنية. يُعرف هذا النوع من المهام باسم “الإجابة الاستخراجية”، حيث تكون الإجابة جزءا من النص الأصلي.
2. تقييم أداء النماذج باستخدام SQuAD
تُستخدم SQuAD لتقييم أداء نماذج معالجة اللغة الطبيعية في مهام فهم النصوص. يتم ذلك من خلال قياس مدى قدرة النموذج على تحديد الإجابة الصحيحة من النص المعطى. تُستخدم مقاييس مثل “المطابقة التامة” (Exact Match) و”درجة F1″ لتقييم الأداء.
في الدراسة الأصلية، حقق النموذج الأساسي درجة F1 بلغت 51.0%، بينما بلغ أداء البشر 86.8%، مما يشير إلى الفجوة الكبيرة بين أداء النماذج الحاسوبية والبشر في فهم النصوص.(arXiv)
3. تأثير SQuAD على تطوير النماذج الحديثة
أدت SQuAD إلى تطوير نماذج متقدمة في مجال فهم اللغة الطبيعية. على سبيل المثال، تم استخدام SQuAD لتدريب وتقييم نماذج مثل RoBERTa وALBERT، التي أظهرت أداء متفوقا في مهام الإجابة على الأسئلة. كما ساهمت SQuAD في تطوير تقنيات جديدة في مجال التعلم العميق، مثل استخدام الشبكات العصبية التلافيفية والانتباه الذاتي.
التطبيقات البحثية:
تُستخدم SQuAD في مجموعة واسعة من التطبيقات البحثية، منها:
- تقييم نماذج فهم اللغة الطبيعية: تُعد SQuAD معيارا لتقييم أداء النماذج في مهام فهم النصوص.
- تطوير نماذج جديدة: تُستخدم SQuAD كبيئة تدريب لاختبار وتطوير نماذج جديدة في مجال معالجة اللغة الطبيعية.
- تحليل أداء النماذج: تُستخدم SQuAD لتحليل نقاط القوة والضعف في النماذج المختلفة، مما يساعد في تحسينها.
للوصول إلى مجموعة بيانات SQuAD عبر الرابط التالي:
المرجع العلمي:
Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (pp. 2383–2392). Association for Computational Linguistics. https://aclanthology.org/D16-1264/(ACL Anthology)