أداة “OpenBookQA”: اختبار الذكاء العلمي لمستوى التعليم الإعدادي

بالعربية

سنة واحدة ago

أُطلق في عام 2018 نظام OpenBookQA، وهو إطار ومجموعة بيانات صُممت لتقييم قدرة النماذج على استدراك الحقائق العلمية من “كتاب مفتوح” مكون من 1,326 حقيقة أساسية، ومن ثم الربط بينها وبين معرفات عامة لتفسير وتوليد الإجابات، بعيدا عن تذكر نصوص ثابتة.

ما هو OpenBookQA؟

يتضمن حوالي 6,000 سؤال متعدد الخيارات، مُصاغ لمستوى التعليم الإعدادي والعلمي المبكر (aclanthology.org).
“الكتاب المفتوح” (F) عبارة عن مجموعة حقائق علمية أساسية، بينما تُطلب الإجابة باستخدامها جنبا إلى جنب مع معرفة عامة خارجية .
يتطلب الأمر تنفيذ reasoning متعدد الخطوات (multi‑hop): أولا استرجاع الحقيقة المناسبة، ثم الربط بها بفهم عام لبلورة الإجابة.

المميزات الأساسية

استدلال علمي متداخل (core fact + common knowledge)
يجمع بين الحقائق العلمية والوعي العام، مثل مثال: “هل الدرع المعدني يُوصل الكهرباء؟”.
تحدي بعيد عن الحفظ
يضع النموذج أمام مقاربة متقدمة تتطلب التفكير والمنطق، وليس مجرد استخدام تقنيات استرجاع نصوص.
أداء ضعيف للنماذج المدربة مسبقا
بالرغم من الاستثمار الضخم في NLP، فقد حققت النماذج أقل من 50%، في مقابل أداء بشري تفوق الـ 92% .
متوفرة كبيانات مفتوحة ومحمّلة على GitHub
تشمل التعليمات البرمجية والنماذج الأساسية، تحت ترخيص Apache-2.0 (github.com).
قاعدة تدريب أساسية لتقييم قدرات الاستدلال
استُخدمت كمعيار في أطر مثل Hugging Face وlm-evaluation-harness لاختبار النماذج على التفكير المنطقي.

الأهمية البحثية والتطبيقية

مقياس صلب لفحص قدرات النماذج في ربط الحقائق بالمفاهيم العامة.
استخدام أكاديمي واسع: dataset معتمد في دراسات تحليل التفكير المنطقي والنموذج GPT-like وغيرها .
تطوير تقنيات multi-hop reasoning المتقدمة وتقييم الأساليب لتحسين الفهم العميق للنصوص العلمية.

رابط التنزيل والاطلاع على OpenBookQA (GitHub & بيانات EMNLP):
(github.com)

المرجع:

Mihaylov, T., Clark, P., Khot, T., & Sabharwal, A. (2018). Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018 (aclanthology.org, github.com).