تصنيف أقسام الكلام في معالجة اللغات الطبيعية: نحو فهم أعمق للغموض اللغوي

بالعربية12 نوفمبر 2022آخر تحديث: 27 سبتمبر 2025

0 113 دقيقة واحدة

يُعدّ تصنيف أقسام الكلام (Part-of-Speech Tagging – POS Tagging)، من الركائز الأساسية في معالجة اللغات الطبيعية (NLP)، إذ يهدف إلى إسناد كل كلمة في النص إلى فئتها النحوية المناسبة، مثل: فعل (يأكل)، اسم (مدرسة)، صفة (جميل)، وذلك استنادا إلى تعريف الكلمة وسياقها داخل الجملة.

في الماضي، كان هذا العمل يتم يدويا عبر اللغويين، لكنه اليوم يعتمد بشكل كبير على الخوارزميات الحاسوبية التي تستند إما إلى القواعد النحوية أو إلى النماذج الإحصائية المبنية على بيانات ضخمة.

صعوبة التصنيف اللغوي:

رغم أن التصنيف يبدو بسيطا، إلا أنه معقد للغاية بسبب الغموض الدلالي. على سبيل المثال:

كلمة ذهب قد تعني الفعل “غادر” أو المعدن النفيس.
كلمة لعب قد تكون فعلا ماضيا (“لعب الفتى”) أو مصدرا (“توقفوا عن لعب الكرة”).

بالنسبة للإنسان، تحديد المعنى يتم عبر السياق بسهولة، لكن بالنسبة للحاسوب الأمر يتطلب تقنيات متقدمة مثل نماذج السياق (Contextual Models) أو الشبكات العصبية الحديثة.

أنظمة العلامات (Tagsets):

تختلف أنظمة العلامات بحسب اللغة، لكن في العموم هناك تسع فئات أساسية شائعة:

الاسم (Noun)
الفعل (Verb)
الصفة (Adjective)
الظرف (Adverb)
الضمير (Pronoun)
حرف الجر (Preposition)
أداة (Article/Determiner)
الاقتران (Conjunction)
التداخل أو الانفعال (Interjection)

لكن بعض الأنظمة توسّع هذه الفئات إلى عشرات أو مئات العلامات الدقيقة، مع تحديد المفرد والجمع، الأزمنة، الجنس، وأسماء الأعلام.

أشهر مجموعات العلامات عالميا:

Penn Treebank: الأكثر استخداما في الإنجليزية الأمريكية، حيث يشمل علامات مثل NN (اسم مفرد)، NNS (اسم جمع)، NP (اسم علم).
Brown Corpus وLOB Corpus: أقدم مجموعات نصية اعتمدت لتطوير العلامات.
EAGLES Guidelines: معايير أوروبية متعددة اللغات لتوحيد العلامات.
Stanford POS Tagger: من أكثر الأنظمة شهرة في اللغة العربية والإنجليزية، مع توسعات تدعم لغات أخرى.
Universal POS Tags (اقترحها Petrov وزملاؤه): تضم 12 فئة عامة لتسهيل العمل عبر لغات متعددة، حتى وإن قلّصت بعض الفروقات الدقيقة.

تطبيقات تصنيف أقسام الكلام:

يلعب POS Tagging دورا محوريا في العديد من تطبيقات NLP والذكاء الاصطناعي:

الترجمة الآلية: لفهم البنية النحوية قبل توليد النص بلغة أخرى.
التعرف على الكيانات (NER): مثل أسماء الأشخاص أو الأماكن.
تحليل المشاعر: حيث تختلف الدلالات باختلاف نوع الكلمة.
أنظمة المحادثة (Chatbots): لفهم قصد المستخدم عبر تحليل الكلمات وظيفيا.

التحديات المستقبلية:

رغم التطور الهائل، يظل الغموض السياقي في اللغات الطبيعية – وخاصة الغنية بالتصريف مثل العربية – أحد أكبر التحديات. لكن مع صعود نماذج التعلم العميق (Deep Learning) مثل BERT وGPT، أصبح بالإمكان تحقيق دقة عالية في التصنيف تتجاوز ما كان متاحا بالأساليب التقليدية.