تحليل النص
تحليل النص مجموعة من التقنيات اللغوية والإحصائية وتقنيات تعليم الآلة التي تسهم في استخراج المحتوى المعلوماتي الموجود في المصادر النصية والمستخدم في مجالات مثل الذكاء التجاري (استخبارات الأعمال) ذكاء الأعمال، التحليل الاسترشادي للبيانات Exploratory data analysis ، أو الأبحاث والدراسات.
هذا المصطلح يقابل تقريبا مصطلح استخراج النصوص تنقيب في النصوص. البروفسور رونن فيلدمان قام بتعديل ألفي وصف لمصطلح «استخراج النصوص» في 2004 ليصف مصطلح «تحليل النص». ويشيع الآن استخدام مصطلح «تحليل النص» في ضبط الأعمال التجارية،
في حين يستخدم مصطلح «استخراج النصوص» في بعض مجالات التطبيقات المبكرة التي يرجع تاريخها إلى الثمانينيات من القرن الميلادي الماضي ولا سيما أبحاث علوم الحياة والاستخبارات الحكومية.
يشمل تحليل النص استرجاع المعلومات، التحليل المعجمي لدراسة شيوع الكلمات، التعرف على الأنماط اللغوية، الترميز اللغوي، استخراج المعلومات، تقنيات التنقيب عن البيانات متضمنا تحليل الروابط والصلات، التصور، والتحليلات التنبؤية.
والهدف الأساس من هذه العمليات هو تحويل النصوص إلى بيانات قابلة للتحليل عن طريق تطبيقات معالجة اللغة الطبيعية والأساليب التحليلية. كذلك يصف هذا المصطلح تلك التطبيقات الخاصة بتحليل النص، سواء بشكل مستقل أو بالاشتراك مع الاستعلام وتحليل البيانات.
التطبيق النموذجي يكون بمسح مجموعة من المستندات المكتوبة بلغة طبيعية ثم إما نمذجة مجموعة الوثائق هذه لأغراض التصنيف التنبؤية، أو تكوين قاعدة بيانات أو فهرس بحث مع المعلومات المستخرجة.