كلا منا له ميزات تفرقه عن غيره، هذه الميزات تساعد الآخرين في التعرف علينا بسهولة فعندما أرى شخصا لأول مرة ما يهمنى من ميزاته هو اسمه وصورة وجهه هذا يكفيني لأتعرف عليه إذا قابلته مره ثانية، لا يهمنى شكل جسده ولا لون ملابسه ولا حذائه في هذا الوقت وهذا يسهل علي الاحتفاظ بمعلومات عن أشخاص أكثر في وقت قصير ومجهود أقل، كذلك جهاز الحاسوب إذا أردت أن تعرفه على نفس الشخص الذي تعرفت عليه مايهمه هو أن تعطيه صورة له وتعطيه اسمه وهو سيتعرف عليه هذا مجرد مثال بسيط ضمن عملية تعرف بهندسة الميزات "Feature Engineering" هندسة الميزات هي عملية تحويل البيانات الخام إلى ميزات أكثر فائدة للتعلم الآلي. يمكن أن تتضمن هذه الميزات خصائص رياضية مثل الحجم والشكل واللون، أو خصائص أكثر تعقيدًا مثل السلوك أو العاطفة.

سأعطيك مثال لاستخدام هندسة الميزات في معرفة الكلام المرغوب فيه من الكلام غير المرغوب فيه بالرسائل الإلكترونية مثلا:

  • يمكن استخدام تحليل الكلمات الرئيسية لتحديد الكلمات والجمل التي تظهر بشكل متكرر في الكلام المرغوب فيه. على سبيل المثال، قد يحتوي الكلام المرغوب فيه على كلمات رئيسية مثل "شكرًا" أو "أنا آسف" أو "يرجى".
  • يمكن استخدام تحليل المصطلحات الفنية لتحديد المصطلحات الفنية الخاصة بالموضوعات التي تهتم بها. على سبيل المثال، إذا كنت مهتمًا بالبرمجة، فقد يحتوي الكلام المرغوب فيه على مصطلحات تقنية مثل "كود" أو "برنامج" أو "مصدر".
  • يمكن استخدام تحليل الأخطاء النحوية أو الإملائية لتحديد الأخطاء التي قد تكون علامات على أن الكلام غير مرغوب فيه. على سبيل المثال، قد يحتوي الكلام المرغوب فيه على لغة رسمية وصحيحة، بينما قد يحتوي الكلام غير المرغوب فيه على أخطاء.
  • يمكن استخدام تحليل العنوان من عنوان غير معروف لتحديد العنوان من عناوين غير معروفة. على سبيل المثال، قد يكون الكلام المرغوب فيه من عناوين معروفة، بينما قد يكون الكلام غير المرغوب فيه من عناوين غير معروفة.
  • تشمل عملية هندسة الميزات عدة خطوات. منها فهم البيانات المتاحة وتحليلها بعناية. استكشاف البيانات لاكتشاف العلاقات والأنماط والتباينات المختلفة فيها. ثم تحويل البيانات إلى صيغة مناسبة لاستخدامها في نماذج التعلم الآلي. مع ذلك تظل هندسة الميزات عملية معقدة تتطلب فهمًا جيدًا للبيانات والنموذج المستخدم. ، فهل يمكن أن يكون ذلك مفيدًا بشكل كافي مقابل ذلك المجهود المبذول أم أنه مجرد هوس؟ وهل هناك عمليات أقل تعقيدا يمكن أن تستخدمها في عمليه معالجة البيانات وتعطي نفس النتائج؟