A categorical variable has 5 unique values, when create dummy variables for this feature, at lease how many dummy variables are needed for this؟
الإجابة الصحيحة من خلال موقع بوابة الإجابات هي:
At least 4 dummy variables are needed.
لكي نفهم لماذا نحتاج على الأقل 4 متغيرات وهمية (Dummy Variables) لمتغير تصنيفي (Categorical Variable) له 5 قيم فريدة، دعنا نشرح الأمر خطوة بخطوة:
- المتغيرات التصنيفية: هي المتغيرات التي تمثل فئات أو مجموعات، وليست أرقامًا قابلة للقياس. مثال: لون العين (أزرق، بني، أخضر)، أو نوع السيارة (سيدان، هاتشباك، دفع رباعي).
- المتغيرات الوهمية: هي طريقة لتحويل المتغيرات التصنيفية إلى متغيرات رقمية يمكن استخدامها في النماذج الإحصائية. نحول كل فئة إلى عمود جديد، ونضع قيمة 1 إذا كانت الملاحظة تنتمي إلى هذه الفئة، و 0 إذا لم تكن.
- لماذا نحتاج عدد متغيرات وهمية أقل بواحد من عدد الفئات؟ هذا بسبب ما يسمى "فخ المتغير الوهمي" (Dummy Variable Trap). إذا قمنا بإنشاء متغير وهمي لكل فئة، فسنحصل على معلومات مكررة. بمعنى آخر، إذا عرفنا أن جميع المتغيرات الوهمية تساوي صفرًا، فسنعرف تلقائيًا أن الملاحظة تنتمي إلى الفئة المتبقية.
- مثال: لنفترض أن لدينا متغير تصنيفي "المدينة" بقيم: الرياض، جدة، الدمام، مكة، المدينة.
- إذا أردنا إنشاء متغيرات وهمية، سننشئ 4 متغيرات فقط:
- الرياض (1 إذا كانت المدينة الرياض، 0 خلاف ذلك)
- جدة (1 إذا كانت المدينة جدة، 0 خلاف ذلك)
- الدمام (1 إذا كانت المدينة الدمام، 0 خلاف ذلك)
- مكة (1 إذا كانت المدينة مكة، 0 خلاف ذلك)
- إذا كانت جميع هذه المتغيرات الأربعة تساوي صفرًا، فهذا يعني أن المدينة هي المدينة المنورة. لذلك، لا نحتاج إلى متغير وهمي خامس للمدينة المنورة.
- الخلاصة: بشكل عام، إذا كان لديك *n* من القيم الفريدة في متغير تصنيفي، فأنت تحتاج إلى *n-1* من المتغيرات الوهمية لتجنب فخ المتغير الوهمي. في حالتنا، لدينا 5 قيم فريدة، لذلك نحتاج إلى 5-1 = 4 متغيرات وهمية.
اذا كان لديك إجابة افضل او هناك خطأ في الإجابة علي سؤال A categorical variable has 5 unique values, when create dummy variables for this feature, at lease how many dummy variables are needed for this اترك تعليق فورآ.