מכירים את הסיפור על הסטטיסטיקאי שטבע בבריכה שהעומק הממוצע שלה הוא עשרים ס"מ? בואו להכיר את הסיפור כולו, כפי שסופר על ידי הסטטיסטיקאי האנגלי פרנסיס ג'ון אנסקומב, ושנקרא על שמו: הרביעיה של אנסקומב.
הרביעיה המדוברת מורכבת מארבע קבוצות של נתונים אשר להן מאפיינים סטטיסטיים פשוטים זהים. ברם, הן נראות שונות מאוד זו מזו כאשר הן מצויירות על גרף. כל קבוצה מורכבת מ-11 נקודות, כאשר כל נקודה היא זוג סדור. אנסקומב ייצר את הקבוצות הללו כדי להדגים את החשיבות של הצגת נתונים באופן גרפי בטרם ניתוחם הסטטיסטי ואת ההשפעה שיש לנקודות קיצון על מאפיינים סטטיסטיים.
אבל מספיק עם הדיבורים. הגרפים הבאים יסבירו את הרעיון:
הגרפים נראים שונים כל כך למרות שלארבע הקבוצות דלעיל מאפיינים סטטיסטיים זהים! ואילו הם:
- ממוצע ערך x הוא 9.
- שונות x היא 10.
- ממוצע y הוא 7.5
- שונות y היא 3.75
- מתאם בין x ל-y הוא 0.816
- הרגרסיה הלינארית היא: y=3+0.5x
לקריאה נוספת: Anscombe's quartet
זה בגלל שיש שני משתנים. שימוש ב-Covariance פותר את הבעיה.
זהו, אני לא מאמין יותר לתוצאות סטטיסטיות..
פעם הבאה אני אבקש גם את הגרף. 🙂
עמית, מניח שיש מדדים נוספים שפותרים את הבעיה. אבל עדיין, היתה נקודה למאמר שלו, והיא הועברה יפה מאוד.
אביר, המאמר של אנסקומב הוא מ-73. בטוח היו לו מאמרי תגובה. אם יש לך זמן ואתה מוצא איזו תגובה מעניינת, אשמח לשמוע!