מחיקת נתונים
!Spongebob¡ ª Patrick: Cheap Plastic Bag Sparta Extended Remix ª
תוכן עניינים:
מה זה:
החלקת נתונים היא טכניקה סטטיסטית הכוללת הסרת חריגים ממערכת נתונים כדי להפוך דפוס נראה יותר.
איך זה עובד (דוגמה):
לדוגמה, נניח שאוניברסיטה מנתחת את נתוני הפשע שלה במהלך 10 השנים האחרונות. מספר הפשעים האלימים נראה בערך כך:
כפי שניתן לראות, רוב הזמן האוניברסיטה חווה פחות מ -15 פשעים בשנה. עם זאת, בשנת 2006 ו 2007, הוא חווה 44 בשל דרישה דיווח ניסיוני על ידי צוות בטיחות הציבור של האוניברסיטה. הניסוי המדווח שינה את ההגדרה של פשע אלים כדי לכלול גניבות מכל סוג בשנים אלה, אשר יצרו קפיצה גדולה במספר פשעים "אלימים" בקמפוס. אם נכלול את השנים האלה בממוצע - כלומר, אם נעשה כמה נתונים החלקה - האוניברסיטה חווה בממוצע כ 19 פשעים אלימים בשנה. אבל אם נעזוב את השנים האלה, נוכל לראות שממוצע מציאותי יותר הוא 13 פשעים אלימים בשנה - הבדל של 32%.
למה זה משנה:
ישנן דרכים רבות להחליק נתונים, כולל שימוש בתנועה ממוצעים ואלגוריתמים. הרעיון הוא החלקת נתונים עושה דפוסי גלוי יותר ובכך מסייע חיזוי שינויים במחירי המניות, מגמות הלקוח או כל פיסת מידע עסקי אחר. עם זאת, החלקת נתונים יכול להתעלם מידע מפתח או להפוך עובדות חשובות פחות גלוי; במילים אחרות, "עיגול הקצוות" של הנתונים יכול להדגיש יתר על המידה נתונים מסוימים ולהתעלם מנתונים אחרים.