רמז – עזרה ופתרונות

ניתוח גורמים ראשיים

כל מה שרצית לדעת על ניתוח גורמים ראשיים:
ניתוח גורמים ראשיים (או בשמה המקובל בלעז PCA, Principal Components Analysis) היא שיטה סטטיסטית למציאת יצוג מממד נמוך למידע רב-ממדי.
שיטה זו הומצאה בשנת 1901 על ידי קרל פירסון והיא שימושית מאוד בסטטיסטיקה ובלמידה חישובית.
בהינתן מספר דגימות מממד d (שהממוצע שלהן הוא אפס), ניתן לחשב את d הגורמים הראשיים, שהינם וקטורים מממד d.
הגורם הראשי הראשון יהיה הכיוון במרחב שלאורכו השונות של הדגימות היא מקסימלית.
הגורם הראשי השני מאונך לגורם הראשי הראשון, ולאורכו השונות היא מקסימלית במרחב המאונך לגורם הראשון.
הגורם הראשי השלישי גם הוא מאונך לראשון ולשני, וכך ניתן להמשיך ולמצוא גורמים ראשיים נוספים, כאשר כל אחד מאונך לכל הגורמים הקודמים, ובכיוונו השונות היא מקסימלית.
לדוגמה, נניח כי מבצעים ניסוי הבוחן פרמטרים שונים, למשל: מנת משכל, גובה וגיל.
יש לנו מספר דגימות.
דגימות אלו נמצאות למעשה במרחב תלת ממדי שהרכיבים של כל נקודה בה הם מנת משכל, גובה וגיל מסוימים.
באותו אופן, אם ישנם n פרמטרים שונים אשר נחקרים אזי הם מגדירים מרחב מממד n.
ניתוח גורמים ראשיים הינה שיטה למצוא מסקנות מעניינות מתוך המידע הרב שנאסף בניסוי שכזה.
השיטה מנסה להוריד את הממד של המידע לממד נמוך יותר אשר יכול לגלות מידע רב יותר וקשרים בין המשתנים השונים אשר נחקרים.
לשם כך היא מחפשת את ההטלה הלינארית האופטימלית אשר עבור צירים מסוימים, משמרת שונות רבה ככל הניתן של המידע, ואחר כך מצמצמת את המידע לקורדינאטות שלו רק על אותם צירים.
כך מקבלים מידע מעניין אך בממד נמוך יותר, אשר באותו ממד ניתן להבחין בקשרים מעניינים.
למעשה התהליך (אשר הינו פשוט למעשה) מסובב את המידע סביב הצירים השונים ומחפש מרחק קטן ביותר של המידע מהמרחב הנפרש על ידי אותם צירים.
כל ציר שכזה נקרא גורם ראשי.
PCA עושה שימוש בתהליך הבא כדי למצוא את הגורמים הראשיים:

לרוב עושים סטנדרטיזציה למידע לפני התהליך: כלומר דואגים שהתוחלת תהיה 0 ושונות 1.

חישוב מטריצת השונות המשותפת (covariance) כך: כל תא i,j במטריצה הוא השונות המשותפת של משתנה i שנחקר ומשתנה j.
לכסון המטריצה.
המטריצה סימטרית וממשית (גם חיובית) ולכן כל ערכיה העצמיים ממשיים וחיוביים.
כעת, לוקחים את הוקטור העצמי הגדול ביותר – הוא כנגד הגורם הראשי ביותר.
אם אנחנו רוצים להסביר 80% מהמידע עלינו לבחור ע"ע מהגדול אל הקטן בכמות כזו שכסכום אותם ערכים עצמיים הוא מעל 80% מסכום כל הערכים העצמיים.
לפי מספר הע"ע שנבחר, נקבל את הממד החדש של המידע.
עבור אותם ע"ע שבחרנו, נמצא את הווקטורים העצמיים.
המטריצה אשר שורותיה הם הווקטורים העצמיים המתאימים, היא ההעתקה הלינארית האופטמילית אשר מורידה את הממד לממד חדש, בו ניתן לראות מבנים מעניינים במידע.

נלקח מויקיפדיה

הגדרות נוספות הקשורות לניתוח גורמים ראשיים:
סטטיסטיקה
למידה חישובית

Exit mobile version