בחינת רובאי ראייה בפיקוח עצמי לזיהוי הליכה בטבע חלק 1

Nov 24, 2023

תַקצִיר:

אופן ההליכה (הליכה) הוא ביומטרי רב עוצמה המשמש כשיטת טביעת אצבע ייחודית, המאפשרת לבצע ניתוח התנהגותי לא פולשני מרחוק ללא שיתוף פעולה בין הנושא.

כולנו יודעים שפעילות גופנית עוזרת לבריאות טובה. בנוסף לכך, פעילות גופנית מסייעת גם בשיפור הזיכרון. הליכה היא צורת האימון הפשוטה והקלה ביותר לתרגול, ואנשים רבים נהנים להירגע בזמן הליכה או ריצה. כעת, מחקרים נוספים מראים שהליכה עושה דברים חזקים למוח.

ראשית, הליכה מגרה את מערכת העצבים של המוח, מה שעוזר לחיזוק תפקוד המוח. כאשר הגוף זז, קצב הלב וזרימת הדם שלנו עולים, מה שגם מגרה את המוח לייצר יותר נוירונים וסינפסות. הקשרים בין נוירונים אלה לסינפסות יכולים ליצור רשתות עצביות חדשות ותהליכי חשיבה מהירים יותר.

שנית, הליכה יכולה להקל על מתח וחרדה, דבר שחשוב מאוד לשיפור הזיכרון. כאשר הנפש והגוף נמצאים במצב של מתח, דיכאון או חרדה, המוח משחרר הורמון הנקרא קורטיזול. קורטיזול פוגע בנוירונים ובסינפסות במוח, מה שעלול להוביל לאובדן זיכרון. הליכה משחררת מתח וחרדה, מפחיתה את ייצור הקורטיזול בגוף ומסייעת בשמירה על בריאות נוירונים וסינפסות.

לבסוף, הליכה מגבירה את זרימת הדם למוח. כמה מחקרים מראים שזרימת דם טובה יכולה לעזור לשפר את הזיכרון. ככל שאנו מתבגרים, כלי הדם במוח נסתמים בהדרגה, וכתוצאה מכך אספקת חמצן לא מספקת למוח. הליכה יכולה לשפר את בריאות הלב, לאפשר ללב לספק חמצן וחומרי מזון למוח בצורה יעילה יותר, ובכך לקדם את הזיכרון ואת תפקוד המוח.

לכן, הליכה היא צורה מצוינת של פעילות גופנית עבור צעירים ומבוגרים כאחד. בנוסף לשיפור הבריאות הגופנית, הליכה יכולה גם לעזור לשפר את הזיכרון. תן לנו ללכת מרחק כל יום כדי להפוך את עצמנו בריאים וטובים יותר! ניתן לראות שאנו צריכים לשפר את הזיכרון, ו-Cistanche deserticola יכול לשפר משמעותית את הזיכרון מכיוון ש-Cistanche deserticola הוא חומר רפואי סיני מסורתי בעל השפעות ייחודיות רבות, אחת מהן היא שיפור הזיכרון. היעילות של בשר טחון מגיעה מהמרכיבים הפעילים השונים שהוא מכיל, לרבות חומצה, פוליסכרידים, פלבנואידים ועוד. מרכיבים אלו יכולים לקדם את בריאות המוח בדרכים שונות.

improve memory

לחץ לדעת 10 דרכים לשיפור הזיכרון

בניגוד לשיטות אימות ביומטריות מסורתיות יותר, ניתוח ההליכה אינו מצריך שיתוף פעולה מפורש של הנבדק וניתן לבצע אותו בהגדרות ברזולוציה נמוכה, מבלי לדרוש את פניו של הנבדק ללא הפרעה/נראה. רוב הגישות הנוכחיות מפותחות בסביבה מבוקרת, עם נתונים נקיים ומוערים בתקן זהב, שהניעו את הפיתוח של ארכיטקטורות עצביות לזיהוי וסיווג.

רק לאחרונה ניתוח ההליכה החל להשתמש במערכי נתונים מגוונים, בקנה מידה גדול ומציאותי יותר לרשתות מאומנות מראש באופן בפיקוח עצמי. משטר אימון בפיקוח עצמי מאפשר לימוד ייצוגי הליכה מגוונים וחזקים ללא הערות אנושיות יקרות. בעקבות השימוש בכל מקום במודל השנאי בכל תחומי הלמידה העמוקה, כולל ראייה ממוחשבת, בעבודה זו, אנו חוקרים את השימוש בארכיטקטורות שונות של שנאי ראייה המיושמות ישירות לזיהוי הליכה בפיקוח עצמי.

אנו מתאימים ומאמנים מחדש את ה-ViT, CaiT, CrossFormer, Token2Token ו-TwinsSVT על שני מערכי נתונים שונים של הליכה בקנה מידה גדול: GREW ו-DenseGait. אנו מספקים תוצאות נרחבות ל-0-shot וכיוונון עדין על שני מערכי נתונים של זיהוי הליכה, CASIA-B ו-FVG, ובוחנים את הקשר בין כמות המידע ההליכה המרחבי והזמני המשמש את הממיר החזותי.

התוצאות שלנו מראות כי תכנון מודלים של שנאים לעיבוד תנועה משתמש בגישה היררכית (כלומר, מודלים של CrossFormer) על ירידי תנועה עדינים יותר בצורה טובה יותר מאשר גישות קודמות של שלד שלם.

מילות מפתח:

זיהוי הליכה; אימות ביומטרי; שנאי ראייה; הערכת תנוחה; למידה בפיקוח עצמי; למידה ניגודית.

1. הקדמה

איך אנחנו זזים מכיל רמזים משמעותיים על עצמנו. בפרט, ההליכה שלנו (אופן ההליכה) נחקרה מקרוב ברפואה [1], פסיכולוגיה [2] ומדעי הספורט [3]. לאחרונה, ניתוח ההליכה קיבל תשומת לב מוגברת [4,5] מקהילת מדעי המחשב, במקביל להתקדמות האקספוננציאלית של למידה עמוקה וזמינות נרחבת של חומרת מחשוב.

מערכות ניתוח הליכה המופעלות על ידי בינה מלאכותית הצליחו לזהות בהצלחה נבדקים [6-10], להעריך נתונים דמוגרפיים כגון גיל מגדר [11], ולהעריך תכונות חיצוניות כגון לבוש [12], מבלי להשתמש ברמזים חיצוניים למראה החיצוני. תוצאות אלו אינן מפתיעות, בהתחשב בכמות הגדולה של ההבדלים האישיים בהליכה, הנובעים מהבדלים במבנה השריר-שלד, גורמים גנטיים וסביבתיים, כמו גם מצבו הרגשי ואישיותו של ההליכה [13].

המערכות הנוכחיות מאומנות ונבדקות באמת רק בסביבות פנימיות מבוקרות. רוב השיטות משתמשות במערך הנתונים CASIA-B [6] כמדד הסטנדרטי למודלים של זיהוי הליכה, המכילים 124 נבדקים שהולכים בתוך הבית בצורה מבוקרת קפדנית שנלכדה עם מצלמות מרובות. מורכבות בעולם האמיתי לא יכולה להיות מודל מלא על ידי תרחישים מאופקים כאלה. רק לאחרונה ההתמקדות הייתה בעיצוב הליכה "בטבע", עם ערכות נתונים כגון DenseGait [12], GREW [7] ו- Gait3D [14].

short term memory how to improve

איסוף מערך נתונים בקנה מידה גדול נקי ומוסבר במלואו מייצג מאמץ אדיר הן מבחינת משאבים כספיים והן מבחינת זמן מוקצה. על פי הדיווחים, למערך הנתונים של GREW [7] נדרשו 3 חודשים של עבודה מתמשכת כדי לאסוף ולהביא הערות. בעוד שגישות כאלה היו שימושיות בפיתוח ארכיטקטורות עצביות לעיבוד הליכה [8,9], הן אינן מגוונות מספיק כדי להשתמש בהן כראוי בסביבות רגועות יותר בעולם האמיתי.

קהילת הבינה המלאכותית התרחקה לאט מגישה זו בתחומים אחרים, כאשר שיטות ללמידה בפיקוח עצמי הן לראייה [15] והן לשפה [16] צוברות אחיזה משמעותית ולעיתים קרובות עולות על השיטות המסורתיות בפיקוח. ההתקדמות האחרונה בלמידה בפיקוח עצמי הראתה שמודלים בפיקוח עצמי הם יותר חזקים ומפגינים התנהגויות, שאינן מוגדרות במפורש במהלך האימון.

לדוגמה, DINO [17], שנאי ראייה מאומן במשטר בפיקוח עצמי, למד תכונות ספציפיות לכיתה המאפשרות פילוח אובייקטים ללא פיקוח מבלי להשתמש בתוויות כאלה במהלך האימון. Cosmaand Radoi [10] הציע את השיטה הניגודית הראשונה ללמידה בפיקוח עצמי עבור ניתוח הליכה, על ידי אימון ST-GCN [18] על גרסה קטנה יותר של DenseGait [12]. השיטה שלהם השיגה תוצאות סבירות במשימות זיהוי הליכה במורד הזרם והראתה כי קיים מתאם חזק בין גודל מערך הנתונים המאומן מראש לבין ביצועי ההעברה של זריקות אפס.

בעוד שגישות רבות לניתוח הליכה השתמשו בצלליות שחולצו מחיסור רקע [6,8,9], חילוץ צלליות בתרחישי מעקב אמיתיים מרמז על שימוש בטכניקות מתקדמות יותר, כגון פילוח מופעים [19], אשר גורמות לעלות חישובית גבוהה. רצפים של צלליות תופסות מקום אחסון משמעותי ואינן גמישות מספיק לשימוש במשימות סמוכות אחרות, כגון זיהוי פעילות. יתרה מכך, צלליות מקודדות סממני מראה עדינים, מה שהופך לא ברור באיזו מידה מנוצלת תנועה בזיהוי [20].

מצד שני, מודלים של הערכה דו-ממדית הפכו ליותר ויותר מדויקים ויעילים מבחינה חישובית [21,22]. השלדים זולים לחילוץ, וכרגע אמינים יותר מרשתות תלת-ממד ותנוחות תלת-ממדיות, במיוחד במרחק. יתר על כן, שלדים דו-ממדיים הם קלים משמעותית מאשר צלליות במונחים של אחסון לטווח ארוך.

ארכיטקטורות נוכחיות לעיבוד רצפים של שלדים משתמשות במבנה הגרף הטבעי המרחבי הקיים בשלד האנושי, ומציגות הטיה אינדוקטיבית בעיצוב המודל. מודלים כמו ST-GCN [18] ו-MS-G3D [23] הפופולריים ראו תוצאות מרשימות לזיהוי פעולה מבוסס שלד.

במקביל, חל פיצוץ בשימוש במודלים של שנאים כמעט בכל תחומי הלמידה העמוקה מאז היישום הראשוני שלהם לעיבוד שפה טבעית.

רובוטריקים נחשבים לארכיטקטורה כללית יותר, עם מעט הטיות אינדוקטיביות. בתחילה, שנאים התקשו להתאים מודלים של CNN לסיווג תמונות [24], אך כיום הם עולים על מודלים אחרים ומציגים תוצאות מבטיחות בתרחישים בפיקוח עצמי, יותר מאשר סוגים אחרים של ארכיטקטורות, שנאים הראו יכולת למידה מרשימה והתנהגויות מתעוררות תחת העצמי. -השגחה [17].

Cosma ו-Radoi [12] היו הראשונים שהציעו את GaitFormer, התאמה ישירה של מודל מקודד שנאי הראייה לזיהוי הליכה, תוך ניצול שלדים בודדים כ"טלאים" קלטים, למעשה רק ביצוע קשב זמני, תוך התעלמות מיחסי קשב מרחביים.

GaitFormer הוכשרה בפיקוח עצמי והתעלתה על שיטות זיהוי הליכה אחרות אפילו ללא כל כוונון עדין. עבודה קודמת כזו מעודדת וסוללת את הדרך למחקר מעמיק יותר של היישום הפוטנציאלי של ארכיטקטורות שנאים לניתוח הליכה. האם ניתן להתאים מודלים של שנאי ראייה ללמידה בפיקוח עצמי של ייצוגי הליכת השלד?

הנושא הארכיטקטוני העיקרי בשנאי ראייה הוא הגדרת היחסים הנכונים בין תיקוני תמונה, המגדירים מידע מקומי וגלובלי. כאשר מיושמים בהליכה, בחירת ממדי התיקון תואמת את כמות המידע הזמני והמרחב המקודד של רצף השלד.

בעבודה זו אנו מציגים מחקר נרחב של חמישה שנאי ראייה שונים, המותאמים לזיהוי הליכה. אנו חוקרים את מודל ViT הקלאסי [24], CaiT [25], CrossFormer [26], TwinsSVT [27] ו-Token-to-Token ViT [28].

ways to improve memory

כל ארכיטקטורה מאומנת בנפרד באופן מנוגד לפיקוח עצמי על שני מערכי נתונים "בטבע" בקנה מידה גדול של רצפי שלד הליכה דו-ממדיים: DenseGait - מערך נתונים שנאסף אוטומטית מזרמי מעקב גולמיים, ו-GREW, מערך נתונים קטן יותר המכיל הערות אנושיות נקיות.

אנו בוחנים יכולות העברה על פני שני מערכי נתונים מבוקרים לזיהוי הליכה, CASIA [6] ו-FVG [29]. עבור כל מערך נתונים, אנו מנתחים העברה ישירה (זריקת אפס) ויעילות נתונים במהלך כוונון עדין על ידי אימון עם תת-קבוצות גדולות יותר של מערכי הנתונים. יתרה מכך, אנו עורכים מחקר אבלציה על הקשר בין ממדים מרחביים וזמניים עבור גדלי תיקון עבור SimpleViT ו-CaiT , עמודי השדרה הסטנדרטיים של רוב שנאי ה-vision עד כה.

שאר העיתון מאורגן באופן הבא. אנו עורכים סקירה ברמה גבוהה של עבודות קשורות על מודלים של זיהוי הליכה ומשנאי ראייה. אנו רואים שמודלים של ייצוג הליכה נהנים מאוד מאימון בפיקוח עצמי כדי לקבל הטמעות איתנות וכלליות יותר, ומודלים של שנאים הראו יכולת דוגמנות רבה במשטרי אימון בפיקוח עצמי.

יתר על כן, אנו מתארים מתמטית את חמש הארכיטקטורות שאנו מבשרים ומתארים את עיבוד הנתונים מראש והטרנספורמציות שלד שיש לבצע, כך שנאי ראייה צריכים לפעול בצורה חלקה על רצפי שלד. כמו כן, אנו מתארים הגדלת נתונים, מערכי נתונים של הדרכה והשוואת נתונים והגדרות ניסוי.

אנו מציגים תוצאות על CASIA-B ו-FVG עבור כל אחת מחמש הארכיטקטורות ושני מערכי הנתונים של 'אימון מקדים בטבע'. לבסוף, אנו עורכים מחקר אבלציה על הקשר בין גודל התיקון המרחבי והזמני ומספקים דיון קצר על התוצאות שלנו. אנו הופכים את קוד המקור שלנו לזמין לציבור ב-GitHub (https://github.com/cosmaadrian/gait-vit, לגישה ב-28 בפברואר 2023) לצורך שקיפות ושחזור.

2. תעסוקה קשורה

בחלק זה, אנו עורכים סקירה קצרה של שיטות קיימות לזיהוי הליכה בסביבות בלתי מבוקרות ו"בטבע". יתר על כן, אנו מתארים בעיקר את ההתפתחויות של דגמי שנאים ובמיוחד את היישום שלהם בתחום החזון.

2.1. זיהוי הליכה

בדומה לזיהוי מבוסס פנים, זיהוי הליכה מסתמך על למידה מטרית. בניגוד לשיטות אימות ביומטרי מסורתיות, המסתמכות על תמונה בודדת (למשל, זיהוי פנים) ודורשות שיתוף פעולה נרחב (למשל, אימות ביומטרי מבוסס קשתית), תכונות ההליכה מעובדות כרצף של צילומי תנועה. דינמיקה כזו של מחוות דורשת מורכבות רבה יותר בקביעת תת-הרצף האינפורמטיבי ביותר, אך מאפשרת שימוש באימות לא פולשני מרחוק.

בהקשר זה, המשימה מרמזת על אימון רשת מקודד למיפוי רצפי הליכה למרחב הטמעה שבו הדמיון ההטמעה מתאים לדמיון ההליכה. הטבעות של טיולים השייכים לאותו אדם צריכות להיות קרובות למרחב ההטמעה ואלו שבאים מזהויות שונות צריכים להיות מרוחקים יותר. במרחב הטבעה זה, ניתן להסיק על ידי השגת הטבעה של רצף ההליכה וניצול השכן הקרוב ביותר. גישה על מסד נתונים של טיולים ידועים.

הגישות הנוכחיות בזיהוי המבוסס על הליכה מחולקות לשתי קטגוריות: מבוססת מראה [8,9] ומבוססת מודל [10,12,30]. שיטות מבוססות מראה משיגות תחילה את הצלליות של הנבדקים ההולכים עם אלגוריתמים של חיסור רקע או פילוח מכל פריים וידאו.

לאחר מכן, רצף הצלליות מוזן לארכיטקטורות מבוססות CNN אשר מחלצות תכונות מרחביות וזמניות אשר מצטברות להטבעה סופית לצורך זיהוי. גישות מבוססות מודלים מחלצות את השלדים מסרטוני RGB עם מודלים של poseestimation [21,22]. רצפים של שלדים מעובדים בדרך כלל על ידי מודלים שמסתמכים על פיתולי גרף [10,30] להשגת הטבעה של ההליכה.

GaitSet, עבודתם של Chao et al. [8], רואה בהליכה קבוצה לא מסודרת של צלליות. המחברים טוענים שהייצוג הזה גמיש יותר מרצף צלליות מכיוון שהוא חזק לסידורים שונים של פריימים או לשילוב של כיווני הליכה וגרסאות מרובות. הם משתמשים בשכבות קונבולוציה עבור כל צללית כדי להשיג תכונות ברמת התמונה ולשלב אותן לתכונה ברמה מוגדרת עם Set Pooling. הם משיגים את הפלט הסופי על ידי שימוש בגרסה שלהם של HorizontalPyramid Matching [31].

Fan et al. [9] הבחין בעובדה שחלקים ספציפיים של הצללית האנושית צריכים לקבל את הביטוי המרחבי-זמני שלהם, שכן לכל אחד מהם יש דפוס ייחודי. הארכיטקטורה שלהם, GaitPart, משתמשת בשכבות קונבולציה מוקדיות (FConvs), שהן סוג מיוחד של קונבולציה עם שדה קליטה מוגבל יותר. המחברים טוענים שה-FConvs מסייעים לארכיטקטורה שלהם בלימוד תכונות עדינות יותר עבור חלקים שונים של הגוף הנע. הם גם מציגים את מודולי הלכידת המיקרו-תנועה, המשמשים כדי לחלץ את התכונות של רצפים זמניים קטנים.

Teepe et al. [30] מציעים את GaitGraph, הממנפת רשת קונבולוציונית גרפית מותאמת בשם ResGCN [32] לקידוד התכונות המרחביות-זמניות המתקבלות מרצף השלדים. לי וחב'. [33] מציעים PTP, שהוא מבנה שמאגד מאפיינים מרובים-זמניים ממחזור הליכה אחד על סמך הניתוח שלהם של שלבי ההליכה החשובים ביותר.

הם גם משתמשים ברשת קונבולוציונית של גרפים לחילוץ תכונות מרחביות, הפועלת יחד עם PTP. המחברים מציגים שיטה חדשנית להגדלת נתונים שמשנה את ההליכה למספר קצבים במחזור ריאליסטי יותר.

עם זאת, בשונה מעבודות קודמות, אנו שואפים לחקור את הביצועים של ארכיטקטורות זיהוי הליכה בתרחישים בפיקוח עצמי. בהשראת התקדמות עצומה בתחום הראייה הממוחשבת, אנו מציעים להתאים ארכיטקטורות שנאי ראייה קיימות לפעול על רצפי שלד במקום תמונות ולבחון את יכולת המודל שלהם בתרחישים בפיקוח עצמי. רוב העבודות האחרות [8,9,30] ממקדות את מאמציהם בפיתוח ארכיטקטורות עצביות המשיגות תוצאות מרשימות בזיהוי הליכה על מערכי נתונים מבוקרים.

עם זאת, אנו מתכוונים להסיר את הצורך בהערות ידניות יקרות מאוד עבור מערכי נתונים של הליכה ולחקור דרכים שבהן למידה בפיקוח עצמי מתאימה לניתוח הליכה.

memory enhancement

עבודות קודמות בתחום זה [10,12] הראו פוטנציאל ללימוד ייצוגי הליכה טובים ממערכי נתונים בעלי הערות חלשות. Cosmaand Radoi [12] הציע את GaitFormer, הארכיטקטורה הראשונה מבוססת שנאים לעיבוד רצפי שלד, בהשראת מודל ViT [24]. בדומה ל-[12], אנו מנסים לחקור את הביצועים של דגמי שנאי ראייה אחרים, עם דינמיקה מרחבית וזמנית שונה במנגנון עיבוד הטלאים. מערכי נתונים בקנה מידה גדול לזיהוי הליכה הוצעו בעבר [7,12], המאפשרים פיתוח של ארכיטקטורות כלליות ללמידת ייצוג.


For more information:1950477648nn@gmail.com


אולי גם תרצה