הפודקאסט עושים היסטוריה

[עושים היסטוריה] 295: Deep Fakes (דיפ-פייקס), חלק א' – בינה מלאכותית מזייפת מציאות

בשנתיים האחרונות הרשת החברתית מוצפת בסרטונים ותמונות מזוייפים: טראמפ ופוטין נואמים נאומים שמעולם לא נאמרו, גל גדות "מככבת" בסרטון פורנו מפורבק ועוד. הזיופים האלה, שחלקם נראים כמו יצאו היישר מאולפניה של הוליווד, נוצרו למעשה בידי מערכות בינה מלאכותית. בפרק זה אספר על מהפכת ה GAN – מודל חדש של בינה מלאכותית – והאופן שבו היא מאפשרת למפתחים חובבים להפיק בדקות ספורות סרטונים ותמונות מזוייפים באיכות משכנעת ביותר.

האזנה נעימה,

רן.

רשימת תפוצה בדואר האלקטרוניאפליקציית עושים היסטוריה (אנדרואיד) | פייסבוק | טוויטר

דף הבית של התכנית | iTunes | RSS Link



דיפ פייקס (Deep Fakes) חלק א' – בינה מלאכותית מזייפת מציאות

'פורסט גאמפ', שיצא לאקרנים ב-1994, נחשב לאחד הסרטים המוצלחים ביותר של שנות התשעים וזכה בכמה וכמה אוסקרים. אחת הסצנות הזכורות ביותר בסרט היא סצינה בה מוזמן פורסט, גיבור הסרט, לקבלת פנים בבית הלבן. במהלך קבלת הפנים מגלה פורסט שהמשקה הקל האהוב עליו, קולה של ד"ר פפר, מוגש חינם – ומרוב התלהבות שותה חמישה עשר בקבוקים מלאים. זמן מה לאחר מכן הוא מתבקש ללחוץ את ידו של הנשיא ג'יי אף קנדי. הנשיא שואל אותו מה שלומו, ופורסט – בחינניות חסרת העכבות שמאפיינת אותו – מספר לו שהוא צריך להשתין. קנדי צוחק, מסתובב אל הקהל ואומר – 'אני חושב שהוא אמר שהוא צריך להשתין!'.

הסצינה הקצרה הזו – לא יותר מחמש עשרה שניות – נחשבת לפורצת דרך כיוון שהנשיא קנדי כבר לא היה בין החיים באותו הזמן מזה עשרות שנים. הייתה זו אחת הפעמים הראשונות שצופי הקולנוע זכו לראות על המסך דמות היסטורית מפורסמת חוזרת לחיים בזכות האנימציה הממוחשבת.

מדוע אני מספר לכם על הסצנה המפורסמת הזו ב'פורסט גאמפ'? כדי להקביל אותה לסרטון אחר שעלה לרשת לפני כחצי שנה בערך, במרץ 2019. בסרטון רואים את בנימין נתניהו מבצע סדרה של הבעות פנים פשוטות: פותח וסוגר את הפה, מזיז את הראש מצד לצד וכדומה. גם הסרטון הזה הוא פרי אנימציה ממוחשבת, אבל הוא הרבה יותר מוצלח מהסצינה המדוברת בפורסט גאמפ: כשמביטים בדמותו של קנדי ב'פורסט גאמפ', קל לראות שזו אנימציה ממוחשבת: תנועות השפתיים של קנדי הממוחשב, למשל, לא ממש תואמות לשאר הפנים. הבעות פניו של ביבי הממוחשב, לעומת זאת, מדהימות באיכותן. אם לא היו אומרים לכם שמדובר בגרפיקה ממוחשבת, סביר להניח שלא הייתם מנחשים זאת בעצמכם.

אתם בטח שואלים את עצמכם – נו, אז מה חדש? הטכנולוגיה התקדמה מאד מאז שנות התשעים. ברור שבסרטים הוליוודיים מודרניים האנימציה הממוחשבת כבר הרבה יותר מוצלחת.

אבל יש דבר אחד שכמעט ולא השתנה בתחום האנימציה הממוחשבת מאז ימי פורסט גאמפ ועד ימינו, והוא המורכבות של הפקת סצינות קולנועיות שכאלה. כדי ליצור את הסצנה עם קנדי, רוברט זמקיס הבמאי גייס לעזרתו כמה וכמה מומחי אנימציה של סטודיו מפורסם בשם Industrial Light And Magic, ביניהם אחד שכבר זכה פעמיים בפרס האוסקר. גם צילום הסצנה עצמה היה מורכב, ודרש מטום הנקס, כוכב הסרט, להתאמן על תזמון מדויק מאד של לחיצת היד עם הכפיל של קנדי על הסט, כולל לדרוך על נקודות שסומנו במיוחד עבורו על הרצפה. גם בסרטים הוליוודיים מודרניים, אפקטים מיוחדים דורשים אולפנים מיוחדים, מצלמות מתוחכמות עבור לכידת תנועה (Motion Capture), תוכנות אנימציה משוכללות ואנימטורים מקצועיים ומוכשרים שיודעים להפעיל אותן. אני יודע את זה כי במקרה לגמרי אחי הקטן הוא אנימטור שעבד על כמה מסדרות הטלוויזיה וסרטי הקולנוע הגדולים ביותר של השנים האחרונות, מ'משחקי הכס' ועד 'אקווה-מן'.

אבל הסרטון של 'ביבי המזויף', לעומת זאת, נוצר על ידי מפתח תוכנה בודד בשם בר היללי במשך כמה סופי שבוע בלבד ובעזרת תוכנה חינמית שהוריד מהאינטרנט. אני אחזור על המשפט הזה שוב: מפתח תוכנה – לא אנימטור מקצועי, בודד – ולא סטודיו שלם של אנשי מקצוע, ובמשך כמה סופי שבוע בלבד, לעומת חודשים ולעיתים שנים של עבודה.

דיפ-פייקס

הסרטון של היללי הוא לא יחיד מסוגו. רחוק מכך. הסרטונים המפוברקים החדשים הללו מכונים 'דיפ פייקס' (Deep Fakes, 'זיופים עמוקים') – וחיפוש של הביטוי Deep Fake ב YouTube מעלה אלפי ואולי עשרות אלפי תוצאות. בשנתיים האחרונות הרשת מוצפת בסרטוני Deep Fake של סלבריטאים מכל סוג: אובמה, פוטין וטראמפ נואמים נאומים שמעולם לא נאמרו, גל גדות "מככבת" בסרטון פורנו, ברק, ליברמן וביבי מנהלים דיבייט בידיוני ב'ארץ נהדרת' – ואפילו ערוץ יו-טיוב מיוחד בשם derpfakes שמוקדש כולו אך ורק לסירטוני דיפ-פייקס של ניקולאס קייג'. חפשו את זה – זה קריפי לאללה.

המשותף לכל הסרטונים האלה הוא שהם נוצרו רובם ככולם על ידי מפתחים חובבים או חברות קטנות בתקציבים זעומים – אבל האיכות שלהם טובה כמו ואפילו יותר ממה שאולפני הקולנוע הגדולים ביותר היו מסוגלים להפיק באמצעות תקציבי ענק אך לפני שנים ספורות בלבד.

אז מה קרה בחמש השנים האחרונות שאפקטים מיוחדים ופיברוקים אומנותיים שהיו נחלתם הבלעדית של מומחים בעלי שם, הפכו למשהו שילדים בני 14 יכולים ליצור פחות או יותר בלחיצת כפתור? כמו קרחון צף על פני המים,  דיפ-פייקס הם בסך הכל התוצר הויזואלי הבולט של מהפכה טכנולוגית מרתקת, ובעלת משמעות עמוקה הרבה יותר, בתחום הבינה המלאכותית.

למידה עמוקה

שורשי מהפכת הדיפ-פייק נעוצים במהפכה טכנולוגית נוספת שהתחוללה לפני פחות מעשור: 'למידה עמוקה', Deep Learning. למידה עמוקה היא טכנולוגיה המאפשרת למחשב ללמוד לבצע משימות באופן שונה מאד מכפי שהכרנו עד היום: במקום שהמתכנת יגדיר למחשב במפורש מהם החישובים והצעדים שעליו לבצע כדי לפתור בעיה כלשהי, המחשב לומד לבצע את המשימה בעזרת דוגמאות.

הקדשתי שני פרקים מלאים של עושים היסטוריה לטכנולוגיה המרתקת הזו ולרעיונות העקרוניים שמאחוריה, אבל בואו נחזור על העקרונות הבסיסיים הרלוונטיים לפרק הזה.

למידה עמוקה מבוססת על רשת של המוני נוירוניים מלאכותיים, שמחוברים זה לזה בצורה שמזכירה באופן גס את רשתות הנוירוניים במוח שלנו. כשמכניסים מידע כלשהו לרשת, כמו למשל תמונה, המידע "מחלחל" ועובר בין הנוירונים השונים, עד שבקצה השני מתקבלת "החלטה" כלשהי, כמו למשל האם יש או אין בתמונה פנים אנושיות.

איך לומדת הרשת לזהות פנים אנושיות בתמונה? בעזרת תהליך של "אימון" שבמסגרתו מזינים את רשת הנוירונים באלפי תמונות של פרצופים אנושיים. בכל פעם שהרשת טועה ולא מזהה פנים בתמונה, או לחילופין מגלה פנים בתמונה שאין בה פרצוף אנושי – משנים מעט את דפוס החיבורים בין הנוירונים השונים. למשל, מחזקים קשרים בין כמה נוירונים ומחלישים קשרים בין נוירונים אחרים. אחרי עשרות אלפי דוגמאות שכאלה, מתקבלת רשת שבה דפוס הקשרים בין הנוירונים הוא כזה שבכל פעם שהרשת תקבל תמונה היא תדע לזהות בה פנים אנושיות בדיוק כמעט מושלם.

הרעיון של 'אימון' רשת נוירונים מלאכותיים לבצע משימה כלשהי הוא הבסיס למהפכת הבינה המלאכותית שמתחוללת סביבנו בעשר השנים האחרונות. אם מאמנים את המערכת על תמונות של פרצופים אנושיים, מקבלים יכולת זיהוי פנים כמו שיש לפייסבוק וגוגל. אם מאמנים אותה על דוגמאות של מילים ומשפטים, מקבלים יכולת זיהוי דיבור כמו שיש לאלקסה של אמזון, ואם מאמנים אותה על חיישנים שמורכבים על מכונית – מקבלים מכוניות שיכולות לנסוע באופן אוטונומי בכביש.

'הבחנה' לעומת 'יצירה'

עד היום, רוב היישומים של טכנולוגית הלמידה העמוקה היו לצורך מה שמכונה 'הבחנה' (Discrimination) – במובן של להבחין בין שני דברים שונים. למשל, החוקרים לימדו את רשתות הנוירונים להבחין בין תמונות שבהן מופיע אדם לתמונות שאין בהן אנשים, או לענות על שאלות כמו 'האם בתמונה הזו יש כלב או חתול?'. הבחנה וסיווג הן יכולות שימושיות מאוד שכאמור מהוות בסיס להמון יישומים מעניינים של בינה מלאכותית – אבל כבני אדם, אנחנו מסוגלים לא רק להבחין ולהבדיל בין דברים שונים, אלא גם ליצור דברים חדשים יש מאין. למשל, אני מסוגל לא רק להבחין בין החתול שלי, נאצ'וס, לבין כלב אקראי שעובר ברחוב – אני גם מסוגל לצייר אותו, לכתוב שירים שמתארים את ההרפתקאות שלו בשכונה שלנו ולהלחין סימפוניה שמהללת את יופיו של החתול המדהים הזה.

טוב, בואו נהיה כנים לרגע: נאצ'וס הוא לא כזה חתול יפה וגם אין לו מי יודע מה הרפתקאות מרשימות כי תכל'ס הוא חתול די עצלן. יותר מזה, גם אם נאצ'וס היה חתול יוצא דופן במקום גוש פרווה מעצבן שגונב אוכל מהשיש ומפיל דברים מהשולחן סתם כדי לראות מה קורה – גם אז, לא הייתי מסוגל לכתוב עליו שירים ולהלחין עליו סימפוניות. למעשה, אפילו לצייר אותו לא הייתי מסוגל. אני יכול לזהות חתול אם אני רואה אחד, אבל אם אנסה לצייר חתול, כנראה שנקבל משהו שנראה יותר כמו הנוסע השמיני. למה? כי יש הבדל עקרוני ומהותי מאוד בין הבחנה לבין יצירה של דברים. כל מי שניסה לצייר משהו יבין את ההבדל העקרוני הזה מיד: בשביל לזהות חתול, אתה צריך בסך הכל מבט חטוף על קצה הזנב, האוזניים המחודדות והשפם – אבל כדי לצייר חתול כמו שצריך, צריך לדעת בדיוק מה אורך הזנב שלו, את הפיתולים האופיינים שלו, את הצורה המדויקת של האוזניים, את מספר השערות בשפם ועוד אלף ואחד פרטים קטנטנים שבלעדיהם – אין חתול.

זו גם אותה הבעיה בה נתקלו חוקרי הבינה המלאכותית שניסו להיעזר ברשתות נוירונים מלאכותיות כדי לאפשר למחשב ליצור מידע חדש יש מאין. עם טכנולוגיית הלמידה העמוקה, קל יחסית ללמד את המחשב לזהות פרצוף אנושי או להבחין בין כלב וחתול. כל מה שהמחשב צריך לעשות זה ללמוד כמה מאפיינים בסיסיים שמגדירים פנים אנושיות או כאלה שמפרידים בין כלבים וחתולים: למשל, להיות מסוגל לזהות אף, עיניים ופה, או להבדיל בין אוזן של חתול לאוזן של כלב.

אבל כדי לצייר תמונה מוצלחת של פנים אנושיות, המודל הממוחשב צריך להיות הרבה יותר חכם והרבה יותר מדויק. הוא לא רק צריך לזהות עיניים בתמונה – הוא צריך לדעת שהעיניים בדרך כלל נמצאות מתחת לגבות, ושלגבות יש צורות אופייניות מסוימות ולא צורות אחרות, ושאם הדמות בתמונה היא נקבה אז סביר להניח שאין לה שפם – ועוד אינספור פרטים קטנטנים שכל אחד מהם בפני עצמו עשוי להיות כמעט חסר חשיבות, אבל ביחד הם מגדירים את מה שאני ואתם נסכים עליו שהוא פרצוף אנושי.

לרוע המזל, רשתות הנוירוניים המלאכותיות לא היו טובות ורגישות מספיק כדי להסיק את כל הפרטים הקטנטנים האלה מתוך הדוגמאות שניתנו להן. כשביקשו החוקרים מרשתות הנוירונים ליצור מידע חדש על סמך המידע שכבר למדו, התוצאות היו זוועתיות. תמונות של פרצופים אנושיים, למשל, היו במקרה הטוב מטושטשות ומרוחות, ובמקרה הרע מעוותות ועקומות עד כדי אבסורד. היה ברור לכולם שמשהו באופן שבו רשתות נוירונים לומדות מידע חדש לא מספיק טוב כדי לאפשר להן להבחין בכל הפרטים הקטנים האלה, ואחר כך ליצור דוגמאות חדשות של המידע הזה.

כל זה השתנה בערב אחד, תוך פחות משעה, אחרי ויכוח בין שני חברים בפאב.

איאן גודפלו

איאן גודפלו (Ian Goodfellow) נראה כמו חנון. באמת. אם הייתם נותנים לבינה מלאכותית אלף תמונות של חנונים ומבקשים ממנה לצייר תמונה של חנון חדש – היא הייתה מציירת את איאן גודפלו. הוא ממושקף, רזה, יש לו זקן תיש משונה רק על הסנטר, בלי שפם, והתספורת שלו נראית כאילו מישהו שם לו סיר של חמין על הראש וחתך את מה שיוצא מהצדדים.

גודפלו התחיל את לימודי התואר הראשון שלו באוניברסיטת סטנפורד בתחומי הכימיה והביולוגיה, אבל לא היה סטודנט מוצלח במיוחד. כשהבין שכימאי דגול לא ייצא ממנו, החליף את התואר למדעי המחשב – עם התמקדות ספציפית בבינה מלאכותית. המעבר הזה התברר כמוצלח מאד, לא מעט בזכות העובדה שאחד התחביבים שלו היה פיתוח משחקי מחשב – והמעבדים שבהם משתמשים כדי להריץ מערכות בינה מלאכותית הם אותם מעבדים גרפיים שמשמשים גם למשחקי מחשב. בנוסף, לגודפלו היה את המזל ללמוד תחת שרביטם של שניים מהחוקרים הבולטים ביותר בתחום הבינה המלאכותית בעשר השנים האחרונות – אנדרו נג (Ng) ויושוע בנג'יו (Bengio). במסגרת לימודי התואר השני והדוקטורט, נחשף גודפלו למגוון השיטות הקיימות להשתמש ברשתות נוירונים כדי ליצור מידע חדש – מה שמכונה 'מודלים גנרטיבים', מלשון To Generate, 'ליצור' – ולחסרונות והיתרונות של כל אחת מהשיטות האלה.

באחד הערבים, בשנת 2014, ישב גודפלו בבר עם חבר, והשניים דיברו על המודלים הגנרטיביים השונים והבעיות שלהם. הערה לעצמי: להכניס כאן בדיחה גנרית על חנונים שיושבים בבר ומדברים על בינה מלאכותית במקום להתחיל עם בנות. עוד הערה לעצמי: גם אתה חנון שיושב בבר ומדבר על בינה מלאכותית במקום להתחיל עם בנות, אז אולי כדאי לרדת מזה. בכל אופן, תוך כדי שיחה, עלה במוחו של איאן רעיון. מה יקרה, הוא שאל את עצמו, אם ניתן לרשתות הנוירונים ללמוד תוך כדי משחק. הכוונה למשחק בין שתי רשתות נוירונים יריבות: אחת שתייצר מידע חדש – למשל, תמונה של פנים אנושיות – ורשת שניה שתנסה לגלות אם התמונה המוצגת לה היא תמונה של אדם אמיתי – זאת אומרת, מישהו שצילמו אותו – או לחילופין זיוף שיצרה רשת הנוירונים היריבה.

הרעיון הזה, של לימוד ושיפור תוך כדי משחק בין שני צדדים יריבים, הוא לא רעיון חדש כמובן. כמעט כל ספורט אנושי מבוסס על העיקרון הזה, משחמט ועד כדורגל. גם בעולם הטכנולוגיה היו לא מעט דוגמאות קודמות להצלחות כאלה, כמו לדוגמה מדען בשם ארתור סמואל (Samuel) שכבר בשנות החמישים של המאה הקודמת פיתח תוכנה שלמדה לשחק דמקה באמצעות משחק נגד עותק אחר של עצמה. גודפלו תהה אם אפשר יהיה בדרך זו לאמן רשת גנרטיבית ליצור תמונה משכנעת של פנים אנושיות – בדיוק באותו האופן שבו שחמטאי יכול להשתפר אם ניתן לו לשחק נגד שחקנים טובים ומאתגרים יותר.

העניין הוא שזה קל כמו שזה נשמע. לא קל לאמן רשתות נוירונים מלאכותיות לבצע משימות חדשות: זו פעולה שדורשת המון מומחיות וניסיון, והיא לא פחות אמנות מאשר הנדסה. הרעיון של גודפלו דרש לאמן לא רשת אחת – אלא שתיים, בו זמנית. האם זה בכלל אפשרי? גודפלו חשב שכן, ואחרי שחזר הביתה מהפאב – עוד באותו הערב – התיישב מול המחשב ובתוך פחות משעה יצר את מה שחלוץ אחר בתחום הבינה המלאכותית, יאן לקון (LeCun), כינה – 'הרעיון המדליק ביותר בתחום הלמידה הממוחשבת בעשרים השנים האחרונות.' הרעיון הזה, שמוכר כיום בשם Generative Adversarial Networks ('רשתות גנרטיביות יריבות', בתרגום חופשי) או בקיצור 'גאן' (GAN) – התפוצץ בשמי עולם הבינה המלאכותית כמו זיקוק בוהק והזניק את איאן גודפלו – אז בקושי בן שלושים – למעמד של סופרסטאר. המאמר שפרסם גודפלו ב-2014 הפך לאחד המאמרים המצוטטים ביותר של השנים האחרונות בתחום מדעי המחשב, הוא מרצה מרכזי בכנסים בינלאומיים, גוגל חטפה אותו להוביל את אחת מקבוצות הפיתוח היוקרתיות ביותר שלה, ומאז הספיק גודפלו להוביל קבוצה דומה גם באפל.

GAN

בואו נצלול לעומקה של הטכנולוגיה החדשה הזו, ונבין כיצד היא עובדת. לצורך העניין אני אתאר מערכת שמפיקה תמונות של פנים אנושיות, אבל גאן מתאימה באופן עקרוני למגוון רחב מאוד של סוגי מידע שונים כגון סרטוני וידאו, דגימות קול של דיבור אנושי ועוד ועוד. גם מרבית החוקרים בתחום מעדיפים לעשות את הפיתוחים הראשוניים שלהם על מערכות שמפיקות תמונות כיוון שכשמדובר בתמונות או סרטונים שרואים בעיניים, קל יחסית לדעת אם המערכת עובדת כמו שצריך או שהיא מפיקה תוצאות לא טובות. בנוסף, כשמדובר בתמונות עומדים לרשות החוקרים מגוון רחב של כלים ותוכנות, כמו גם סטים סטנדרטיים בתעשייה של תמונות מסוגים שונים – מדוגמאות של כתב יד ועד תמונות של סלבריטאים.

כאמור, מערכת גאן מורכבת משתי רשתות נוירונים מלאכותיים שלכל אחת תפקיד מוגדר: רשת אחת היא הרשת הגנרטיבית – דהיינו, הרשת שמייצרת מידע חדש – והרשת השניה היא הרשת הדיסקרימינטורית, מלשון To Discriminate, 'להבחין בין שני דברים'. לצורך ההסבר, נדמה את הרשת הגנרטיבית שלנו לזייפן כספים ואת הרשת הדיסקרימינטורית לחוקר משטרה שבודק את השטרות שמפיק זייפן הכספים ומנסה להחליט אם הם אמיתיים או מפוברקים.

נתחיל ברשת הגנרטיבית. השלב הראשון הוא לאמן אותה אימון בסיסי, בנפרד מהרשת השניה, כדי שתלמד איך נראים פנים אנושיות. לצורך כך נזין אותה בהמון תמונות של פרצופים שונים ומשונים, ומתוך אותם אלפי פרצופים הרשת תסיק את המאפיינים הבסיסיים שמגדירים 'פנים', ואת הקשרים החבויים בין המאפיינים האלה: איפה מותר לעין להיות בפנים ואיפה לא, מה הקשר בין רוחב האף וגודל השפתיים, מה מאפיין פנים נשיות ומה מאפיין פנים גבריות וכדומה. במילים אחרות, אנחנו לא רוצים שרשת הנוירונים שלנו תלמד בעל-פה איפה נמצא כל איבר בפנים, כמו סטודנט שלמד בעל פה את כל התרגילים בחוברת ההכנה למבחן. אנחנו רוצים שהרשת תגלה ותגדיר דפוסים 'כלליים' ועקרוניים יותר במידע שהיא מקבלת, כדי שבהמשך תהיה מסוגלת ליצור פרצופים חדשים ושונים זה מזה, ולא רק העתקים של פנים שראתה בדוגמאות.

שלב האימון הראשוני הזה חשוב כדי להביא את הרשת הגנרטיבית לרמת יכולת בסיסית – אחרת, הרשת הגנרטיבית תפיק רק ג'יבריש חסר משמעות. תחשבו על זה כך, אם אני רוצה ליצור זייפן כספים מוצלח אני לא אתחיל ממישהו שלא ראה בחיים שלו שטר או מטבע. אני ארצה ללמד אותו את הבסיס של המקצוע, ורק אז אתן לו להתמודד מול חוקר משטרה מנוסה כדי לחדד ולשפר את יכולות הזיוף שלו.

אחרי שסיימתי לאמן את הרשת הגנרטיבית אימון בסיסי, אני לוקח את הרשת השניה – הרשת הדיסקרימינטורית – ומאמן גם אותה בנפרד אימון בסיסי כדי שתדע גם היא לזהות פנים אנושיות, ובדיוק מאותה הסיבה: בסיכומו של דבר, אני רוצה להביא את שתי רשתות הנוירונים לרמה בסיסית זהה כדי שיהיו יריבות ראויות זו לזו.

כעת הגיע הזמן לחבר את שתי הרשתות אחת לשניה. ניקח את המוצא של הרשת הגנרטיבית ונחבר אותה לכניסה של הרשת הדיסקרימינטורית. בנוסף, נחבר לרשת הדיסקרימינטורית כניסה נוספת לתוכה נזין תמונות של אנשים אמיתיים, לא מזויפים. הרשת הדיסקרימינטורית תצטרך להבחין בין התמונות האמיתיות ובין התמונות המזויפות שהפיקה הרשת הגנרטיבית. באנלוגיה שלנו – חוקר המשטרה יקבל על שולחנו זוג שטרות, אחד אמיתי ואחד מזויף, ומטרתו תהיה להצביע על אחד מהם ולומר – "זה מזויף" או "זה אמיתי".

כעת אפשר להתחיל במשחק. כדי שהרשת הגנרטיבית תפיק תמונה מזויפת, עלינו ראשית להזין לתוכה מספר אקראי כלשהו. המספר האקראי הזה ישמש כגרעין, שעליו יכולה הרשת הגנרטיבית לבנות את הפנים הספציפיות שהיא מציירת בעזרת הידע שצברה על הקשרים החבויים שבין חלקי הפנים. אפשר לדמות את זה לסדנת כתיבה שבה המנחה נותן את המשפט הראשון של הסיפור, וממנו צריך התלמיד לפתח סיפור שלם. האקראיות הזו תבטיח לנו שהרשת הגנרטיבית תפיק בכל פעם תמונה חדשה וייחודית.

את התמונה החדשה הזו אנחנו מעבירים אל הרשת הדיסקרימינטורית ולצידה תמונה אמיתית, לא מזויפת. הרשת הדיסקרימינטורית תבחן את התמונות – ותקבע מי מהן אמיתית ומי המזויפת. אם הרשת הדיסקרימינטורית צדקה, סימן שהרשת הגנרטיבית לא עשתה עבודה מספיק טובה: אולי האף בתמונה לא היה בדיוק במקום הנכון, או אולי השפם של האישה היה על המצח שלה. המערכת תשנה את עוצמת הקשרים בין הנוירונים ברשת הגנרטיבית כדי לנסות ולשפר אותה – ותנסה שוב. הרשת הגנרטיבית תיצור תמונה חדשה, שונה מעט מקודמתה: פנים שונות, שיער אחר, עם או בלי זקן וכדומה.

אם הרשת הדיסקרימינטורית טעתה, וחשבה שהתמונה המזויפת היא בעצם תמונה אמיתית, סימן שהיא לא מספיק טובה, ולכן המערכת תשחק עם הקשרים בין הנוירונים של הרשת הדיסקרימינטורית ותנסה לשפר את יכולת ההבחנה שלה.

בכל סיבוב של המשחק הוירטואלי הזה, שתי הרשתות ילכו וישתפרו בהדרגה עד שנגיע לתוצאה הסופית הרצויה, והיא – שהרשת הדיסקרימינטורית טועה בזיהוי התמונה המזויפת חמישים אחוזים מהזמן. מצב כזה שקול, מבחינה מעשית, להטלת מטבע – ומשמעותו שזייפן הכספים שלנו מפיק שטרות מזויפים באיכות כל כך טובה, עד שאפילו חוקר המשטרה המיומן לא יכול לזהות אותם טוב יותר מאשר ילד בן שלוש שמנחש את השטרות באקראי.

כעת, כשהאימון הסתיים, אפשר לפרק את מערכת הגאן ולשלוף את הרשת הגנרטיבית החוצה – שהרי נזכור שמטרת האימון הייתה ליצור רשת גנרטיבית טובה שאפשר יהיה להשתמש בה אחר כך לדברים אחרים. נזכור שחוקר המשטרה קיים במשחק שלנו רק כדי להוות 'יריב אימונים' לזייפן, ואחרי שנסתיים האימון אין בו צורך יותר.

הפוטנציאל של GAN

אפשר למלא מאמרים שלמים במשוואות מתמטיות שמסבירות מדוע שיטת גאן מפיקה רשת גנרטיבית טובה כל כך – אבל בסופו של דבר, כפי שאומרים האנגלים, The proof is in the pudding. כבר במאמרו הראשוני של איאן גודפלו משנת 2014 הוא הראה כיצד המערכת החדשה שלו מפיקה תמונות מזויפות של פנים אנושיות שהיו טובות יותר באופן משמעותי מכל אלה שקדמו לה. לשיטת גאן יש יתרון אדיר נוסף, והוא העובדה שאימון רשתות הנוירונים נעשה כאן ללא מעורבות אנושית – מה שמכונה בשפה המקצועית 'לימוד לא מפוקח', Unsupervised training. כל ההחלטות של המערכת וכל התיקונים והשינויים ברשתות הנוירונים עצמן נעשים באופן עצמאי ואוטומטי לחלוטין, ואין צורך באדם שיתערב בתהליך ויתייג כל תמונה כמזויפת או אותנטית – עובדה שחוסכת המון זמן ומאמץ לחוקרים.

היתרונות הברורים של הגאן הביאו לשטף של מחקרים ופיתוחים חדשים שהתבססו על המאמר המקורי של גודפלו. נכון להיום ישנן לא פחות מ-510 וריאציות שונות על הגאן המקורי, שכל אחת מהן משפרת ומעדכנת את המודל באופן כלשהו. למתעניינים, אפשר למצוא רשימה מלאה של הוריאציות באתר GitHub, תחת השם The GAN Zoo – 'גן החיות של הגאן', בתרגום חופשי. יש StyleGAN, ו CycleGAN, DiscoGAN, SAGAN ואיך לא – VEEGAN. אגב, לטובת מחלקת הפיתוח של רכבת ישראל – BALAGAN עדיין פנוי, לדעתי.

תשומת הלב הזו מצד מדענים וגם מצד לא מעט חברות מסחריות משקפת את הפוטנציאל האדיר של הטכנולוגיה המסעירה הזו במגוון תחומים. למשל, בעיבוד תמונה ווידיאו: המחשב יוכל לנקות תמונות וסרטונים מרעשים והפרעות, ולצבוע מחדש סרטים שצולמו בשחור לבן.

במסחר מקוון – לדוגמה, חנויות אינטרנט לבגדים או משקפיים. היום אנחנו יכולים לראות איך נראים החולצה והמשקפיים שאנחנו שוקלים לקנות על דוגמנים ודוגמניות – אבל לפחות במקרה שלי, מסתבר שחולצה שנראית מעולה על בראד פיט לא בהכרח תראה מעולה עלי. אני חושד שזה קשור באופן כלשהו להבדלים הזעירים בצבע העיניים שלנו. טכנולוגיית גאן תאפשר לנו, וכנראה שדי בקלות, להעלות תמונה או סרטון שלנו לאתר יחד עם מספר נתונים בסיסיים כמו משקל וגובה – והמחשב יוכל 'להלביש' את הפריטים על דמותנו הוירטואלית ולהראות לנו איך באמת ניראה עם הבגדים שבחרנו. חוקרים של סמסונג כבר הדגימו כיצד הם לוקחים תמונה סטילס יחידה של אדם, והופכים אותה לסרטון וידאו. במאים וצלמים לא יזדקקו עוד לדוגמנים ודוגמניות בשר ודם בהפקות האופנה הדיגיטליות שלהם: ניתן יהיה ליצור סרטון אמין ומשכנע מאוד שכולו מאוכלס בדמויות וירטואליות שהן 'פרי דמיונו' של המחשב. אותו העיקרון נכון גם לגבי עולמות וירטואליים של משחקי מחשב, שחקנים שהלכו לעולמם לפני שנים רבות שיחזרו לחיים על המסך ושחקנים מבוגרים יחזרו לימי נעוריהם.

שוב, היכולת הטכנולוגית הזו קיימת גם היום: הנשיא קנדי חזר לחיים ב'פורסט גאמפ' כבר לפני שלושים שנה, ובסרט 'רוג 1' של סדרת מלחמת הכוכבים ראינו את קארי פישר הוירטואלית חוזרת להיות הנסיכה ליאה בת ה-19. אבל בכל המקרים היכולת הזו הייתה כרוכה בהשקעה לא טריוויאלית של כסף, זמן וכמות לא מבוטלת של מומחיות. הנה דברים שכתב מפתח תוכנה שהצליח לשחזר את הסצנה המדוברת של קארי פישר ב'רוג 1' באמצעות מערכת גאן:

"בצילום המקורי מ'רוג 1' מופיעה קארי פישר כאנימציה ממוחשבת. תקציב הסרט: 200 מיליון דולר. הנה זיוף שעשיתי בעשרים דקות. התקציב שלי: אפס דולרים וכמה שירים של פליטווד מק ברקע."

במילים אחרות, טכנולוגיית הגאן תביא את היכולת הטכנולוגית המורכבת הזו 'אל העם', ותהפוך אותה לזולה וזמינה הרבה יותר מכפי שהיא היום.

למעשה, היא כבר ירדה אל העם. ומה עשתה האנושות עם הטכנולוגיה המהפכנית ביותר בתחום הבינה המלאכותית בחמש השנים האחרונות? את מה שאנחנו נוהגים לעשות עם כל טכנולוגיה מהפכנית שאנחנו ממציאים. כן, ניחשתם נכון. פורנו.

מירוץ חימוש

בנובמבר 2017 יצר משתמש אנונימי של האתר Reddit פורום – או Sub-Reddit כפי שמכונים פורומים כאלה – בשם deepfakes. היה זה אירוע מכונן בדברי ימי הטכנולוגיה שכן אותו משתמש אנונימי – שגם הוא הסתתר מאחורי שם המשתמש deepfakes – הוא זה שהמציא את המילה החדשה הזו כדי לתאר סרטונים ותמונות מזוייפים שנוצרו בעזרת בינה מלאכותית.

הסרטונים שהעלה deepfakes לרשת היו ברובם סרטוני פורנו קצרים, שבהם הוחלפו פניהן של השחקניות המקוריות בפניהן של שחקניות הרבה יותר מפורסמות, כמו גל גדות וסקרלט ג'והנסן. בתוך שבועות ספורים זכה הפורום החדש להצלחה אדירה ומשך אליו למעלה מתשעים אלף מנויים שצפו בסרטונים וחלקם אף החלו להעלות סרטונים חדשים שיצרו בעצמם. עיתונות המיינסטרים עלתה על העניין בתוך פחות מחודשיים, והעיתונאית סמנתה קול (Cole) פרסמה כתבה באתר Motherboard בדצמבר של אותה השנה תחת הכותרת הפרובוקטיבית AI-Assisted Fake Porn Is Here and We’re All Fucked (בתרגום חופשי – 'בינה מלאכותית יוצרת פורנו מזויף וכולנו אכלנו אותה'). בכתבתה ראיינה קול את deepakes תחת הכסות האנונימית שלו, והוא סיפר שכל הסרטונים שלו נוצרו בעזרת תוכנות בינה מלאכותית בקוד פתוח ותמונות וסרטונים שמצא בגוגל. הנהלת רדיט הגיבה במהירות, סגרה את הפורום החדש וחסמה את החשבון של deepfakes – אבל זה כבר היה מאוחר מדי. חודש לאחר מכן, בינואר 2018, יצר משתמש רדיט אחר תוכנה חינמית בשם FakeApp שהפכה את תהליך יצירת הסרטונים המזוייפים לאפילו פשוט עוד יותר – ומכאן והלאה החלו סרטוני דיפ-פייק לצוץ באלפיהם ברחבי האינטרנט. רוב הסרטונים הראשונים היו באיכות נמוכה למדי: הפנים המולבשות לא תמיד התאימו למבנה הגוף של השחקן או השחקנית בסרט המקורי, ותנועות השפתיים לא בהכרח תאמו את פס קול הדיבור – אבל מהר מאוד למדו היוצרים החובבנים לשפר את בחירת הדמויות והסרטונים שלהם, וגם הטכנולוגיה עצמה השתפרה במהירות. חלק מסרטוני הפורנו המזוייפים האלה הופצו תחת כותרות מטעות, כאילו באמת מדובר בסרטוני סקס מודלפים. במקביל, הולבשו פניהם של שחקנים ושחקניות מפורסמים גם על דמויות מסרטים וסדרות ישנות כמו סילבסטר סטאלון שנכנס לנעליו של ארנולד שוורצנגר ב'שליחות קטלנית 2', וניקולס קייג' שנכנס…פחות או יותר לכל מקום.

ההתפתחות המפתיעה והמהירה בתחום הדיפ-פייקס והשימושים הבעייתיים שלה יצרה מעין "מירוץ חימוש" בין יוצרי הסרטונים והתמונות המזוייפות – לבין החוקרים בתחום הבינה המלאכותית שמנסים למצוא דרכים לגלות את הזיופים האלה ולתייג סרטונים כדיפ-פייקס, בשאיפה ברגע שהם עולים לרשת, עוד לפני שהם הופכים לויראליים. הפרק הבא, חלקו השני והאחרון של הסדרה הזו, יתמקד במירוץ החימוש הזה. מהם הסימנים המזהים, אם יש כאלה, לכך שתמונה או סרטון שנראים לנו מציאותיים לחלוטין – הם בעצם זיופים שנוצרו על ידי בינה מלאכותית? התשובה לשאלה הזו תיקח אותנו אל האופן שבו מוחנו מפענח מידע ויזואלי ואודיופני, ואפילו אל ההבדל בין מוחנו למוחם של עכברים. כל זאת ועוד, בפרק הבא של עושים היסטוריה.

2 מחשבות על “[עושים היסטוריה] 295: Deep Fakes (דיפ-פייקס), חלק א' – בינה מלאכותית מזייפת מציאות”

  1. שאלה אליך:
    יתכן שתדבר על זה בפרק הבא, אבל ליתר ביטחון אני שואל: האם באמת מהרגע שזה הומצא אז גם בתעשיית הסרטים התחילו להשתמש בזה והעלויות נהיו נורא נמוכות? כי לפי מה שאתה אומר אמור להיות מעכשיו כמויות כפולות של סרטים ובזול הרבה יותר…
    קצת התפלאתי גם אם זה כל כך פשוט, איך זה שזה לא נוסף לאף תוכנה חוקית של עריכת סרטים, כמו נניח אדובי פרימיר או מתחרותיה?
    בכל מקרה תודה מאוד על הפרק היפה.
    נ"ב קשה לי מאוד לדרג פרקים, כי כולם מאוד יפים בעיני, היה צריך שהדירוג יהיה יחסי, נניח יחסית לפרקים אחרים על… איך זה בעיניך.
    אבל סתם צוחק, באמת הפרק הזה היה מיוחד על נושא שמרתק עבורי בתור מפתח

    הגב
    • הי, יעקב! שאלה מצויינת. אני לא יכול להכנס לראש של מפתחי התוכנות ואולפני הסרטים – אבל מהכרותי עם הטכנולוגיה, אין לי ספק שהיא תשולב בהפקות הסרטים. זה לא יהיה הגיוני לא לנצל טכנולוגיה כל כך זמינה וזולה. יכול להיות שאנחנו בתקופת מעבר מסויימת כיום, כשהמומחים (שעדיין מעדיפים
      את הכלים המוכרים להם) שואלים את עצמם אם כדאי לנסות את הדבר החדש, או להשאר עם מה שהם מכירים…אבל אי אפשר לעצור את הקדמה, כנראה 😉
      רן

      הגב

כתוב/כתבי תגובה