זו הפכה לחותמת גומי שמאפשרת לזהות במהירה טקסטים שנכתבו באמצעות בינה מלאכותית: בפסקאות רבות שנכתבות באמצעות ChatGPT מופיע אותו מקף אופקי ארוך —, מה שמכונה באנגלית Em Dash, במקומות שבהם בעברית נהוג להיעזר בפסיק, נקודה או מקף קצר. התוצאה נראית לעין מנוסה כמשונה וגם כלא תקנית, שכן בעברית העיתונאית וגם בכתיבה יום יומית יש העדפה ברורה להימנע משימוש במקפים ארוכים. אלא שדווקא מודלים גדולים של שפה נוטים לא פעם לייצר מקפים כאלה באופן אוטומטי.
הסיבה לכך טמונה באופן שבו המודלים לומדים את השפה: במהלך האימון שלהם הם קולטים כמויות אדירות של טקסטים במגוון שפות ובהן אנגלית, שבה ה-Em Dash נפוץ ומקובל מאוד. משום שהכמות הגדולה ביותר של טקסטים באינטרנט מגיעה ממקורות באנגלית, המודל מפנים את סגנונות הכתיבה האלה וממשיך לשלבם גם כאשר הוא מתבקש להפיק טקסט בעברית. מבחינת ChatGPT המקף הארוך הוא סימן פיסוק לגיטימי ונפוץ.
גם כשמשתמשים מסבירים לו להימנע מהמקף הארוך, המודל עלול עדיין להכניס אותו, פשוט מפני שחלק מהמנגנונים האוטומטיים שמחליטים כיצד לחבר משפטים מסתמכים על מבנים שכיחים שהוא למד ממקורות זרים. למעשה, ChatGPT אינו “מבין” את כללי העריכה העבריים לעומק, אלא עובד לפי סטטיסטיקה של מילים ודפוסי כתיבה שנלמדו מראש, ולכן הוא מייצר שוב ושוב תבניות שבהן מופיע המקף הארוך.
הבעיה מוחמרת עוד יותר כשכותבים טקסט ארוך או טקסט רשמי. במצבים כאלה, המודל מנסה “לרווח” את המשפטים ולהוסיף הדגשות, ותופס את ה-Em Dash כאמצעי נוח לסימון הפסקה פתאומית או הערה מוסגרת. בלי הנחיה ברורה וחוזרת, ואפילו אז לא תמיד בהצלחה, ChatGPT יחזור לסגנון האנגלי שאליו הורגל.
אז מה בכל זאת אפשר לעשות כדי לצמצם את התופעה? ראשית, כדאי להקפיד לציין במפורש בתחילת כל פנייה למודל את ההעדפה להשתמש בפסיקים או בנקודות בלבד, בלי מקפים כלל. למשל לכתוב: אל תשתמש במקף ארוך בטקסט, אלא בפסיקים או נקודות. זוהי בקשה שחשוב לחזור עליה גם בהנחיות חוזרות, כי המודל “שוכח” בקלות את דרישות הסגנון כשהוא מייצר תשובות חדשות.
שנית, לאחר הפקת הטקסט, מומלץ לבצע בו סריקה ידנית או אוטומטית ולהחליף את כל ה-Em Dash במקף קצר או בפסיק. אפשר לעשות זאת גם באמצעות פונקציות חיפוש והחלפה בתוכנות עיבוד תמלילים.
שלישית, כאשר מזינים למודל דוגמאות סגנוניות בעברית תקנית מראש, עם שימוש עקבי בפסיקים או נקודות, אפשר לסייע לו ללמוד מההקשר ולהימנע מהכנסת המקפים הארוכים.
חשוב להבין שמדובר במגבלה שורשית של מודל שפה גדול שנבנה במקור על בסיס טקסטים ברובם באנגלית, ולכן אפילו עם הנחיות ברורות לא תמיד יהיה ניתן למנוע לחלוטין הופעה של מקף ארוך. זהו בעצם “הרגל” סטטיסטי שהשתרש בליבת המודל. ולכן, מי שמתכנן להכין טקסטים לעבודת גמר, לרשתות החברתיות, לעבודה או מאמר, חייב לקחת בחשבון עריכה נוספת. כי גם הבינה המלאכותית המתקדמת, עדיין לא יכולה להחליף לגמרי את היכולת האנושית.