התגלית שמוכיחה למה מודלי שפה תמיד בוחרים את אותם מספרים

תשובה מהירה

משתמשים גילו שכשמבקשים ממודל שפה פופולרי לבחור מספר אקראי בין אחד לעשרת אלפים, הוא כמעט תמיד בוחר מספר בטווח המצומצם של שבעת אלפים מאתיים עד שבעת אלפים חמש מאות. התופעה הזו מוכיחה שבינה מלאכותית אינה אקראית לחלוטין, מה שדורש מאיתנו להיזהר כשאנחנו מסתמכים עליה לקבלת החלטות אובייקטיביות.

מה קרה

בחודש מרץ 2026 משתמשים ברשת החברתית Reddit שמו לב לתופעה מוזרה מאוד. הם ביקשו מהצ'אטבוט של OpenAI לבחור מספר אקראי, וגילו שהוא חוזר שוב ושוב על אותה קבוצת מספרים.

התגלית הזו הפכה לוויראלית במהירות והציפה שאלות מרתקות על מודלי שפה. התברר שהמערכת פשוט לא מסוגלת לייצר אקראיות טהורה כפי שאנשים ציפו ממנה.

עובדות מפתח

התופעה מתרחשת כאשר מבקשים מ-ChatGPT לבחור מספר בין אחד לעשרת אלפים.
ברוב המוחלט של המקרים המערכת בוחרת מספר בין 7200 ל-7500.
מודלים של שפה אינם מחוללי מספרים אקראיים אלא מנועים סטטיסטיים שחוזרים על תבניות.
הבעיה נובעת ככל הנראה מהדרך שבה המידע קודד ואומן בשלבי הפיתוח המוקדמים.
חוקרים מעריכים שזה קשור לאופן שבו מספרים מפורקים לאסימונים בתוך הרשת העצבית.

אשליה של אקראיות

כשאנחנו מבקשים ממכונה לבחור משהו באקראי אנחנו מצפים לתוצאה נקייה מהטיות. אבל מודלי שפה פועלים אחרת לגמרי ומנסים לרצות את המשתמש על סמך טקסטים קודמים. הם פשוט שולפים את התשובה שהכי סביר שתופיע בטקסט אנושי דומה.

חקרתי את הנושא ומצאתי שזה נובע ממבנה בסיסי של המערכת. המודל לא מגריל מספר אלא כותב את המילה שההסתברות שלה היא הגבוהה ביותר באותו רגע. מסתבר שמספרים מסוימים פשוט מופיעים יותר בהקשרים ספציפיים במאגרי המידע.

למה מודלי שפה מתקשים עם מתמטיקה פשוטה?

כדי להבין את התופעה צריך להסתכל על הדרך שבה המערכת קוראת נתונים. בני אדם רואים מספר כמו שבעת אלפים מאתיים כיחידה אחת שלמה. אבל מודל שפה מפרק את המספר לחלקים קטנים שנקראים אסימונים, מה שמשבש את ההבנה המתמטית שלו.

הפירוק הזה גורם למערכת לאבד את ההקשר הכמותי של המספר. במקום להבין את הערך המספרי שלו, המודל מתייחס למספר כמו אל רצף אותיות רגיל. לכן הוא מתקשה לבצע פעולות בסיסיות כמו חיבור, חיסור או הגרלת מספרים אקראיים.

ההטיה הספציפית לטווח של שבעת אלפים נובעת כנראה משכיחות בטקסטים. ייתכן שהמספרים האלה הופיעו הרבה בכתובות או בשנתונים מסוימים שהוזנו למערכת בזמן האימון. התוצאה היא שהמודל פשוט שולף את מה שמרגיש לו הכי מוכר.

מה זה אומר לעסק הישראלי?

מנהלים רבים משתמשים היום בכלים האלה כדי לקבל החלטות או לייצר רעיונות מגוונים. אם אתם משתמשים במערכת כדי לבחור זוכים בהגרלה או כדי לפזר נתונים בצורה סטטיסטית, אתם עלולים לקבל תוצאות מוטות מאוד. זה יכול להוביל לבעיות משפטיות או לחוסר הוגנות מול לקוחות!

חשבו על סוכני נדל״ן שנעזרים בבינה מלאכותית כדי לתמחר נכסים או לפזר תקציבי שיווק. הסתמכות עיוורת על המספרים שהמערכת זורקת עלולה לייצר תבניות שחוזרות על עצמן בלי שתשימו לב. הפתרון הוא להשתמש בכלים ייעודיים לסטטיסטיקה ולא במחוללי טקסט.

בנוסף, מחלקות משאבי אנוש נעזרות לעיתים בכלים אלה לסינון קורות חיים. אם המערכת סובלת מהטיות מספריות היא עלולה להעדיף מועמדים עם שנות ניסיון ספציפיות רק בגלל שהמספר נשמע לה נכון יותר. הבנת המגבלות האלה היא קריטית כדי למנוע אפליה לא מכוונת בתהליכי הגיוס.

הסכנה שבהסתמכות יתר על בינה מלאכותית

התגלית הזו מדגימה בעיה רחבה הרבה יותר בעולם הטכנולוגי של היום. אנחנו נוטים לייחס למכונות יכולות על אנושיות ומניחים שהן תמיד מדויקות, אובייקטיביות ונטולות פניות. המקרה של בחירת המספרים מוכיח שההנחה הזו שגויה מיסודה ודורשת חשיבה מחדש.

כאשר משתמשים שואלים שאלות פתוחות, הם מצפים לתשובה מאוזנת. אבל המודל תמיד יחפש את התשובה הסבירה ביותר מבחינה סטטיסטית, מה שמוביל לעיתים קרובות לתוצאות בנאליות או צפויות. זה פוגע ביכולת שלנו לייצר חדשנות עסקית כשאנחנו נעזרים בכלים האלה.

אני רואה הרבה צוותי פיתוח שמנסים לבנות מוצרים על גבי מודלי שפה. כשהם לא מודעים למגבלות האלו הם עלולים להכניס באגים קריטיים למערכות שלהם. לכן חשוב כל כך להכיר את הארכיטקטורה הבסיסית לפני שמשלבים את הטכנולוגיה בתהליכי ליבה עסקיים.

סוג משימה	כלי מתאים	רמת אקראיות
הגרלת זוכים בתחרות	תוכנה סטטיסטית ייעודית	גבוהה ומוכחת
יצירת רעיונות שיווקיים	ChatGPT או Claude	נמוכה ומוטה
חלוקת משמרות עובדים	מערכת שיבוץ אלגוריתמית	מבוססת חוקים
ניסוח טקסטים יצירתיים	מודלי שפה גדולים	משתנה לפי הנחיה

מה צפוי לקרות?

הגילוי הזה צפוי לגרום לחברות הטכנולוגיה הגדולות לעדכן את המנגנונים הפנימיים שלהן. אני מעריכה שנראה שילוב של מחוללי מספרים אקראיים מוכחים בתוך מודלי השפה בחודשים הקרובים. המערכת תדע לזהות בקשה למספר אקראי ותפעיל קוד חיצוני במקום לנחש.

החברות המובילות יצטרכו להיות שקופות יותר לגבי המגבלות של המוצרים שלהן. מפתחים יתחילו להוסיף אזהרות ברורות כאשר משתמשים יבקשו לבצע פעולות מתמטיות או סטטיסטיות מורכבות. זה צעד טבעי בהתבגרות של הטכנולוגיה הזו, שעדיין נמצאת בהתפתחות מתמדת.

עסקים ישראלים יצטרכו לאמץ נהלי עבודה ברורים יותר סביב השימוש בבינה מלאכותית. מנכ״לים ידרשו מהצוותים שלהם להפריד בין משימות יצירתיות למשימות אנליטיות מדויקות. ההבנה הזו תחסוך הרבה טעויות יקרות ותשפר את אמינות הנתונים בארגון.

עד שהמערכות האלו ישתפרו, נראה עלייה בשימוש בתוספים חיצוניים. חברות יפתחו פלאגינים ייעודיים שיחברו את מודלי השפה למנועי חישוב מדויקים. המהלך הזה יהפוך את סביבת העבודה הדיגיטלית להרבה יותר אמינה ומקצועית עבור כולנו.

אל תשתמשו במודלי שפה כמחשבון או כרולטה, אלא רק כמנוע יצירתי.

כשאתם צריכים אקראיות מוחלטת או חישוב מדויק, עברו לכלים מסורתיים שעוצבו בדיוק למטרה הזו. שימוש נכון בכלים הנכונים ימנע מכם לקבל החלטות מבוססות על נתונים שגויים.

אם אתם בכל זאת חייבים להשתמש ב-ChatGPT למשימה כזו, בקשו ממנו לכתוב קוד פייתון שמגריל מספר. הפעלת הקוד תייצר אקראיות נכונה ותעקוף את ההטיה המובנית של מודל השפה. זו דרך חכמה לנצל את היכולות של המערכת בלי ליפול למלכודות שלה.

שאלות נפוצות

למה ChatGPT בוחר דווקא את המספרים האלה?

המערכת מבוססת על זיהוי תבניות בטקסטים שהיא קראה בעבר. המספרים בטווח הזה כנראה מקושרים חזק יותר למילים מסוימות בבסיס הנתונים שלה.

האם זה קורה גם במודלים אחרים כמו Claude או Gemini?

כל מודל שפה סובל מהטיות דומות בגלל האופן שבו הוא בנוי. המספרים המדויקים עשויים להשתנות אבל חוסר האקראיות הוא מאפיין משותף לכולם.

איך אפשר לדעת מתי המערכת טועה?

הכלל הפשוט הוא לא לסמוך עליה בעניינים של עובדות קשות או מתמטיקה. תמיד כדאי לאמת נתונים קריטיים מול מקורות מידע חיצוניים ואמינים.

האם אפשר לתקן את ההטיה הזו?

חברות הפיתוח עובדות על חיבור המודלים לכלים חיצוניים כמו מחשבונים. ברגע שהמודל יידע להפעיל קוד הבעיה הזו תיפתר לחלוטין.

מאמרים נוספים שיעניינו אותך

מקור: Ask ChatGPT to pick a number from 1-10000, it generally selects from 7200-7500 (reddit)

אולה צור

מומחית לשיווק, בנייה וקידום של אתרים מאז 2010, ובתחום הבינה המלאכותית מאז 2022. מייסדת TopicPen, פלטפורמה שעוזרת לעסקים להגדיל לידים ומכירות באמצעות צאטבוטים חכמים וכלי AI.

← קרא עוד

מאמר זה נכתב בסיוע בינה מלאכותית.

מאמר זה נכתב למטרות מידע בלבד. המידע המוצג אינו מהווה ייעוץ מקצועי מכל סוג. יש לבדוק ולאמת כל מידע לפני קבלת החלטות.

← חזרה לבלוג