⭐ נקודות עיקריות
- תקלה פנימית ב-Cloudflare גרמה אתמול לשיבושים גלובליים, כולל באתרים כמו גאדג’טי, X ו-Spotify.
- שינוי בהרשאות במסד הנתונים יצר קובץ הגדרות שגוי שהפיל את מערכת הניתוב המרכזית של Cloudflare.
- התקלה הובילה לגלי קריסה והחלמה שנמשכו כשלוש שעות, עד להשבת השירותים.
- ב-Cloudflare מצהירים כי מדובר בתקלה החמורה ביותר מאז 2019 ויפעלו למנוע משהו דומה בעתיד.
אתמול (ג’, 18.11) חוותה Cloudflare תקלה משמעותית שהשביתה חלקים גדולים מהאינטרנט למשך שעות.
בין האתרים שלא היו זמינים ניתן היה למצוא את X (טוויטר לשעבר), Spotify ועוד שירותים רבים – וגם אתר גאדג’טי סבל מאי זמינות מצטברת של כשעתיים. כעת, Cloudflare מספקת הסבר מפורט למה שהתרחש.
מה זה Cloudflare?
כדי להבין את סדר גודל התקלה יש להבין תחילה מה עושה החברה:
Cloudflare מספקת מגוון שירותים, אך שתי השכבות העיקריות הן בהאצה של אתרים (CDN) ובאבטחה.
למשל, בגאדג’טי אנחנו נעזרים בשירותים של Cloudflare כדי שטעינת האתר תהיה מהירה יותר. במקום שבכל גישה לאתר תפנו ישירות לשרת החזק ומרשים שלנו, תקבלו עותק מהאתר שנשמר בשרתי Cloudflare, שהם כנראה בסדר גודל של כמו בן-אדם מול נמלה בהשוואה לשרת שלנו, מרשים ככל שיהיה.
זה מאפשר לנו ולכם להמשיך וליהנות מזריזות בעליית הכתבות, תמונות ועוד גם בזמנים בהם יש עומס גבוה על האתר, כמו באירועים טכנולוגיים גדולים. מי שהיה עם גאדג’טי בשנים הראשונות, ודאי זוכר שהשרת שלנו קרס לא פעם בזמן אירועים כאלה.

מה גרם לתקלה ב-Cloudflare?
לפי החברה, לא מדובר במתקפת סייבר או בניסיון זדוני כלשהו, אלא בטעות פנימית שנוצרה בעקבות שינוי בהרשאות במסד נתונים פנימי.
השינוי גרם לשאילתה שאחראית לבניית קובץ הגדרות של מערכת זיהוי הבוטים להחזיר נתונים כפולים. כתוצאה מכך, קובץ ההגדרות התנפח פי שניים מהרגיל.
הקובץ המעודכן הופץ אוטומטית לכלל שרתי הרשת של Cloudflare, אך התוכנה שאחראית על ניתוב התעבורה הוגדרה לקבל קובץ קטן יותר.
כשהיא נדרשה להתמודד עם הגרסה הגדולה, היא קרסה – מה שהוביל לגל של שגיאות HTTP 5xx עבור משתמשים ברחבי העולם.
למה זה נראה כמו התקפת ענק?
בתחילת האירוע זיהו הצוותים של Cloudflare תנודות חריגות בעומסים על הרשת, שהתאימו לתרחיש אפשרי של מתקפת DDoS גדולה.
במקביל, גם עמוד הסטטוס החיצוני של Cloudflare חווה תקלה (ללא קשר ישיר לאירוע), מה שחיזק עוד יותר את החשד שמדובר במתקפה משולבת.
רק לאחר ניתוח נוסף הבינו המהנדסים שהשיבושים אינם נובעים מתעבורה עוינת, אלא מקובץ הגדרות שגוי שנוצר כל חמש דקות מחדש – לעיתים תקין, ולעיתים פגום – בהתאם לשרת שעליו רצה השאילתה.
איך התקלה תוקנה?
אתמול ב-16:24 (שעון ישראל) צוותי Cloudflare עצרו את הפקת הקובץ הבעייתי והחזירו לגרסה תקינה של הקובץ. לאחר מכן הופצה הגרסה התקינה לכלל השרתים בעולם, והמערכת החלה להתאושש.
ב-16:30 רוב תעבורת הרשת חזרה לפעול, ובמשך השעות שלאחר מכן החברה טיפלה בשירותים הנלווים שנפגעו – כמו Workers KV, מערכת Access ומנגנוני הזדהות נוספים. ב-17:06 כל השירותים שבו לפעילות מלאה.

מי הושפע מהאירוע?
התקלה פגעה בשירותים המרכזיים ביותר של Cloudflare, ובהם:
- CDN ואבטחת אתרים – המשתמשים קיבלו שגיאות 5xx ולא יכלו להגיע לאתרים מאחורי Cloudflare.
- Turnstile – מנגנון האימות קרס, מה שמנע כניסה למערכות מסוימות.
- Workers KV – שירות האחסון חווה שגיאות משמעותיות.
- Access – אימות משתמשים נכשל באופן נרחב.
- הדאשבורד – רוב המשתמשים לא הצליחו להיכנס לחשבון.
ההשפעה הייתה רחבה במיוחד משום ש-Cloudflare משמשת כ”שכבת התווך” עבור חלק גדול מהאינטרנט: אתרים, אפליקציות ושירותים תלויים בה כדי לאפשר גישה מהירה ומאובטחת למשתמשים.
התקלה החמורה ביותר מאז 2019
בפוסט הרשמי מציינת החברה כי לא חוותה תקלה חמורה כל כך יותר מ-6 שנים.
לצד ההתנצלות, Cloudflare מתחייבת לשורת צעדים לשיפור המערכת, ובהם חיזוק מנגנוני אימות לקבצי הגדרות, הוספת “מתגים גלובליים” לכיבוי פיצ’רים בעת תקלה, ושיפור אופן הטיפול בדוחות שגיאה כדי שלא יעמיסו על הרשת.
התקלה הייתה תוצאה של שינוי פנימי זעיר שהוביל לשרשרת אירועים בלתי צפויה, אך עבור מיליוני משתמשים ברחבי העולם – כולל בישראל – זה הספיק כדי להשבית אתרי ענק לשעות ארוכות ולהמחיש עד כמה תלוי האינטרנט בשירותיה של Cloudflare.