חברת CloudFlare, המוכרת יותר דרך שירות ההגנה שלה לאתרים נגד מתקפות DDoS, פרסמה דוח מפורט החושף כי Perplexity, המפתחת את מנוע החיפוש המתקדם ומבוסס הבינה המלאכותית באותו השם, משתמשת בזחלני AI נסתרים כדי לעקוף הגבלות באתרים ולהתעלם מהנחיות ה-robots.txt שנועד לסמן לזחלנים כי בעלי האתר אינם מסכימים לקצירת המידע מהאתר שלהם.
החקירה של Cloudflare החלה לאחר שלקוחות החברה דיווחו כי Perplexity ממשיכה לגשת לתוכן שלהם למרות שחסמו במפורש את הבוטים הרשמיים של החברה – PerplexityBot ו-Perplexity-User.
לפי הבדיקה, החברה משנה באופן פעיל את זהות הבוטים שלה, מחליפה כתובות IP ואף מתחזה לדפדפני כרום רגילים כדי לגשת לתוכן שאסור לה. גילוי זה מעלה שאלות רציניות לגבי האתיקה של חברות AI בתחום איסוף הנתונים.
מה זה בכלל “זחלן AI” אינטרנט?
זחלן AI או AI Crawler הוא תוכנה אוטומטית שסורקת אתרי אינטרנט ואוספת תוכן לצורך אימון מודלי בינה מלאכותית.
בעוד שבעבר בעלי אתרים הסכימו לסריקה של זחלנים של חברות דוגמת גוגל בתמורה לתנועת גולשים, זחלני ה-AI פועלים בצורה שונה ואינם מספקים תמורה הולמת לבעלי האתרים, דבר שגרם לחברה להציג מוקדם יותר השנה את AI Labyrinth נגד בוטי “סקרייפינג” (Scraping).
מתודולוגיית המחקר
Cloudflare יצרה מספר דומיינים חדשים שלא היו נגישים לציבור ולא עברו אינדוקס על ידי מנועי חיפוש. הדומיינים כללו קובץ robots.txt המונע גישה לכל הבוטים, וכללי WAF שחסמו ספציפית את הבוטים הרשמיים של Perplexity.
למרות זאת, כאשר שאלו את Perplexity שאלות על התוכן באתרים אלו, המערכת הצליחה לספק מידע מפורט על התוכן החסום.
הבדיקה הראתה כי Perplexity משתמשת לא רק בבוטים הרשמיים שלה, אלא גם בבוט נסתר המחקה דפדפן כרום רגיל. הבוט הנסתר מבצע 3-6 מיליון בקשות יומיות.
עקיפת מערכות הגנה
Cloudflare זיהתה כי Perplexity משתמשת במספר טכניקות להסתרת זהותה. החברה מחליפה כתובות IP שאינן ברשימה הרשמית שלה, משנה את ה-ASN (מספר המערכת האוטונומית) ולעיתים אף לא טוענת קבצי robots.txt לפני הגישה לאתר. התנהגות זו נצפתה על פני עשרות אלפי דומיינים עם מיליוני בקשות ביום.
כאשר הבוט הנסתר נחסם בהצלחה, Perplexity עברה להשתמש במקורות נתונים אחרים, אך התשובות שהתקבלו היו פחות ספציפיות וחסרות פרטים מהתוכן המקורי – מה שמעיד על כך שהחסימה הייתה יעילה.

השוואה להתנהגות נכונה
Cloudflare הדגישה כי חברות AI מובילות אחרות פועלות בשקיפות מלאה. OpenAI, לדוגמה, מזהה בבירור את הבוטים שלה, מכבדת הנחיות robots.txt ולא מנסה לעקוף חסימות רשת.
כאשר Cloudflare ביצעה את אותו מבחן עם ChatGPT, הבוט של OpenAI הפסיק לסרוק מיד לאחר שנתקל בהנחיות robots.txt האוסרות גישה.
בעקבות הממצאים, Cloudflare הסירה את Perplexity מרשימת הבוטים המאומתים שלה והוסיפה כללי זיהוי להגנה מפני הסריקה הנסתרת.
החברה הדגישה כי האינטרנט בנוי על אמון, ובוטים צריכים להיות שקופים, לכבד העדפות אתרים ולפעול בתום לב.
Perplexity טרם הגיבה רשמית לטענות Cloudflare, כאשר המקרה מדגיש את החשיבות של פיקוח על התנהגות חברות AI באיסוף נתונים מהאינטרנט.