Alle Tage wieder: irgendwer regt sich fürchterlich über Referral-Spam auf. Dann wird ganz tief in die Trickkiste gegriffen: die .htaccess wird ergänzt, WordPress-Plugins werden installiert, Google Analytics wird um Filter ergänzt, … etc. Das kostet viel Zeit und ab und an auch Server-Performance. Dabei ist das so viel Mühe für nichts. Denn:
Referral-Spam ist egal! Unwichtig! Irrelevant!
Ja, genau das. Das einzige Ziel des Spammers ist es, dass Du da draufklickst. Das solltest Du also lassen. Ansonsten ist der Spam schlicht und einfach egal. Lass ihn links liegen und kümmere Dich um den Content Deiner Website.
Wie funktioniert das mit dem Spam?
Möglichkeit 1: der Bot besucht Deine Website und hat das Feld „Referrer“ mit der Spam-URL gefüllt. Das kann man schlicht frei wählen, was den Spam so einfach macht.
Möglichkeit 2: der Bot besucht Deine Website getarnt als normaler Nutzer, liest Deine Analytics ID aus, und spammt dann direkt auf diese ID. Diese Methode lässt sämtliche Tricks in der .htaccess sinnlos werden, da der Besucher ja nie mit Spam im Referrer-Feld Deine Website besucht.
Möglichkeit 3: der Bot errät einfach Deine Analytics ID und spammt dann direkt auf diese ID. Auch hier ist die .htaccess wirkungslos, der Bot besucht einfach nie Deine Website.
Die Bots laufen meist auf irgendwelchen Botnetzen, welche wiederum aus geknackten Windows-Büchsen oder geknackten Rootservern bestehen (ja, genau DESWEGEN solltest Du dir nur dann einen Rootserver zulegen, wenn Du damit umgehen kannst, ansonsten besser Webspace oder Managed Server). Das ist de Facto kostenlos für die Spammer.
Websites und Analytic IDs werden recht zufällig ausgewählt, das hängt von der Arbeitsweise der Bots ab. Oft wird einfach geraten. Kostet ja nichts, wenn 99 % Fehlschläge dabei sind, die Botnetze machen das schon. Die Stromrechnung zahlt ja wer anders (nämlich der Mensch mit dem infizierten Windows-System).
Aber der Spam verfälscht meine Statistik!
Jeden Tag kommen Bots auf Deiner Seite vorbei, die Deine Statistik verfälschen. Bots, die nach Sicherheitslücken suchen. Bots, die Deine Inhalte archivieren. Und eben auch Bots, die Analytic IDs suchen. Oder Bots mit gefälschtem Referrer. Es gibt mal mehr, mal weniger solcher Bots.
Die Besonderheit der Referral-Spammer-Bots ist: sie machen sich bemerkbar. Deswegen regst Du Dich gerade so tierisch über die Bots auf. Weil Du sie siehst. Andere Bots waren schon lange vor dem Referral-Spammer-Aufkommen da.
Nur Bots – die gibt es immer. Meistens unsichtbar (und nein, es gibt keine Methode, Bots sicher als Bots zu erkennen). Sie machen Statistik ungenau. Das ist nun einmal so. Das kannst Du nicht ändern. Eine Statistik richtig lesen bedeutet, Tendenzen zu erkennen. Ob sich nun 3 oder 4 Menschen für Schokokekse interessieren ist dagegen ziemlich egal.
Aber der Spam zeigt doch bestimmt an, dass mein Server gehackt wurde!
Nein. Das hat damit nichts zu tun. Man braucht schlicht keinerlei Informationen, die in irgendeiner Weise intern auf Deiner Website wären. Wenn man die Analytics ID errät, braucht man nicht einmal Deine Website dafür.
Aber das gibt doch bestimmt ein schlechtes Ranking, weil die Verweildauer heruntergeht!
Das glaube ich nicht. Erstens wäre das ein sehr schlechter Rankingfaktor, weil sie z.B. keine Daten kriegen, weil ich kein Analytics einsetze. Zweitens kennt Google das Problem doch selbst, und bei Google arbeiten keine technischen Laien. Die bauen doch keine Rankingfaktoren ein, die mehr von dem seit Jahren üblichen Bot-Hintergrundrauschen im Web abhängen als von irgendwas anderes. Das ist doch keine Frickelbude.
Aber meine Seite war doch noch nicht mal in Google drin!
Na und? Es gibt eine Reihe an Wegen, auch so an deine URL zu kommen. Zum Beispiel, indem man sie einfach errät. Oder indem man direkt die Analytics ID errät. Die robots.txt wird dabei übrigens auch ignoriert. Das ist eine Empfehlung an Suchmaschinen wie Google. Mehr nicht.
Aber das ist doch total schädlich für meine Domain!
Nein. An welchem Punkt sollte das schädlich sein?
Aber warum werden denn nur einige Domains von mir zugespammt?
Welche Domains zugespammt werden, hängt von dem Algorythmus ab, nach dem der Bot Domains und / oder Analytics IDs auswählt. Das ist also schlicht und ergreifend Zufall. Ganz wie bei einer Schrotflinte – die Verteilung ist ziemlich willkürlich.
Aber niemand kennt meine Domain!
Na und? Die Domain kann man einfach erraten. Oder durch soziale Netzwerke bekommen. Oder man kann einfach direkt die Analytics ID direkt erraten.
Aber man muss doch irgendwas tun können?
Gegenfrage: Wozu? Was bringt Dir das? Die Reduktion von 4 auf 3 Schokokeksinteressenten, weil das eine ein Referral-Spam-Bot war (und von den anderen 3 Besuchern du nicht weißt, ob das Bots waren)?
Wenn Du es wirklich nicht lassen kannst: befolge eine der 1001 Tutorials da draußen. Aber es bringt Dir nichts. Schreibe lieber einen guten Artikel. Da hast Du mehr von.
Sehr nett geschrieben…
Nervig ist es aber trotzdem 😉 Aber letztlich geb ich Dir Recht, die Zeit die man aufwendet um Filter in GA, Anpassungen in der .htaccess usw vorzunehmen, kann man tatsächlich deutlich sinnvoller verwenden!
[…] sectio-aurea.org/2015/05/warum-referrer-spam-egal-ist-solange-du-nicht-draufklickst/ […]
ich liebe deinen Schreibstil 😀
Im Grunde schadet es schon, wenn manche (ja das gibt es) die Log-Dateien öffentlich haben und diese dann indexiert werden und somit mehr Domains auf die Referer-Domains zeigen.
Ebenso kostet dies auch oftmals Traffic.
Toller Artikel! Ich kümmere mich jetzt wieder um andere Dinge als die Spam-Referrals. 🙂
Du hast sicher recht.
Andererseits, wenn ich die Boots in der .htaccess alphabetisch liste, dann bleiben sie draußen und ich muss sie nicht ständig sehen. 😉
Meine .htacess muss ich nur alle paar Wochen mal um eine Adresse ergänzen. das ist schneller gemacht, als mich x-mal zu fragen, warum da immer wieder jemand von solch einer Adresse kommt.
Das mit dem Ignorieren ist für eine eigene Seite ja ok, aber erklär mal einem Kunden, dass das alles egal ist und er sich auf andere Zahlen konzentrieren soll. Und viele Bots sind unterwegs: richtig. Aber die meisten anderen Bots auf deiner Seite laden halt keinen Analytics-JavaScript-Code und tauchen somit nicht in den Berichten auf.
Ich würde immer zumindestens das Häkchen in den Datenansichtseinstellungen setzen und einen Hostfilter anlegen. Das dauert 2 Minuten und schließt bislang über 90% des Spams aus.