Как очистить отчёты Аналитикс от спама

В последнее время, в отчётах многих аккаунтов Аналитикс стали появляться «чужеродные вкрапления», чаще всего это ложные события или псевдо переходы с сайтов, известные как referral-спам:

Реферальный спам в Гугл Аналитикс

Откуда спам появляется?



Причиной появления этого мусора стал Measurement Protocol, ставший доступным с выходом последней версии Universal Analytics. Сама по себе это вещь полезная, так как позволяет отправлять в Аналитикс данные с любых платформ и устройств, а не только с сайта. Буквально, с помощью простого браузера вы можете отправить любое событие Аналитикс в любой аккаунт, без проверок и валидаций.

Но как мы знаем, в плохих руках даже безобидный робот Чаппи может стать опасным оружием ;) Поэтому и здесь нашлись умельцы, которые стали использовать эту технологию во вред — рассылать спам, просто перебирая номера аккаунтов.

Важно отметить, что такой способ спама никак не затрагивает ваш сайт, он только засоряет отчёты Аналитикс. Поэтому если вы видите в своих отчётах подобный спам, то не стоит сразу паниковать, что вас взломали. Скорее всего это просто спам-трафик.

Но в некоторых случаях, действительно причиной спама может быть взлом сайта или активность ботов. Поэтому, если метод очистки от спама, предложенный в этой статье, вам не поможет, тогда стоит провести более тщательную проверку на ботов или взлом.

Несмотря на то, что прямой угрозы спам-трафик не несёт, очищать его всё равно нужно. Так как он искажает ваши показатели, да и порой просто мешает работать с отчётами.

Как быстро выявить спам трафик



У всей этой спам схемы есть один недостаток, который помогает довольно точно вычислить, что это спам. Рассыльщики такого спама просто перебирают номера счётчиков, они не знают доменов, которым эти счётчики принадлежат. В этом можно убедиться, если отобрать спам трафик и посмотреть для него параметр «имя хоста».

У нормального трафика имя хоста должно содержать название вашего домена или на крайний случай домены сервисов, которые пользуются вашим сайтом:
У нормального трафика правильные хосты в Аналитикс

У спам трафика обычно либо вообще не указан домен, либо указаны какие-то явно левые названия:
Хосты реферального спама в Аналитикс

Соответственно, весь трафик, у которого имя хоста не совпадает с вашим доменом, с высокой вероятностью является спамом.

Как очистить отчёты от спама



Для этого нам надо будет настроить фильтр, который будет исключать всё, что не соответствует вашему домену. Сделаем это по шагам.

Шаг 1: Заходим в отчёты «Аудитория -> Технологии -> Сеть», над открывшейся таблицей кликаем ссылку «Имя хоста». Перед вами откроется список доменов вашего сайта, как их определяет Аналитикс. Из этого списка вам надо выбрать достоверные домены. Обычно это сам домен сайта, его поддомены и иногда несколько сервисов (переводчики).

Шаг 2: Складываем полученный список доменов в RegEx строку, которую будем использовать в фильтре. Для этого запишите все домены в строку, вместо запятых поставьте «|», а перед каждой точкой поставьте «\». Поддомены можно не писать, они зачтутся с основным доменом. Должно получится примерно так:
domen1\.ru|domen2\.ru|translate-tool\.com

Шаг 3: Заходим в раздел «Администратор» и настраиваем фильтр для вашего представления, как показано на картинке:

Фильтр для очистки реферального спама в Аналитикс

Такой фильтр будет пускать данные только для ваших доменов. Теперь спам трафик перестанет поступать в ваш профиль. Но что делать с тем спамом, который уже накопился в отчётах? Для этого переходим к следующему шагу.

Шаг 4: Чтобы очистить отчёты ретроспективно, надо создать сегмент, который исключит из отчётов активность с других доменов, как показано на картинке:

Сегмент для очистки отчётов Аналитикс от реферального спама

Применяйте этот сегмент при работе со старыми данными.

Вот такой довольно простой, но действенный способ.

Удачного вам анализа!

Хотите прочитать еще что-нибудь полезное?

  • Похожих записей нет
Время публикации: 05 Авг 2015
Опубликовано в рубрике Без рубрики |

Поделитесь с друзьями:





14 комментариев Включайтесь в обсуждение!

Дмитрий написал 5 Авг, 2015 - 05:08:53

Спасибо за интересное решение данной проблемы. До этого я использовал блокировку по IP, но некоторая часть все равно проскакивала (около 1,5% за 6 мес).

Вопросы:

1. Как подобное настроить в яндекс-метрике?

2. у меня около 1% имени хоста определился как (not set) — показатель отказов огромный, поэтому думаю, что это тоже рефспам. Ваше мнение?

Сергей написал 5 Авг, 2015 - 06:08:38

Спасибо большое за рабочий способ избавиться от спама, а то уже не знал что с ним делать!

Евгений написал 5 Авг, 2015 - 06:08:17

Добрый день!

Давно подписан на вашу рассылку, спасибо!

По исключению спама посмотрите пожалуйста все ли правильно joxi.ru/82QY9BxH0BEo2d

почему-то пока не фильтруются старые данные. уже выходил, сбрасывал кэш.

Даниил - Автор блога написал 5 Авг, 2015 - 06:08:34

Дмитрий, в Метрике такого спама быть не должно, так как спам идёт через технологию которая работает только с Аналитикс. Да, трафик с именем хоста (not set) скорее всего спам.

Даниил - Автор блога написал 5 Авг, 2015 - 07:08:10

Евгений, спасибо за комментарий, обнаружил у себя ошибку в скриншоте сегмента. Сейчас исправил, проверьте тоже.

Дмитрий написал 5 Авг, 2015 - 07:08:07

мне кажется, что вы были правы в первый раз: мы должны выбрать сегмент, который «соответсвует регулярному выражению». А если мы выберем «НЕ соответсвует регулярному выражению — does not match», то нам будут показан лишь рефспам. Я проверял и у меня все работает корректно.

Юрий написал 5 Авг, 2015 - 09:08:17

Метрика спамится не хуже ГА. Кстати, рефспам там появился даже раньше, чем в ГА. И Measurement Protocol тут не при чём. Он нужен для работы с устройствами/приложениями не поддерживающими JavaScript.

Спамер может спокойно установить у себя на сайте треккер ЯМ или ГА (скрипт) и перебирая ID хоть случайным образом спамить веером всё что шевелится.

Кстати и раньше можно было обходиться без скрипта, формируя «вручную» параметры запроса пикселя с серверов ЯМ и ГА. Но нужно было разобраться как их формировать и отслеживать нововведения.

MP просто облегчил эту задачу.

Даниил - Автор блога написал 5 Авг, 2015 - 10:08:30

Дмитрий, смотрите внимательнее, сегмент ИСКЛЮЧАЕТ все сессии, которые НЕ соответствуют родным доменам.

Даниил - Автор блога написал 5 Авг, 2015 - 11:08:34

Юрий, согласен с вами. Можно было спамить и раньше и в обе системы. Но тогда это не было так распространено. А теперь благодаря MP спамить стало в разы легче именно в Аналитикс, поэтому рефспам так активизировался в последнее время.

Максим написал 6 Авг, 2015 - 01:08:36

Если вы публикуете материал, хоть указывайте автора и то, что это перевод.

Не красиво.

Даниил - Автор блога написал 6 Авг, 2015 - 04:08:33

Максим, я ожидал подобный комментарий ) Да, на западных блогах есть подобные статьи и некоторые из них вышли совсем недавно, наверно поэтому вы и решили, что это перевод.

Если бы я просто занимался обзорами, то да, наверно было бы проще сделать перевод. Но я специалист, который сам в этом варится, сам в этом разбирается и в состоянии самостоятельно написать статью с разбором этой проблемы.

Западные статьи стали лишь сигналом к тому, что тема реферал спама стала на столько актуальной (раз о ней стали писать ведущие блоги), что пора бы её осветить и в своём блоге, поделится опытом.

Школа Ясности написал 5 Сен, 2015 - 04:09:51

Очень понравилась статья. Я и не думал, что всякие share-buttons — это спам.

Юрий написал 3 Дек, 2015 - 03:12:38

Посмотрел в свою ГА, видимо спамеры научились обходить и это.

У мнея явно с левых реферов hostname стоит моего сайта.

Так что нужны новые инструменты...

MakeTop написал 16 Янв, 2016 - 12:01:47

Приятно читать такой материал. Набрел на статью случайно, имея в мс-нот заготовку подобного материала)))

Кстати, так как строка фильтра может принять всего 255 символов, рекомендую написать регулярным выражением. Ну в формате ((buttons\-for\-website|(social|simple)\-share\-buttons)\.com) чтобы блокировать сразу все сайты по одной маске. На большом списке доменов можно существенно снизить количество символов, что уменьшить количество создаваемых фильтров

Оставить комментарий


Внимание, комментарии публикуются не сразу, а после проверки. Я слежу за тем, чтобы комментарии соответствовали теме статьи.
Убедительная просьба, если вы хотите задать вопрос, который не относиться к теме данной заметки, то лучше сделать это через специальную форму.



Ваш комментарий: