Бот или нет?

Знаете ли вы, что 8,5% от общего числа тви-аккаунтов - боты? Для более детального понимания картины приведём ещё одну цифру: «чирикающая» социальная сеть насчитывает 271 млн активных пользователей. Получается, что в ленте живёт 23 млн «нечеловеков». Действия ботов негативны как для рекламодателей, теряющих целевую аудиторию, так и для нас с вами, вынужденных читать и даже общаться с несуществующими людьми. Да-да, некоторые особо продвинутые боты умеют поддерживать простые беседы, сбивая с толку твиттерян. Как вычислить мусорный аккаунт? Давайте познакомимся с опытом американских инженеров, разработавших алгоритм вычисления ботов в твиттере.

Но для начала давайте вернёмся в 2011 год. Команда исследователей из Техасского университета A&M создала кибер-ловушку для аккаунтов, захламляющих ленту. Принцип ловли был прост. «Охотники» размещали твиты бессмысленного содержания, на которые реальный человек в здравом уме вообще не отреагировал бы ни ретвитом, ни комментарием, ни подпиской на автора сообщения. В 60 мышеловок угодили 36 тыс. потенциальных ботов. «Неживые» аккаунты проявляли здоровую активность по отношению к любому контенту, с которым они столкнулись, за что и были пойманы с поличным.

С тех пор социальные боты значительно поумнели. Они находят аккаунты популярных и влиятельных людей, подписываются на них и пытаются привлечь внимание звезды, отправляя ей сообщения. Боты в состоянии определить ключевые слова и найти соответствующее им содержание. Самые продвинутые умеют отвечать на вопросы, используя алгоритмы общения естественного языка.

Таким образом, идентификация тви-ботов стала куда более тяжёлой задачей. Но Эмилио Феррара (Emilio Ferrara) со своими приятелями из Индианского университета в Блумингтоне заявляют, что они разработали способ отсеивания сложных ботов от реальных людей.

Предложенная методика относительно проста. Компания обратилась к результатам эксперимента своих американских коллег 2011 г. и выбрала 15 тыс. выявленных тогда ботов. После чего исследователи отобрали приблизительно по 200 последних твитов и 100 сообщений с упоминанием бота относительно каждого из них. Таким образом в выборку попало 2,6 млн твитов. Затем группа повторила процедуру для 16 тыс. человеко-пользователей, собрав коллекцию из более чем 3 млн. посланий.

Наконец, исследователи создали алгоритм под названием «Bot or Not?» («Бот или нет?»), обработавший полученные на начальном этапе данные. Алгоритм проанализировал более тысячи особенностей, связанных с аккаунтами, таких как количество твитов и ретвитов, размещённых каждым пользователем, число ответов, упоминаний, длину имени пользователя и даже возраст профиля.

Оказалось, что существуют значительные отличия между людьми и ботами. Последние ретвитят гораздо чаще чем реальный человек, количество символов в их имени несколько больше, а возраст профиля моложе. Люди, в свою очередь, получают больше ответов, упоминаний и ретвитов.

Комплекс выясненных факторов складывается в «отпечаток пальца» каждого профиля, по которому и можно определить бота. По словам Эмилио, "Bot or Not?" может похвастаться подающей надежды точностью обнаружения.

Разумеется, стоит оговорить некоторые нюансы. Во-первых, команда изучала поведение ботов, пойманных три года назад. За прошедшее время машино-аккаунты успели набраться мозгов и их поимка явно усложнилась. Во-вторых, нужно учесть, что в некоторых случаях имеет место пограничная ситуация. То есть аккаунт реального человека сознательно передаётся на откуп роботу либо используется ботами после взлома профиля. Эмилио признаётся, что подобные нюансы методика не в состоянии распознать.

Тем не менее, если вы заинтересовались алгоритмом, можете опробовать его в деле на специальном веб-сервисе. Просто введите имя интересующего вас пользователя, а "Bot or Not?" попытается определить, бот ли он.

Выскажем своё впечатление от испытания сервиса. Прежде всего, нам не удалось с первой попытки завести сердце алгоритма — выдавалась ошибка, и как следствие, нулевой результат. Но мы не привыкли отступать от взятого курса, и с N-ой попытки прогнали профиль @twi_by через "Bot or Not?".

Bot or Not (twi_by)

Выдача полна различных диаграмм и графиков, но главный показатель — стрелка реальности. Как видим, профиль скорее жив, чем «мёртв». И вам рекомендуем предпринять несколько попыток проверки аккаунта, если с первого раза ничего не выйдет.

(via)

One Response to “Бот или нет?

  1. promos

    Ботов легко определять через сервисы число твитов, дата последнего твита и т.д.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>