Метод выявления «троллей» в сетевых сообществах на примере Q&AC. KiT :: Будь в СЕТИ!

Поэтому я решил разбавить сложившуюся атмосферу небольшой околонаучной статьей. Под катом будет несколько формул, прошу не пугаться.

В общем и целом это краткий перевод , размещенной на сайте , с некоторыми моими вставками.

Аннотация

Интернет стал играть более важную роль в жизни людей с момента появления . Взаимодействие между пользователями, дало им возможность свободно обмениваться информацией через социальные сети, форумы, блоги, википодобные сайты и другие интерактивные совместно разрабатываемые медиаресурсы.

С другой стороны, налицо все недостатки концепции второго веба. Контент-ориентированность стала самым важным плюсом и минусом сети одновременно. Вопросы надежности и достоверности информации в полный рост стоят перед владельцами и пользователями интерактивных сообществ. Как и в реальной жизни, в процессе общения через сеть иногда возникают ситуации, когда некоторые пользователи нарушают правила общепринятого . Фактически, чтобы сохранить нормальную атмосферу ресурса, владельцы вынуждены вводить искусственные правила взаимодействия и следить за их соблюдением.

Одним из таких явных нарушений является «троллинг».

«Троллинг» — нагнетание участником общения («троллем») гнева, конфликта путём скрытого или явного задирания, принижения, оскорбления другого участника или участников, зачастую с нарушением правил сайта и, иногда неосознанно для самого «тролля», этики сетевого взаимодействия. Выражается в форме агрессивного, издевательского и оскорбительного поведения. Используется как персонифицированными участниками, заинтересованными в большей узнаваемости, публичности, эпатаже, так и анонимными пользователями без возможности их идентификации. В частном случае «троллинг» — провокация «жертвы» с целью обратить на себя внимание.

В данной статье предлагается новый подход для вычисления злоумышленников. Данный метод базируется на мере конфликта функций доверия между различными сообщениями ветви обсуждения. Чтобы продемонстрировать состоятельность подхода протестируем его на искусственных данных.

В последнее время пути получения информации значительно сместились в сторону ускорения, облегчения и снижения трудозатрат. Фактически, благодаря интернету исследование той или иной темы свелось к простому нажатию кнопки мыши. Хотя по некоторым вопросам сложно найти удовлетворяющий ответ с помощью традиционных поисковых систем. Вместо этого, мы предпочитаем узнавать мнение эксперта.

В результате получил широкое распространение такой инструмент информационного взаимодействия, как сообщества вопросов-ответов (далее Q&AC). Такие системы позволяют каждому пользователю внести свою посильную лепту в развитие сообщества. К сожалению, не все сообщения надежны: некоторые пользователи выдают себя за экспертов, а другие публикуют бесполезные сообщения. Поэтому очень важным процессом становится работа модераторов данных сообществ. Чаще всего увеличение «мусорных» сообщений – результат действия «троллей».

– Q&AC: беглый обзор

А. Пользователи Q&AC

Пользователи — главные действующие лица Q&AC. Условно их можно разделить на: «экспертов», «учащихся» и «троллей».

Эксперты: пользователи, обладающие знаниями или навыками в той или иной области.

Учащиеся: пользователи пытающиеся получить информацию или опыт.

Тролли: лица любыми способами пытающиеся нарушить спокойствие сообщества. Их целью является создание контрпродуктивных обсуждений.

Б. Выявление источников в Q&AC

Многие исследования уже пытались оценить источники информации в сообществах.

В некоторых предлагаются модели оценки авторитетности пользователей, основанные на количестве лучших пользовательских ответов. Лучший ответ здесь определяется спрашивающим пользователем или методом голосования.

В других авторы концентрируются на выборе вопросов, избранных пользователем для ответа. Эксперты всегда предпочитают отвечать на вопросы, в которых более компетентны.

Некоторые авторы предлагают сложные структуры, основанные на когнитивных и поведенческих критериях пользователей, для оценки не только надежности, но и опыта поставщиков информации.

В. Неопределенность в Q&AC

При работе с информацией, поставляемой людьми, мы сталкиваемся с несколькими уровнями неопределенности. Для Q&AC предлагается три уровня неопределенности. Первый связан с экстракцией и интеграцией неопределенности, второй — с информационными источниками неопределенности, третий — с самой сущностью информации. В нашем случае в большей степени нас интересует оценка источников и часть неопределенности связанная с этим. Действительно, в сети, когда сталкиваемся с другими пользователями (т.е. источниками информации), мы практически никогда не обладаем априорным знанием о них.

– Математический аппарат

Одним из математических инструментов для моделирования и обработки неточных (интервальных) экспертных оценок, измерений или наблюдений является .

Теория функций доверия или теория Демпстера – Шейфера использует математические объекты, называемые «функциями доверия». Обычно их основная цель заключается в моделировании степени доверия некоторого субъекта к чему-либо. В то же время в литературе имеется большое количество интерпретаций «функций доверия», которые могут использоваться в различных прикладных задачах.

Предлагаемый в статье подход предполагает использование этой теории в совокупности с введением величины, определяющей конфликт двух сочетающихся функций доверия.

Перейдем собственно к описанию метода.

Одно из важных предположений говорит о том, что «тролли» интегрируются только в популярные ветви обсуждения. Разбиваем дальнейшее описание метода на три шага.

1. Пользовательские сообщения

Исследователи предлагают основные характеристики «троллей»: агрессия, обман, нарушение правил, успех. Также указывают такие поведенческие характеристики как, пренебрежение нормами морали, явные садистские и психопатические наклонности. В контексте данной работы различия между «троллями» и другими пользователями исследователи выделяли вручную из сообщений. Исходя из этого, сообщения могут быть: релевантными, оффтопиком, чепухой или руганью. Определяем рамки характеризующие сообщения: