Новый алгоритм расчета рейтинга «Кинопоиска» отдает предпочтение фильмам с платным просмотром. Мини-расследование

- КиТ :: Будь в СЕТИ!

Вот вроде отшумели события вокруг перезапуска «Кинопоиска», отошедшие пользователи проводят время на прежнем сайте, разработчики с парсерами строят коварные планы, руководством приняты неоднозначной направленности, а всё остальное вернулось на круги своя

Но не всё.

Откат к прежней версии сайта не коснулся рейтингов фильмов. И хотя на  мы можем наблюдать хорошо знакомый многим расклад с «Побегом из Шоушенка» и «Зеленой милей» в качестве лидеров, на страницах самих фильмов, в выдаче «Гугла» и других местах рейтинг отображается новый — тот, который лег в основу (у меня он открывается с перебоями, что наблюдалось и сразу после перезапуска).

И по прошествии недели ничего не поменялось, как бы намекая нам, что новый рейтинг останется надолго, если не навсегда. Не исключаю, что вскоре обновится и старый топ, — может, он держится только потому, что алгоритм расчета рейтингов в нем отличается от алгоритма на страницах фильмов («в топе используются специальные механизмы, препятствующие накрутке рейтинга недобросовестными пользователями»), и этот алгоритм корректирует не новый, а старый рейтинг (в основном, в пределах пары сотых долей).

Общий взгляд

Ну что ж, давайте присмотримся к . Если у вас он не открывается, вы можете воспользоваться . Ей неделя (эту работу я хотел сделать давно и начал в начале прошлой недели, но доделать удалось лишь недавно, потом еще писал пост), но рейтинги за это время изменились незначительно (не более, чем на несколько тысячных, если сравнивать между собой топа; за одним важным исключением — см. дальше).

Что сразу стоит сказать — за все время я так и не увидел относительно нового алгоритма комментариев представителей сервиса. По редизайну какие-никакие содержательные комментарии проскакивали, а вот обстоятельства ввода нового алгоритма расчета рейтинга окутаны глухим туманом. Единственный комментарий, который у нас есть, — это , который выразил опасение, «а не убьют ли они [новая команда „Кинопоиска“] единственный достойный рейтинг фильмов в рунете… и не отправят ли всех своих пользователей на imdb».

То, что заметили все, — резкое падение на 35 позиций двух упомянутых выше лидеров и взлет «Интерстеллара» с 12-й позиции на 2-ю, а также скандальные 8,2 балла вместо 4,8 у треш-фильма «Зеленый слоник» (а после флешмоба пользователей, которые увидели это и решили довести до абсурда, — уже 9,1). Эти изменения могут показаться кому-то странными, но сами по себе их оценивать сложно (за исключением, пожалуй, «Слоника», который я, впрочем, не смотрел). Да, старый рейтинг по этим пунктам был ближе к  (где «Побег из Шоушенка» также на первом месте, а «Интерстеллар» — на 29-м), но это все еще не аргумент.

При более пристальном взгляде обнаруживаются и другие странные и спорные вещи. Для начала — из топа бета-версии убраны все фильмы с количеством голосов менее 70 тыс. (граница установлена опытным путем). Это не такая уж и мелочь: в связи с таким решением из топ-100 вылетает 21 фильм, 152-е место переезжает на 100-е, а 489-е — на 224-е (полную версию нового топа без этих изъятий см. в виде ). 70 тыс. голосов — это более чем серьезная граница; ее еще не преодолели в том числе нашумевший или стартовавший две недели назад в российском прокате и полтора месяца назад в мировом . При этом в старом топе граница была 500, и никаких особых нареканий к нему по этой части я не слышал. Стрелкой соединены позиции в одном и том же топе с порогом в 70 тыс. голосов и без

Такое решение могло быть принято из коммерческих соображений: менее популярные фильмы с меньшей вероятностью окажутся доступными к онлайн-просмотру у партнеров «Яндекса». И действительно: фильмы с количеством голосов менее 70 тыс. в первой сотне топа бета-версии, как правило, сняты далеко в прошлом столетии и либо доступны бесплатно у партнеров «Яндекса», либо недоступны; платного нет ни одного. (Чтобы убедиться в этом, вы можете использовать регулярное выражение ^[^\t]+\t((\d\d?|100)\t|[^\t]+\t(\d\d?|100)\t).+п$ на , о которой рассказано ниже под спойлером. Фильмы вне топа — это те, что с прочерком во втором и третьем столбцах.)

Перейдем к самим рейтингам. Так как топ бета-версии отображает рейтинги вплоть до десятой доли вместо тысячной, вместо него лучше работать с упомянутым .

Фильмы с 1-й по 42-ю позицию охватывают диапазон с 9,465 по 9,000 балла, причем у трех фильмов рейтинг равен ровно 9,000, а следующий за ними имеет рейтинг 8,299. Далее следуют сразу 55 фильмов в диапазоне от 8,271 до 8,200. Ничего себе провал в 0,7 балла! В свою очередь, «девять ровно» — это явно следы какого-то то ли внешнего вмешательства, то ли непонятного округления; остальное же отдает просто каким-то причудливым соотношением факторов в формуле, порождающим неравномерное распределение.

А теперь обратите внимание, что это за три фильма с 9,000: это как раз те самые упавшие «Побег из Шоушенка» и «Зеленая миля», а с ними за компанию и разменявший 5-е место на 38-е «1+1». Опережая все, что будет сказано дальше, сразу же можно обратить внимание на то, что «Побег из Шоушенка» и «1+1» являются фильмами, доступными к бесплатному просмотру у партнеров «Яндекса».

Дальше — больше. За те несколько дней, что я работал с топом, мне выпало стать свидетелем чудесных метаморфоз с рейтингом еще одного фильма — «Хористов». Он упал с 8,745 (та самая «слепая зона» для остальных фильмов) до 8,260 за пару дней. Это невероятное «путешествие» мне даже удалось запечатлеть на webcitation.org при помощи кэша Bing: , , а в настоящий момент у него — . Чувствую себя охотником за паранормальными явлениями. Ни у каких других фильмов рейтинг даже с близкой скоростью не менялся. Этот фильм не является доступным у партнеров «Яндекса» ни бесплатно, ни платно. Еще одна странная деталь — новые рейтинги меняются в странной взаимосвязи с изменением старых. Топ и , фильмы «Леон» и «Интерстеллар»

Подготовка к подсчетам

Надо сказать, что вначале я отнесся к новому рейтингу как к техническим заморочкам новой команды «Кинопоиска», не рассматривая всерьез версию о его умышленном искажении. Это просто не стиль «Яндекса» — компании, которая в целом блюдет свою репутацию; подобные манипуляции для нее должны являться строжайшим табу. Но после первых тревожных звоночков начали закрадываться подозрения. И тогда я решил разобраться во всем предметно.

И коли у нас есть два топа — новый и старый — и даже оба рейтинга для каждого фильма, а также данные по доступности этих фильмов к платному/бесплатному просмотру у партнеров «Яндекса», решение напрашивается простое: сопоставить позиции всех фильмов в одном топе и в другом, а до кучи — и их рейтинги, вычислить среднее арифметическое у платных, бесплатных и всех остальных фильмов и сравнить. Конечно, такой способ не претендует на точность выводов, но общее впечатление составить способен. Простая арифметика

Переходим к делу. В этом месте стоит оговорить, что то, что я проделал, может повторить за мной каждый. Желающие могут проделать это не для 100, а для всех 250 фильмов (если смогут преодолеть вышеупомянутые сложности). Внизу поста я привел регулярные выражения, которые позволяют осуществлять выборку из таблицы выше под спойлером, на случай, если вы хотите работать с ней.

Позиции

1. Для начала посмотрим, как изменились позиции между двумя топами как есть, т.е. без согласования критериев для включения в топ (вырезания из старого топа фильмов с количеством голосов менее 70 тыс. и последующей корректировки позиций, см. выше под спойлером).

Все расчеты в развернутом виде приведены . (Все это, наверное, было бы удобнее провернуть в электронной таблице, но было лень их вспоминать; регулярки + множественные курсоры + копипейст в калькулятор тоже ничего.)

Средняя позиция всех 102 фильмов сместилась на 16,12 вверх (из-за того, что низким позициям в неадаптированном старом топе соответствуют высокие в новом, но не наоборот). Каждый из 29 фильмов с платным просмотром сместился в среднем на 24,89 позиции вверх. Каждый из 21 фильма с бесплатным просмотром сместился в среднем на 5,77 позиции вверх. Каждый из 52 недоступных к просмотру фильмов сместился в среднем на 15,43 позиции вверх.

И самое главное:

Разница между ростом платных фильмов и средним ростом составила 8,77 позиции. Разница между ростом бесплатных фильмов и средним ростом составила -10,35 позиции.

2. Теперь посмотрим, каково в этом участие самого рейтинга, а не рейтинга + критериев для включения в топ. Сравниваем позиции между новым топом и адаптированным для согласования критериев старым.

Расчеты — .

Средняя позиция всех 108 фильмов сместились на 0,96 вверх. Каждый из 30 фильмов с платным просмотром сместился в среднем на 5,97 позиции вверх. Каждый из 24 фильмов с бесплатным просмотром сместился в среднем на 5,91 позиции вниз. Каждый из 54 недоступных к просмотру фильмов сместился в среднем на 1,24 позиции вверх.

Итого:

Разница между ростом платных фильмов и средним ростом составила 5,01 позиции. Разница между ростом бесплатных фильмов и средним ростом составила -6,87 позиции.

Рейтинги

3. Так как рейтинги есть у всех фильмов независимо от количества голосов, мы можем сравнить рейтинги фильмов в совокупной выборке из обоих топ-100 напрямую. Количество фильмов в выборке при этом увеличивается. Сравниваем новый топ с неадаптированным старым.

.

Средний рейтинг всех 120 фильмов вырос на 0,142 балла. Рейтинг каждого из 29 фильмов с платным просмотром вырос в среднем на 0,232 балла. Рейтинг каждого из 28 фильмов с бесплатным просмотром вырос в среднем на 0,023 балла. Рейтинг каждого из 63 недоступных к просмотру фильмов вырос в среднем на 0,154 балла.

Итого:

Разница между ростом платных фильмов и средним ростом составила 0,090* балла. Разница между ростом бесплатных фильмов и средним ростом составила -0,119* балла.

* — Драматическое изменение в рейтинге «Хористов», описанное выше, повысит эти значения на несколько тысячных.

Девять сотых — это не так мало, как может показаться. Если средний рейтинг на старом «Кинопоиске» 7,2, а максимальный — 9,2, и если считать все фильмы от 7 и выше располагающими к просмотру, это ни много ни мало 4% от диапазона «смотрибельной зоны».

4. Наконец, возьмем выборку из второго сравнения и применим ее к рейтингам. Сравниваем рейтинги между новым топом и адаптированным для согласования критериев старым.

.

Средний рейтинг всех 108 фильмов вырос на 0,142 балла (как и в прошлом пункте). Рейтинг каждого из 30 фильмов с платным просмотром вырос в среднем на 0,223 балла. Рейтинг каждого из 24 фильмов с бесплатным просмотром вырос в среднем на 0,054 балла. Рейтинг каждого из 54 недоступных к просмотру фильмов вырос в среднем на 0,136 балла.

Итого:

Разница между ростом платных фильмов и средним ростом составила 0,081 балла. Разница между ростом бесплатных фильмов и средним ростом составила -0,088 балла.

(«Хористов» в этой выборке нет.)

Все вычисления были перепроверены.

Выводы

Разумное сомнение

В принципе, один платный фильм, уехавший на 150 позиций вверх, дал бы тот результат, который приведен во втором сравнении, и это можно было бы считать случайностью. Но таких огромных разниц в позициях между двумя топами нет. Максимальная разница у платных фильмов — 63 позиции, отвоеванные «Безумным Максом: Дорогой ярости», и взлет «Безумного Макса» компенсируется, например, падением «Белого плена» на 38 позиций.

Также, наверное, можно было бы посчитать, насколько такое отклонение вероятно, если бы формула расчета выдавала фильмам случайные позиции в определенных пределах. В силу отсутствия у меня больших познаний в статистике, оставляю это тем, у кого они есть. Но у меня большие сомнения, что такая вероятность сколько-нибудь велика. (Грубым путем убедиться в равномерности отклонения можно, посчитав показатели отдельно для топ-50 и фильмов с 51 по 100 позиции по тем же принципам; что я и проделал — выводы сохраняются (рост 4,44 и 8,19 для платных на второй выборке; второе значение больше, очевидно, оттого, что скачки по топу сильнее).)

Само по себе поднятие рейтингов платных фильмов и проседание бесплатных не означает умысла — могут быть неочевидные факторы, которые по чистому совпадению повышают значение одних переменных и понижают — других. Условно говоря, можно представить, что для старых советских фильмов, у которых чаще всего есть возможность бесплатного просмотра, существуют некоторые особенности проставления им оценок пользователями, которые, с точки зрения нового алгоритма, играют на принижение рейтинга этим фильмам. С другой стороны, сам факт того, что эти совпадения загадочным образом играют на руку коммерческим интересам компании (а не, например, против ее интересов) в любом случае не может быть оставлен без внимания публики.

Что еще? Так как корреляция не означает причинно-следственную связь, в голову приходит гипотеза обратной взаимосвязи.

Пример того, как она работаетИменно это предположение было правдоподобным объяснением феномена, отмеченного в  3-летней давности, где была выявлена предположительная минимальная корреляция между знаками зодиака и особенностями характера. Люди, интересующиеся астрологией, проходили тесты на определение психологического типа. Предложенное объяснение заключалось в том, что их представления о своем знаке зодиака отразились на том, как они отвечали на вопросы теста, отсюда корреляция.

ПодпискаБудь в СЕТИ! Новости социальных сетей - всегда актуальное
 
Группы: ВК | OK | Tg