Математики нашли способ сжимать Большие Данные для удобства анализа. KiT :: Будь в СЕТИ!

Математики нашли способ сжимать Большие Данные для удобства анализа

KiT :: Каталог соцсетей

КиТ :: Будь в СЕТИ!

Ученые Лаборатории искусственного интеллекта МТИ и Хайфского университета разработали метод поиска подмножеств, сохраняющих ключевые математические отношения своих источников, — огромных срезов данных. Способ отличается универсальностью и применимостью в широком круге областей, включая анализ текстов на естественном языке, машинное зрение, обработку сигналов, системы выдачи рекомендаций, прогнозирование погоды, финансовую аналитику, нейробиологию и другие.

Метод основан на геометрической интерпретации данных — представлении их в виде гиперсферы и поиске средних значений в подмножествах. Репрезентативность выбранных подмножеств исследователи доказывают математически. Действуя по принципу понижения размерности, метод позволяет радикально уменьшить затратность анализа разреженных данных с помощью широко применяемых методик, таких как латентно-семантический анализ, метод главных компонент и др.

Ученые показали действенность своего метода на примере матрицы, устанавливающей соответствие между статьями англоязычной Википедии и используемыми в них словами. В такой таблице — 1,4 млн строк (статей) и 4,4 млн столбцов (слов). Алгоритм позволил выявить кластеры слов, наиболее характерных для 100 самых распространенных тем в Википедии. Например, кластер со словами «платье», «невеста», «подружка» и «свадьба» соответствует теме свадеб, а «оружие», «выстрел», «заклинил», «пистолет» и «стрельба» — теме стрельбы.