Метод основан на геометрической интерпретации данных — представлении их в виде гиперсферы и поиске средних значений в подмножествах. Репрезентативность выбранных подмножеств исследователи доказывают математически. Действуя по принципу понижения размерности, метод позволяет радикально уменьшить затратность анализа разреженных данных с помощью широко применяемых методик, таких как латентно-семантический анализ, метод главных компонент и др.
Ученые показали действенность своего метода на примере матрицы, устанавливающей соответствие между статьями англоязычной Википедии и используемыми в них словами. В такой таблице — 1,4 млн строк (статей) и 4,4 млн столбцов (слов). Алгоритм позволил выявить кластеры слов, наиболее характерных для 100 самых распространенных тем в Википедии. Например, кластер со словами «платье», «невеста», «подружка» и «свадьба» соответствует теме свадеб, а «оружие», «выстрел», «заклинил», «пистолет» и «стрельба» — теме стрельбы.