Задача обработки Web-журналов

Вторая задача – это классическая SQL-агрегация с использованием раздела GROUP BY над таблицей посещений пользователями некоторых Web-сайтов. Такие данные типичны для журналов Web-серверов, и подобные запросы обычно используются для анализа трафика. В этом эксперименте мы использовали набор данных объемом в 2 терабайта, состоящий из 155 миллионов записей, которые были разделены по 100 узлам (20 гигабайт на узел). Каждая система должна вычислить общий объем дохода от рекламы, полученного для каждого IP-адреса, посещение которого зарегистрировано в журнале. Подобно предыдущей задаче, требуется прочитать все записи, и поэтому индексация таблицы СУБД не помогает. Можно было бы подумать, что при решении этой задачи отличится Hadoop, потому что здесь требуются прямолинейные вычисления, но результаты в табл. 1 показывает, что системы баз данных превосходят Hadoop даже в большей степени, чем при решении задачи Grep.

Содержание раздела