MapReduce внутри, снаружи или сбоку от параллельных СУБД


Реализация в распределенной среде


Реализации MapReduce от Google и Hadoop ориентированы на использование в кластерной распределенной среде со следующими основными характеристиками:

  • узлы среды выполнения MR-приложений обычно представляют собой компьютеры общего назначения с операционной системой Linux;

  • используется стандартное сетевое оборудование с адаптерами, расчитанными на скорости передачи в 100 мегабит в секунду или 1 гигабит в секунду, но средняя пропускная способность существенно ниже;

  • кластер состоит из сотен или тысяч машин, так что вполне вероятны отказы отдельных узлов;

  • для хранения данных используются недорогие дисковые устройства, подключенные напрямую к отдельным машинам;

  • для управления данными, хранящимися на этих дисках, используется распределенная файловая система;

  • пользователи представляют свои задания в систему планирования; каждое задание состоит из некоторого набора задач, которые отображаются планировщиком на некоторый набор узлов кластера.



Содержание раздела