Реализация в распределенной среде
Реализации MapReduce от Google и Hadoop ориентированы на использование в кластерной распределенной среде со следующими основными характеристиками:
-
узлы среды выполнения MR-приложений обычно представляют собой компьютеры общего назначения с операционной системой Linux;
-
используется стандартное сетевое оборудование с адаптерами, расчитанными на скорости передачи в 100 мегабит в секунду или 1 гигабит в секунду, но средняя пропускная способность существенно ниже;
-
кластер состоит из сотен или тысяч машин, так что вполне вероятны отказы отдельных узлов;
-
для хранения данных используются недорогие дисковые устройства, подключенные напрямую к отдельным машинам;
-
для управления данными, хранящимися на этих дисках, используется распределенная файловая система;
-
пользователи представляют свои задания в систему планирования; каждое задание состоит из некоторого набора задач, которые отображаются планировщиком на некоторый набор узлов кластера.