САМОУЧИТЕЛЬ PHP 4



   forex review       ghjcnbnenrb gbnthf   смотреть тут

HadoopDB архитектурный гибрид технологий

Рынок аналитических баз данных в настоящее время составляет $3,98 миллиардов , т.е. 27% от оцениваемого в $14,6 миллиардов общего рынка программного обеспечения баз данных , и его объем ежегодно увеличивается на 10,3% . Поскольку передовые методы управления бизнесом все чаще основываются на принятии решений на основе данных и неопровержимых фактов, а не на основе интуиции и предположений, у компаний возрастает интерес к системам, которые способны управлять данными, обрабатывать их и анализировать на разных уровнях детализации. Эта тенденция хорошо известна венчурным компаниям, которые в последние годы финасировали не менее десятка новых компаний, создающих специализированное программное обеспечения для аналитического управления данными (например, Netezza, Vertica, DATAllegro, Greenplum, Aster Data, Infobright, Kickfire, Dataupia, ParAccel и Exasol), и продолжают их финансировать несмотря на трудную экономическую ситуацию.
В то же время взрывообразно возрастает объем данных, которые требуется сохранять и обрабатывать в системах аналитических баз данных. Частично это происходит из-за возрастающего уровня автоматизации производства данных (компьютеризуется все большее число бизнес-процессов), увеличения числа датчиков и других устройств, генерирующих данные, перехода на использование Web-технологий при взаимодействиях с заказчиками и нормативных требований со стороны государства, для удовлетворения которых приходится сохранять в режиме онлайн большее число исторических, пригодных для анализа данных. Нередко приходится слышать о компаниях, ежедневно загружающих в свои аналитические системы баз данных более терабайта структурированных данных и обладающих более чем петабайтными хранилищами данных .

Параллельная СУБД для бедных или путь в будущее?
Сложились две точки зрения относительно того, какую технологию следует использовать для анализа данных в такой среде. Сторонники параллельных баз данных утверждают, что производительность и эффективность параллельных систем баз данных делают их хорошо подходящими для выполнения такого анализа.

Параллельная СУБД для бедных
Параллельная СУБД для бедных - 2
Аннотация
Введение
Введение - 2
Введение - 3
Введение - 4
Родственные работы

Требуемые свойства
В этом разделе мы описываемым требуемые свойства системы, разрабатываемой для анализа данных петабайтного масштаба (который скоро станет более распространенным). В следующем разделе мы обсуждаем, по каким причинам системы параллельных баз данных и системы MapReduce по отдельности не удовлетворяют некоторым из этих свойств

Требуемые свойства
Требуемые свойства - 2
Требуемые свойства - 3
Предпосылки и недостатки имеющихся подходов
Параллельные СУБД
Параллельные СУБД - 2
MapReduce
MapReduce - 2

История реализации Hadoop
Основная идея HadoopDB состоит в связывании нескольких одноузловых систем баз данных с использованием Hadoop в качестве координатора задач и сетевого коммуникационного слоя. Запросы распараллеливаются по узлам с использованием среды MapReduce; однако как можно больший объем работы по выполнению запроса "проталкивается" в одноузловые системы баз данных

HadoopDB
История реализации Hadoop
Компоненты HadoopDB
Data Connector
Каталог
Загрузчик данных (Data Loader)
От SQL к MapReduce и планировщику SQL
От SQL к MapReduce и планировщику SQL - 2
От SQL к MapReduce и планировщику SQL - 3
От SQL к MapReduce и планировщику SQL - 4

Тестовые испытания
В этом разделе мы оцениваем систему HadoopDB, сравниваем ее с реализацией MapReduce и двумя реализациями параллельных систем баз данных, используя тестовый набор, впервые представленный в . Этот тестовый набор состоит из пяти задач. Первая из них взята прямо из исходной статьи про MapReduce , авторы которой называют ее характерным представителем распространенных задач MR.

Тестовые испытания
Испытываемые системы
Hadoop
HadoopDB
Vertica
СУБД-X

Тестовые испытания для сравнения производительности и масштабируемости
В первой тестовой задаче ("задаче Grep") требуется просканировать набор данных, состоящий из 100-байтных записей, для нахождения записей, которые содержат заданный шаблон из трех символов. Это единственная задача, в которой требуется обработка большей частью неструктурированных данных, и она была включена в тестовый набор авторами , поскольку упоминалась в исходной статье про MapReduce .

Сравнение производительности
Загрузка данных
Загрузка данных - 2
Задача Grep
Задача фильтрации
Задача агрегации
Задача агрегации - 2
Задача соединения
Задача агрегации с использованием UDF
Задача агрегации с использованием UDF - 2

Сводка описанных результатов
Хотя время загрузки HadoopDB почти в 10 раз больше, чем у Hadoop, эти расходы амортизируются существенно более высокой производительностью выполнения запросов над загруженными данными. Для некоторых задач, таких как задача соединения, десятикратное повышение стоимости загрузки сразу влечет десятикратный же выигрыш в производительности.

Сводка описанных результатов
Отказоустойчивость и неоднородная среда
Отказоустойчивость и неоднородная среда - 2
Отказоустойчивость и неоднородная среда - 3
Отказоустойчивость и неоднородная среда - 4
Обсуждение
Заключение
Благодарности

Аналитические параллельные СУБД сегодня
Возрождение направления DWAA в начале 2000-х, безусловно, связано с упомянутым выше ростом заинтересованности компаний в сравнительно недорогих и эффективных решениях, направленных исключительно на поддержку хранилищ данных и их анализа. Вокруг этого направления стали возникать софтверные стартапы, первым из которых стала компания Netezza

Аналитические параллельные СУБД сегодня
Аналитические параллельные СУБД сегодня - 2
При чем здесь MapReduce?
При чем здесь MapReduce? - 2

MapReduce: модель и реализации
Программная модель MapReduce была придумана несколько лет тому назад в компании Google , и там же была выполнена первая реализация этой модели на основе распределенной файловой системы той же компании GFS (Google File System) . Эта реализация активно используется в программных продуктах самой Google, но является сугубо проприетарной и недоступна для использования вне Google.

Общая модель программирования MapReduce
Реализация в распределенной среде
Выполнение MR-приложения
Отказоустойчивость
Отказоустойчивость - 2
Резервные задачи
Расширенные средства
Функция разделения
Гарантии упорядоченности
Функция-комбинатор

MapReduce внутри параллельной СУБД
Очевидны преимущества клиент-серверных организаций СУБД: в такой архитектуре сервер баз данных поддерживает крупную базу данных, которая сохраняется в одном экземпляре и доступна большому числу приложений, выполняемых прямо на стороне клиентов или в промежуточных серверах приложений.

MapReduce внутри параллельной СУБД
MapReduce внутри параллельной СУБД - 2
Greenplum MapReduce наравне с SQL
MAD Skills: организация хранилищ данных
MAD Skills: организация хранилищ данных - 2
Реализация MapReduce в Greenplum Database

Предпосылки и преимущества использования механизма SQL/MapReduce
Как и у компании Greenplum с ее MAD Skills, у компании Aster Data имеется свой слоган Big Data, Fast Insight, который, по сути, означает то же самое превращение массивно-параллельного хранилища данных в аналитическую платформу. И для этого тоже используется технология MapReduce, встроенная в СУБД.

Aster Data MapReduce
Преимущества использования SQL/MapReduce
Преимущества использования SQL/MapReduce - 2
Синтаксис, семантика SQL/MapReduce
Синтаксис, семантика SQL/MapReduce - 2
Синтаксис, семантика SQL/MapReduce - 3

Параллельная СУБД на основе MapReduce
Начну этот раздел с того, что в одной из первых серьезных статей, посвященных сравнению эффективности технологий MapReduce и массивно-параллельных СУБД при решении аналитических задач , утверждалось, что развитость и зрелость технологии параллельных СУБД категории sharing-nothing позволяет им обходиться стоузловыми кластерами для поддержки самых крупных сегодняшних аналитических баз данных петабайтного масштаба.

Параллельная СУБД на основе MapReduce
Параллельная СУБД на основе MapReduce - 2
Общая организация HadoopDB
Немного про Hadoop MapReduce
Собственные компоненты HadoopDB
Собственные компоненты HadoopDB - 2
Собственные компоненты HadoopDB - 3
Собственные компоненты HadoopDB - 4
Производительность, масштабируемость
Производительность и маштабируемость

Литература
Литература
Литература - 2

MapReduce и параллельные СУБД
Постепенно технология MapReduce начинает использоваться не в качестве конкурента технологии массивно-параллельных СУБД, а в качестве ее дополнения. Напомню, что все начиналось с достаточно интенсивной полемики между стронниками MapReduce и авторитетными представителями сообщества баз данных

Параллельные системы баз данных
Параллельные системы баз данных - 2
Параллельные системы баз данных - 3
Отображение параллельных СУБД на MapReduce

MapReduce и параллельные СУБД: друзья или враги?
Хотя параллельные СУБД могут справиться с той же семантической рабочей нагрузкой, что и MR, регулярно упоминаются несколько классов приложений, для которых лучше подходит модель MR, а не СУБД. Проанализируем пять таких классов приложений и обсудим преимущества использования одного вида систем перед другим видом

Сложная аналитика
Полуструктурированные данные
Анализ на "скорую руку" (quick-and-dirty)
Производственная эксплуатация
Мощные инструментальные средства
"Лакомые кусочки" для СУБД
Исходная MR-задача Grep
Задача обработки Web-журналов
Задача соединения
Архитектурные различия

Взаимообучение
Чему может научиться MR у СУБД? Сторонникам MR следует обучиться технологиям и методам эффективного параллельного выполнения запросов. Инженерам нужно пользоваться опытом своих предшественников, а не повторять сделанную ими работу. В подсистемах выполнения запросов параллельных СУБД имеется много хороших идей, которые следовало бы усвоить разработчикам систем MR.

Взаимообучение
Заключение
Благодарность
Литература

InterBase - статьи

Резервное копирование и восстановление из копии является одним из самых важных процессов в администрировании базы данных InterBase/FireBird.
Резервное копирование – один из самых надежных способов сохранить и предохранить свои данные от потери или порчи. Процесс резервного копирования также делается в профилактических целях, для увеличения производительности базы данных – это достигается за счет того, что в момент копирования происходит считывание последних версий всех записей, старые же версии в копию никогда не попадают. Здесь важно заметить, что недостаточно одного лишь резеврного копирования, нужно иногда проверять восстанавливаемость базы данных из резеверной копии, потому что бывают случаи, что база данных работает в режиме 24*7, то есть 24 часа в сутки и 7 дней в неделю, backup базы данных может происходит нормально, но в силу определенных причин база данных не восстанавливается, последствия могут быть плачевными для всех данных.

Резервное копирование базы данных и последующее восстановление
Дисковая структура базы данных Interbase
Псевдонимы типов (Домены)
Анализ статистики базы данных InterBase/FireBird

Заметки о системных таблицах InterBase

Системные таблицы InterBase содержат метаданные базы данных. Они создаются автоматически сервером InterBase, когда создается сама база данных. Информация, содержащаяся в этих таблицах, определяет типы полей таблиц, их названия, связи между таблицами и пр. Эти таблицы сопровождаются сервером, и их, конечно, лучше не менять. Я бы сказал, что лучше принять все меры к тому, что бы они были недоступны пользователю.

Продолжение

Структуризированный язык запросов (SQL)

Основные идеи современной информационной технологии базируются на концепции, согласно которой данные должны быть организованы в базы данных с целью адекватного отображения изменяющегося реального мира и удовлетворения информационных потребностей пользователей. Эти базы данных создаются и функционируют под управлением специальных программных комплексов, называемых системами управления базами данных (СУБД).
Увеличение объема и структурной сложности хранимых данных, расширение круга пользователей информационных систем привели к широкому распространению наиболее удобных и сравнительно простых для понимания реляционных (табличных) СУБД. Для обеспечения одновременного доступа к данным множества пользователей, нередко расположенных достаточно далеко друг от друга и от места хранения баз данных, созданы сетевые мультипользовательские версии СУБД. В них тем или иным путем решаются специфические проблемы параллельных процессов, целостности (правильности) и безопасности данных, а также санкционирования доступа.

Предисловие
Реляционная база данных
О предложении SELECT
О конструировании предложений модификации
Особенности и синтаксис предложений модификации
Безопасность и санкционирование доступа

Следопыт для Microsoft SQL Server 2000

Продукт «Следопыт для MS SQL Server 2000» работает как с Microsoft SQL Server 7.0, так и с Microsoft SQL Server 2000. В тексте данного руководства, там, где версия продукта не важна, под Microsoft SQL Server будут подразумеваться Microsoft SQL Server 7.0 или Microsoft SQL Server 2000, там, где версия продукта Microsoft SQL Server будет важна, ее номер будет указываться.
Следопыт для MS SQL Server 2000 является развитием линии поисковых программных продуктов, разработанных компанией МедиаЛингва. Следопыт поможет Вам организовать полнотекстовый поиск в Ваших базах данных. Следопыт расширяет возможности встроенной в Microsoft SQL полнотекстовой поисковой машины и дает возможность производить поиск по SQL-базам, содержащим текстовую информацию и документы на русском языке. Следопыт для MS SQL Server 2000 обеспечит Вам принципиально новые возможности по управлению и анализу Ваших текстовых данных.

Продолжение

САМОУЧИТЕЛЬ PHP 4

В последнее время в связи с бурным развитием сети Интернет в программировании начинает все более резко выделяться отдельная отрасль. Поначалу она не могла даже и сравниться по своей сложности с другими областями программистского ремесла, не "дотягиваясь" не только до системного, но даже и до прикладного программирования. Речь идет, конечно, о программировании сценариев для Web, или, как часто говорят, Web-программировании. В наши дни, однако, роль этой отрасли в структуре Интернета все более возрастает, соответственно растет и средняя оценка сложности сценариев. Многие системы (например, поисковые) по объему кода приближаются к размеру исходных кодов серьезных пакетов прикладных программ.
Представляю, как эти слова тут же вызовут бурю протеста со стороны прикладных и системных программистов, лишь мельком глянувших на программирование в Web. "Как, — заявят они, — неужели написание простейших программ на "бейсикоподобных" интерпретаторах вообще можно назвать серьезным программированием? Да с этим же справится любой начинающий изучать программирование студент, потому что эта область не вносит и не может внести каких-либо новшеств, не "изобретает" алгоритмов, и, кстати, в ней нет ничего творческого. Да и вообще, скука-то, наверное, какая..." Обычно с такими людьми можно спорить часами. Действительно, какую бы задачу им ни привели, они начинают утверждать, что решить ее очень просто, хотя на самом деле это в контексте Web, мягко говоря, оказывается не совсем так.

Протоколы передачи данных
Установка типа переменной
Запуск внешних программ
Загрузка файлов на сервер