Обзор подготовлен CNA

версия для печати

СУБД для хранилищ данных: что нужно заказчикам?

СУБД для хранилищ данных: что нужно заказчикам?

Несмотря на то, что в период кризиса рост рынка СУБД замедлился, аналитики Gartner и IDC считают, что хранилища данных перешли в разряд систем, критически важных для функционирования бизнеса, поэтому платформы для их построения будут пользоваться устойчивым спросом. Основными критериями выбора СУБД для хранилищ данных становятся контроль затрат и оптимизация производительности.

До кризиса рынок СУБД для хранилищ данных развивался рекордными темпами. Развитие аналитических проектов было одним из основных приоритетов в большинстве крупных и средних компаний, что и определяло спрос на соответствующие платформы. Появлялись новые поставщики, расширялись функциональные возможности СУБД, постоянно модернизировались и повсеместно внедрялись устройства для хранилищ данных. Также росли поставки различных готовых решений,  включающих программное и аппаратное обеспечение. В период кризиса рост рынка несколько замедлился, однако прогнозы аналитиков продолжают оставаться благоприятными.

Основными критериями выбора СУБД для хранилищ данных в 2009 году были контроль затрат и оптимизация производительности. Это отразилось на стратегии продаж многих поставщиков, в частности, на рынке появились недорогие системы начального уровня. Хотя большинство компаний и остались верны централизованным решениям, ряд организаций в целях сокращения затрат перешли к виртуальным хранилищам.

Как выбрать СУБД для хранилищ данных?

По определению Gartner, СУБД для хранилищ данных представляет собой целостную систему, которая обеспечивает поддержку и управление одной или несколькими логическими БД. В дополнение к поддержке реляционной модели данных, СУБД должны обеспечивать доступ к данным со стороны внешних независимых приложений и включать механизмы контроля различных параметров доступа пользователей. Важным также является тот факт, что сама СУБД не является хранилищем данных, а только предоставляет платформу для его развертывания.

В свою очередь, хранилище данных представляет собой информационную базу, объединяющую в единое целое несколько разнородных источников данных. Структура хранилища позволяет добавлять дополнительные источники данных без необходимости перепроектирования. Хранилище данных может быть любого размера. Gartner определяет хранилища объемом до 5 терабайт как малые, от 5 до 20 терабайт как средние, и более 20 терабайт как большие.

Эксперты Gartner указывают ряд основных критериев, которыми следует руководствоваться при выборе СУБД для хранилища данных. В первую очередь, важно грамотно оценить основные технические характеристики СУБД, такие как масштабируемость, управляемость, безопасность, высокий уровень доступности и послеаварийного восстановления, поддержка смешанных нагрузок, дополнительных структур данных и возможностей по их загрузке. Подобный продукт должен обладать рядом свойств, позволяющих управлять значительными объемами разнородных данных, поддерживать сложные модели данных, быть независимым от конкретных приложений и иметь очень высокую надежность.

Одним из основных критериев при выборе СУБД является полнота и завершенность продукта. Необходимо, чтобы система отвечала фундаментальным требованиям масштабируемости и управления рабочими нагрузками. Очень важным фактором является возможность СУБД работать на нескольких платформах при поддержке различных операционных систем и масштабироваться в соответствии с используемыми инструментальными средствами. Необходимо определить, способна ли система эффективно использовать мощности операционной платформы, чтобы обеспечить оптимальную производительность сложного хранилища данных.

Системы с подобными характеристиками могут предложить только поставщики, имеющие обширный опыт в области внедрения продукта и хорошо понимающие потребности конечных пользователей. При выборе СУБД необходимо учитывать не только ее технические характеристики, но и возможности компании-поставщика по развитию и поддержке своего продукта. В первую очередь необходимо оценить общий уровень корпоративного управления в компании: квалификацию персонала, уровень инвестиций в исследования, разработку и маркетинг, наличие слияний и поглощений, общую финансовую устойчивость. Сюда также включается и способность руководства компании-поставщика оперативно реагировать на изменения рынка и преодолевать кратковременные трудности.

Существенным моментом является способность компании-поставщика СУБД обеспечить широкий набор квалифицированных услуг при внедрении продукта и дальнейшей его поддержке: разработчики должны оперативно внедрять новые функциональные возможности, которые способны удовлетворять растущие потребности бизнес-аналитики. Также очень важным фактором является наличие доступных в освоении инструментов управления.

Принципиальное значение имеют широта и глубина партнерских связей поставщика с независимыми производителями программного обеспечения и системными интеграторами, которые могут расширить область применения данной СУБД. Самый показательный критерий надежности поставщика – его послужной список и наличие отзывов клиентов о выполненных внедрениях данного решения в различных конфигурациях, на различных объемах данных и при различной рабочей нагрузке.

И наконец, поставщик должен иметь гибкую ценовую политику, позволяющую получить приемлемую стоимость лицензий и общую стоимость эксплуатации.

Основные тенденции

По данным Gartner, в 2009 году рост рынка СУБД в целом составил 10%. Увеличилось общее число участников рынка, появились новые игроки, такие как Infobright, ParAccel и Aster Data. Традиционные производители представили новые решения, например, IBM Smart Analytics, Oracle Exadata, Teradata Enterprise Analytics Cloud. Ведущим поставщиком платформ для хранилищ данных остается компания Teradata, имеющая в своем портфеле лучшие решения по работе со смешанной нагрузкой и решения по оптимизированной обработке больших объемов данных.

Активно развивается направление специализированных аппаратно-программных систем, полностью ориентированных на поддержку хранилищ данных. Основной целью данного направления является создание аппаратно-программных комплексов, которые были бы существенно дешевле средств поддержки хранилищ данных, предлагаемых поставщиками универсальных СУБД, но при этом обеспечивали бы не меньшую производительность и масштабируемость при работе со сверхбольшими хранилищами данных. Одним из основных поставщиков решений данного типа является компания Teradata.

Рост заинтересованности в сравнительно недорогих и эффективных решениях, направленных исключительно на поддержку хранилищ данных и их анализ, спровоцировал появление большого числа компаний, специализирующихся на разработке подобных решений. Наибольшую известность получили компании Vertica Systems, Kognitio, Infobright, Greenplum, DATAllegro.

Данный тренд не оставил безучастными и ведущих поставщиков традиционных СУБД. В частности, компания Oracle начала поставки специализированного массивно-параллельного решения Oracle Exadata Storage Server, позволяющего значительно ускорить работу основной СУБД. Компания Microsoft вывела на рынок специализированный вариант SQL Server для хранилищ данных, созданного на базе решений поглощенной DATAllegro (Microsoft SQL Server 2008 R2 Parallel Data Warehouse).

Хотя основные направления развития рынка СУБД для хранилищ данных остались прежними, аналитики отмечают ряд ключевых трендов, позволяющих говорить о растущих требованиях к соответствующим решениям. В первую очередь, это рост объемов хранилищ и усложняющаяся организация данных. Это повышает требования к основным характеристикам решения (снижение стоимости хранения, ускорение загрузки, новые подходы к управлению данными с учетом их возраста). Во-вторых, это внедрение предприятиями двух копий одного хранилища. Многие заказчики используют одну копию для загрузки и оперативной аналитики, а другую – для статических отчетов и интеллектуального анализа (data mining). Становится необходимой поддержка на уровне СУБД быстрой репликации между двумя копиями хранилища данных. Третий тренд - широкое возрождение практики использования витрин данных. Для повышения эффективности работы с данными внедряются специализированные платформы – СУБД с хранением данных по столбцам, а также СУБД, работающие в оперативной памяти.И наконец, четвертая тенденция - использование облачных вычислений как одного из компонент инфраструктуры хранилищ данных. Развитие данного направления связывают с переносом процедур анализа данных из витрин непосредственно в само хранилище, что предъявляет повышенные требования к его архитектуре.

Еще одним направлением развития рынка СУБД может стать активное внедрение распределенных хранилищ данных. Здесь возникает ряд проблем, связанных со сложностью администрирования гетерогенной среды и трудностью интеграции данных. Поскольку разработчиками уже накоплен достаточный опыт работы данных систем, в ближайшее время ряд поставщиков, по всей видимости, предложат в своих продуктах дополнительные средства для решения подобных проблем.

По мнению Gartner, конкуренция на рынке СУБД для хранилищ данных будет расти и в дальнейшем. Аналитики пророчат усиление борьбы между поставщиками за увеличение доли рынка, главным образом, за счет большей дифференциации решений, усиления партнерских каналов продаж, расширенной поддержки для существующих и более выгодных условий для новых клиентов. Кроме того, возможно расширение вариантов поставки за счет "облачных" технологий и использования открытых решений.

Трудности при построении корпоративных хранилищ данных

СУБД является одним из главных, но далеко не единственным компонентом хранилища данных. Современные хранилища содержат средства ETL (Extract-Transform-Load – Извлечение -Преобразование-Загрузка), а также средства проектирования и моделирования баз данных. Еще одним важнейшим компонентом хранилища являются средства аналитической обработки данных (Business Intelligence - BI).

В последние годы хранилища данных играют ведущую роль в аналитических системах  многих предприятий (причем не только крупных, но и средних). Такие компании владеют, как правило, большими объемами обрабатываемых данных, имеют разветвленную организационную структуру, большое количество сотрудников, партнеров, сеть филиалов. При этом зачастую различные подразделения используют разные информационные системы. Не смотря на это, предприятию необходимо точно анализировать свою работу и выявлять тенденции на всех связанных с его деятельностью рынках учитывая все доступные данные. Интеграция разрозненных данных в единое хранилище является одной из основных технических проблем при построении корпоративных аналитических систем.

Российские компании также активно интересуются решениями по созданию единого хранилища данных и аналитических систем как для целей мониторинга и анализа показателей деятельности компании, так и для подготовки управленческой и обязательной отчетности. При этом наибольший интерес вызывает использование хранилища данных в качестве общего источника информации по различным предметным областям: финансам, производству, логистике, персоналу, продажам и т.д. Для этого необходимо не только собрать данные в одном месте, но также выверить их качество, обеспечить полноту и достоверность, позаботиться о механизмах актуализации.

Одна из основных проблем при построении корпоративных хранилищ данных как раз связана с необходимостью грамотно организовать разрозненные источники в единое информационное пространство. Процесс подготовки данных для бизнес-анализа предполагает не только владение технологиями СУБД, но и требует аналитического подхода к выборке. Нет смысла просто перемещать все данные из имеющихся систем в одно хранилище, необходимо выполнять подготовку информации для последующего анализа. При этом нужно учитывать тот факт, что хранилище будет постоянно пополняться по мере роста данных в первичных источниках. Лишь после этого информация может быть доступна для аналитической деятельности и прогнозирования при помощи различных приложений BI в наглядном, хорошо воспринимаемом виде.

Кроме трудностей, связанных с разнообразием систем, используемых в различных структурах, существуют проблемы с отсутствием в большинстве компаний единой системы нормативно-справочной информации. Это также значительно повышает сложность интеграции хранилища данных с учетными системами, а в дальнейшем – затрудняет процессы структуризации и извлечения информации для анализа.

Построение хранилища данных — проект, требующий серьезной разработки и усилий со стороны бизнеса. Общемировая практика показывает, что хранилища данных практически всегда создаются под конкретного заказчика. Большинство экспертов в этой области считают наиболее эффективным подходом для реализации подобных проектов привлечение стороннего поставщика, имеющего необходимый опыт и располагающего квалифицированным персоналом. Недооценка сложности процедур формирования хранилища данных приводит к провалу большей части проектов, которые компании начинают делать самостоятельно.

Максим Никитин

Техноблог | Форумы | ТВ | Архив
Toolbar | КПК-версия | Подписка на новости  | RSS