Учебники

37) Teradata Tutorial

Что такое Терадата?

Teradata — это массивно-параллельная открытая система обработки для разработки крупномасштабных приложений хранилищ данных. Teradata — это открытая система. Он может работать на серверной платформе Unix / Linux / Windows. Этот инструмент обеспечивает поддержку нескольких операций хранилища данных одновременно для разных клиентов.

Teradata Corporation — американская IT-фирма. Это поставщик аналитических платформ данных, приложений и других сопутствующих услуг. Фирма разрабатывает продукт для объединения данных из различных источников и предоставления данных для анализа.

На этом тренинге вы узнаете

История Терадата:

Teradata была подразделением корпорации NCR. Он был основан в 1979 году, но отделился от NCR в октябре 2007 года. Майкл Келер стал первым генеральным директором Teradata.

Основные этапы работы корпорации Teradata:

1979 — Teradata была включена

1984 — Выпуск первой базы данных компьютера DBC / 1012

1986 — журнал Fortune объявил Teradata «Продуктом года»

1999 — Крупнейшая база данных, построенная с использованием Teradata, со 130 терабайтами

2002 — выпуск версии Teradata V2R5 со сжатием и первичным разделом

2006 — запуск решения для управления основными данными Teradata

2008 — Выпущена Teradata 13.0 с активным хранилищем данных

2011 — приобретает Teradata Aster и погружается в пространство расширенной аналитики

2012 — представлена ​​Teradata 14.0

2014 — выпущена Teradata 15.0

2015 — Teradata покупает приложения для маркетинговой платформы Appoxee

2016- Terada объединяет большие данные

2017 — Teradata приобретает StackIQ в Сан-Диего

Почему Терадата?

  • Teradata предлагает полный набор услуг, который ориентирован на хранение данных
  • Система построена на открытой архитектуре. Таким образом, когда бы ни были доступны более быстрые устройства, они могут быть включены в уже построенную архитектуру.
  • Teradata поддерживает более 50 петабайт данных.
  • Представление одной операции для большой многоузловой системы Teradata с использованием Service Workstation
  • Совместим с широким спектром инструментов BI для извлечения данных.
  • Он может выступать в качестве единой точки управления для администратора баз данных для управления базой данных.
  • Высокая производительность, разнообразные запросы, аналитика в базе данных и сложное управление рабочей нагрузкой
  • Teradata позволяет получать одни и те же данные в нескольких вариантах развертывания.

Особенности Teradata:

Teradata предлагает следующие мощные функции:

Линейная масштабируемость: предлагает линейную масштабируемость при работе с большими объемами данных, добавляя узлы для повышения производительности системы.

Неограниченный параллелизм: Teradata основана на MPP (архитектура массовой параллельной обработки). Таким образом, он спроектирован так, чтобы быть параллельным с самого начала. Это может разделить большую задачу на меньшие задачи и запустить их параллельно

Оптимизатор зрелости : Оптимизатор Teradata может обрабатывать до 64 соединений в запросе.

Низкая совокупная стоимость владения: данные Tera имеют низкую совокупную стоимость владения. Он прост в настройке, обслуживании и администрировании.

Утилиты загрузки и выгрузки : Teradata предоставляет утилиты загрузки и выгрузки для перемещения данных в / из системы Teradata.

Возможность подключения: эта система MPP может подключаться к системам, подключенным к каналу, таким как мэйнфрейм или сетевые системы.

SQL: Teradata поддерживает SQL для взаимодействия с данными, хранящимися в таблицах. Это обеспечивает его расширение.

Надежные утилиты: Teradata предоставляет надежные утилиты для импорта / экспорта данных из / в системы Teradata, такие как FastExport, FastLoad, MultiLoad и TPT.

Автоматическое распространение: Teradata может автоматически распространять данные на диски без ручного вмешательства.

Терадата — Архитектура

Архитектура Teradata представляет собой архитектуру массовой параллельной обработки.

Три важных компонента Teradata:

  • Разбор двигателя
  • Байнет
  • Модуль доступа к процессорам (AMP).

Диаграмма архитектуры Teradata:

Архитектура хранения

Разбор двигателя:

Механизм синтаксического анализа анализирует запросы и подготавливает план выполнения. Он управляет сессиями для пользователей. Оптимизирует и отправляет запрос пользователям.

Таким образом, когда клиент выполняет запросы на вставку записей, Parsing Engine отправляет записи на уровень передачи сообщений. Уровень передачи сообщений или BYNET является программным и аппаратным компонентом. Он предлагает сетевые возможности. Он также извлекает записи и отправляет строку в целевой AMP.

AMP:

AMP расшифровывается как Access Module Processor. Он хранит записи на этих дисках. AMP проводит следующие мероприятия:

  • Управляет частью базы данных
  • Управляет частью каждой таблицы
  • Выполните все задачи, связанные с генерацией набора результатов, такие как сортировка, агрегация и объединение
  • Выполнить блокировку и управление пространством

Архитектура поиска

Когда клиент выполняет запросы для извлечения записей, механизм синтаксического анализа отправляет запрос в BYNET. Затем BYNET отправляет запрос на поиск в соответствующие AMP.

AMP выполняют поиск на своих дисках параллельно, распознают необходимые записи и отправляют в BYNET. BYNET отправляет записи в Parsing Engine, который в свою очередь отправляет клиенту.

MPP против SMP

MPP SMP
MPP — массово параллельная обработка. Это компьютерная система, которая подключена к множеству независимых арифметических блоков или целых микропроцессоров, которые работают параллельно. Симметричная мультиобработка. В системе обработки SMP ЦП совместно используют одну и ту же память, и в результате код, выполняемый в одной системе, может влиять на память, используемую другой.
Базы данных могут расширяться за счет добавления новых процессоров. Базы данных SMP обычно используют один ЦП для выполнения поиска в базе данных.
In an MPP environment, performance is improved because no resources must be shared among physical computers. The workload for a parallel job is distributed across the processors in the system.
Performance of a Massive parallel processing system is linear. However, it will increase in proportion to the number of nodes. SMP databases can run on multiple servers. However, will share another resource.

Teradata Warehouse Product Suite

Teradata offers a complete range of product suite to meet Data warehousing and ETL needs of any organization. Important Teradata products are mentioned below:

Product suite name Usage Tool links
Analytics Teradata Analytics Platform Analytics PlatformAnalytics on Hadoop (Aster)Analytics Portfolio (Aster)
Cloud High-impact hybrid cloud solutions that help any businesses Cloud, HybridCloud, Managed (Hadoop) IntelliCloud
Data Ingestion Simplify Big Data Streaming ListenerData Mover
Data Management Data management tools used for data protection and recoverability. Backup and RestoreData MoverColumnar
Database Real-time, system analysis tools for DBA for ease of monitoring and system managing. Database (Teradata)Database (Teradata Express, a Free Download)
Eco system Management Eco system tool helps you to Manage your Teradata environment. Ecosystem Manager Unity
Workload Management Workload management tools help you to keep pace with growing business and user demands. Active System Manager (TASM)Workload Management
SQL Query Engine It is a powerful SQL Engine for Hadoop and More Presto (Free Download)
Load & Unload Utilities Fast, fully parallel extract and load utilities. The only products which offer automatic check-point restart and one-step load from mainframes. Parallel Transporter (TPT) FastLoadMultiLoad
UDA enabling software This kind of tools allows Processing Across all Workload Engines. QueryGrid Listener Teradata AppCenter

Applications of Teradata:

Customer Data Management: Helps to maintain long-lasting relationships with customers.

Master Data Management: Helps to develop an environment where master data can be used, synchronized, and stored.

Finance and Performance Management: Helps organization to improve the speed and quality of financial reporting. It reduces finance infrastructure costs, and proactively manage enterprise performance.

Supply Chain Management: Improve supply chain operations which help to improved customer service, reduced cycle times, and lower inventories.

Demand Chain Management: Helps to Increase customer service levels and sales. It also helps companies to predict the demand for their store item accurately.

Difference between Teradata and other RDBMS

TERA DATA RDBMS
Architectures Follows Shared Nothing Architecture. Shared Everything and allows resource contention.
Processes MIPS [Millions of Instructions/sec KIPS [Thousands of institutions/sec]
Indexes Better Distribution and Retrieval Только предложения FASI Retrieval
параллелизм Поддерживает безусловный параллелизм. Параллелизм условен и непредсказуем
Основная нагрузка Teradata позволяет массовую загрузку. Допускается только ограниченная насыпная нагрузка.
Масштабируемость Линейная масштабируемость с наклоном один Масштабируемость с убывающей отдачей
Буфер базы данных Единый буфер базы данных, используемый всеми UoP. (Объединение параллелизма). Единое хранилище данных, доступ к которому имеют все UoP Query Controller отправляет функции в UoP, которым принадлежат данные
магазины Он хранит TERA BYTES [Миллиарды строк] GIGA BYTES [Миллионы строк]

Вывод

  • Teradata — это массивно параллельная открытая система обработки для разработки крупномасштабных приложений хранилищ данных
  • Teradata была подразделением корпорации NCR. Он был включен в 1979 году, но отделился от NCR в октябре 2007 года.
  • Teradata предлагает полный набор услуг, который ориентирован на хранение данных
  • Teradata предлагает линейную масштабируемость при работе с большими объемами данных, добавляя узлы для повышения производительности системы.
  • Три важных компонента Teradata: 1. Механизм парсинга.
  • 2.MPP 3. Процессоры модуля доступа (AMP)
  • Teradata предлагает полный спектр продуктов для удовлетворения потребностей хранилищ данных и ETL любой организации.
  • Приложение Teradata в основном используется для управления цепочками поставок, управления основными данными, управления цепочками спроса и т. Д.