Учебники

39) Интервью по моделированию данных, вопросы и ответы

Вот вопросы интервьюирования моделирования данных для более новых, а также опытных кандидатов.

1) Что такое моделирование данных?

Моделирование данных — это процесс создания модели для хранения данных в базе данных. Это концептуальное представление объектов данных, связи между различными объектами данных и правил.

2) Объясните различные типы моделей данных

Существует в основном три различных типа моделей данных:

Концептуальная: концептуальная модель данных определяет, что должна содержать система. Эта модель обычно создается заинтересованными сторонами и архитекторами данных. Цель состоит в том, чтобы организовать, охватить и определить бизнес-концепции и правила.

Логический: определяет, как система должна быть реализована независимо от СУБД. Эта модель обычно создается архитекторами данных и бизнес-аналитиками. Целью является разработка технической карты правил и структур данных.

Физический: эта модель данных описывает, как система будет реализована с использованием конкретной системы СУБД. Эта модель обычно создается администратором базы данных и разработчиками. Целью является фактическая реализация базы данных.

3) Объясните таблицу фактов и фактов

Факт представляет количественные данные. Например, сумма нетто, которая причитается. Таблица фактов содержит числовые данные, а также внешние ключи из таблиц измерений.

4) Перечислите различные схемы проектирования в моделировании данных

Существует два различных типа схем моделирования данных: 1) схема «звезда» и 2) схема «снежинка»

5) Когда следует рассмотреть вопрос о денормализации?

Денормализация используется, когда при извлечении данных используется таблица. Он используется для построения хранилища данных.

6) Объясните размерность и атрибут

Размеры представляют качественные данные. Например, продукт, класс, план и т. Д. Таблица измерений имеет текстовые или описательные атрибуты. Например, категория продукта и имя продукта являются двумя атрибутами таблицы измерения продукта.

7) Какой факт меньше факта?

Факт без факта — это таблица без измерения фактов. Он содержит только ключи измерений.

8) Что такое аналитика в памяти?

Аналитика в памяти — это процесс кэширования базы данных в оперативной памяти.

9) В чем разница между OLTP и OLAP?

OLTP OLAP
OLTP — это транзакционная онлайн-система. OLAP — это онлайн-анализ и поиск данных.
Для него характерно большое количество коротких онлайн-транзакций. Характеризуется большим объемом данных.
OLTP использует традиционные СУБД. OLAP использует хранилище данных.
Таблицы в базе данных OLTP нормализованы. Таблицы в OLAP не нормализованы.
Время отклика в миллисекундах. Время отклика от секунды до минут.
OLTP предназначен для бизнес-операций в реальном времени. OLAP предназначен для анализа бизнес-показателей по категориям и атрибутам.

10) Что такое стол?

Коллекция строк и столбцов называется таблицей. Каждый столбец имеет тип данных. Таблица содержит связанные данные в табличном формате.

11) Что такое колонка?

Столбец или поле — это вертикальное расположение данных, которые содержат связанную информацию.

12) Определить разреженность данных

Разреженность данных — это термин, используемый для определения количества данных, которые вы имеете для сущности / измерения модели.

13) Что такое составной первичный ключ?

Составной первичный ключ относится к случаю, когда более одного столбца таблицы используется как часть первичного ключа.

14) Что такое первичный ключ?

Первичный ключ — это столбец или группа столбцов, которые неодинаково идентифицируют каждую строку в таблице. Значение первичного ключа не должно быть нулевым. Каждая таблица должна содержать один первичный ключ.

15) Объясните внешний ключ

Внешний ключ — это группа атрибутов, которая используется для связи родительской и дочерней таблиц. Значение столбца внешнего ключа, которое доступно в дочерней таблице, относится к значению первичного ключа в родительской таблице.

16) Что такое метаданные?

Метаданные описывают данные о данных. Он показывает, какой тип данных фактически хранится в системе базы данных.

17) Что такое витрина данных?

Витрина данных является сжатой версией хранилища данных и предназначена для использования определенным отделом, подразделением или группой пользователей в организации. Например, маркетинговые продажи, HR или финансы.

18) Что такое OLTP?

Оперативная обработка транзакций, коротко известная как OLTP, поддерживает приложение, ориентированное на транзакции, в трехуровневой архитектуре. OLTP управляет ежедневной транзакцией компании или организации.

19) Каковы примеры системы OLTP?

Примером системы OLTP являются:

  • Отправка текстового сообщения
  • Добавить книгу в корзину
  • Онлайн бронирование авиабилетов
  • Онлайн банкинг
  • Порядок въезда

20) Что такое проверка ограничений?

Проверочное ограничение используется для проверки диапазона значений в столбце.

21) Перечислите виды нормализации?

Типы нормализаций: 1) первая нормальная форма, 2) вторая нормальная форма, 3) третья нормальная форма, 4) четвертая нормальная форма Бойса и 5) пятая нормальная форма.

22) Что такое прямая инженерия данных?

Форвард-инжиниринг — это технический термин, используемый для описания процесса автоматического перевода логической модели в физическое орудие.

23) Что такое PDAP?

Это куб данных, который хранит данные в виде сводки. Это помогает пользователю быстро анализировать данные. Данные в PDAP хранятся таким образом, что отчеты могут быть сделаны с легкостью.

24) Объяснить проект базы данных схемы снежных хлопьев

Схема снежинки — это расположение таблицы измерений и таблицы фактов. Как правило, обе таблицы разбиваются на несколько таблиц измерений.

25) Разъяснение службы анализа

Служба анализа предоставляет комбинированное представление данных, которые используются в интеллектуальном анализе данных или OLAP.

26) Что такое алгоритм кластеризации последовательностей?

Алгоритм кластеризации последовательностей собирает пути, которые похожи или связаны друг с другом, и последовательности данных, имеющих события.

27) Что такое дискретные и непрерывные данные?

Небезрассудные данные — это конечные данные или определенные данные. Например, пол, номера телефонов. Непрерывные данные — это данные, которые изменяются непрерывным и упорядоченным образом. Например, возраст.

28) Что такое алгоритм временных рядов?

Алгоритм временных рядов — это метод прогнозирования непрерывных значений данных в таблице. Например, производительность одного сотрудника может прогнозировать прибыль или влияние.

29) Что такое бизнес-аналитика?

BI (Business Intelligence) — это набор процессов, архитектур и технологий, которые преобразуют необработанные данные в значимую информацию, которая управляет прибыльными бизнес-действиями. Это набор программного обеспечения и услуг для преобразования данных в действенный интеллект и знания.

30) Что такое битовый индекс?

Растровые индексы — это особый тип индекса базы данных, который использует растровые изображения (битовые массивы) для ответа на запросы, выполняя побитовые операции.

31) Объясните хранилище данных в деталях

Хранилище данных — это процесс сбора и управления данными из различных источников. Это обеспечивает значимое понимание бизнеса предприятия. Хранилище данных обычно используется для подключения и анализа данных из разнородных источников. Это ядро ​​системы BI, которая построена для анализа данных и отчетности.

32) Что такое мусор?

Измерение мусора объединяет два или более связанных количества элементов в одно измерение. Обычно это булево значение или значение флага.

33) Объясните схему данных

Схема данных — это схематическое представление, иллюстрирующее взаимосвязи и структуры данных.

34) Объясните частоту сбора данных

Частота сбора данных — это скорость сбора данных. Это также проходит через различные стадии. Эти этапы: 1) извлечение из различных источников, 3) преобразование, 4) очистка и 5) хранение.

35) Что такое база данных?

Количество элементов — это числовой атрибут отношения между двумя сущностями или наборами сущностей.

36) Каковы различные типы кардинальных отношений?

Различные типы ключевых кардинальных отношений:

  • Отношения один-к-одному
  • Отношения один ко многим
  • Отношения многие-к-одному
  • Отношения многие ко многим

37) Определите критический фактор успеха и перечислите его четыре типа

Критический Фактор Успеха — это благоприятный результат любой деятельности, необходимой организации для достижения своей цели.

Четыре типа критического фактора успеха:

  • Промышленные CSF
  • Стратегия CSFs
  • Экологические ФГО
  • Временные CSF

38) Что такое интеллектуальный анализ данных?

Интеллектуальный анализ данных — это междисциплинарный навык, использующий машинное обучение, статистику, искусственный интеллект и технологии баз данных. Все дело в обнаружении неожиданных / ранее неизвестных связей между данными.

39) В чем разница между схемой Star и схемой Snowflake?

Схема звезды Снежинка Схема
Иерархии для измерений хранятся в таблице измерений. Иерархии разделены на отдельные таблицы.
Он содержит таблицу фактов, окруженную таблицами измерений. Одна таблица фактов, окруженная таблицей измерений, которая в свою очередь окружена таблицей измерений
В звездообразной схеме только одно соединение создает связь между таблицей фактов и любыми таблицами измерений. Схема снежинки требует много соединений для извлечения данных.
Имеет простой дизайн базы данных Имеет сложный дизайн базы данных
Денормализованная структура данных и запрос также выполняются быстрее. Нормализованная структура данных.
Высокий уровень избыточности данных Очень низкоуровневая избыточность данных
Предлагает более эффективные запросы, используя Star Join Query Optimization. Таблицы могут быть связаны с несколькими измерениями. Схема снежных хлопьев представлена ​​централизованной таблицей фактов, которая вряд ли связана с несколькими измерениями.

40) Что такое идентификационные отношения?

Идентификация отношений сущностей в СУБД используется для идентификации взаимосвязей между двумя сущностями: 1) сильная сущность и 2) слабая сущность.

41) Что такое саморекурсивные отношения?

Рекурсивное отношение — это отдельный столбец в таблице, который связан с первичным ключом той же таблицы.

42) Объясните реляционное моделирование данных

Моделирование реляционных данных — это представление объектов в реляционной базе данных, которое обычно нормализуется.

43) Что такое аналитическое прогнозирование?

Процесс валидации или тестирования модели, которая использовалась бы для прогнозирования тестирования и валидации результатов. Его можно использовать для машинного обучения, искусственного интеллекта, а также для статистики.

44) В чем разница между логической моделью данных и физической моделью данных?

Логическая модель данных Физическая модель данных
Логическая модель данных может проектировать требования бизнеса логически. Физическая модель данных предоставляет информацию о целевом источнике базы данных и его свойствах.
Он отвечает за фактическую реализацию данных, которые хранятся в базе данных. Физическая модель данных помогает вам создать новую модель базы данных из существующих и применить ограничение ссылочной целостности.
Он содержит сущность, атрибуты первичного ключа, ключи инверсии, альтернативный ключ, правило, деловое отношение, определение и т. Д. Физическая модель данных содержит таблицу, ключевые ограничения, уникальный ключ, столбцы, внешний ключ, индексы, значения по умолчанию и т. Д.

45) Каковы различные типы ограничений?

Ограничение другого типа может быть уникальным, нулевые значения, внешние ключи, составной ключ или проверочное ограничение и т. Д.

46) Что такое инструмент моделирования данных?

Инструмент моделирования данных — это программное обеспечение, которое помогает в построении потока данных и связи между данными. Примерами таких инструментов являются Borland Together, Altova Database Spy, casewise, Case Studio 2 и т. Д.

47) Что такое иерархическая СУБД?

В иерархической базе данных данные модели организованы в виде древовидной структуры. Данные хранятся в иерархическом формате. Данные представлены с использованием отношения родитель-ребенок. В иерархической СУБД родитель может иметь много детей, у детей только один родитель.

48) Каковы недостатки иерархической модели данных?

Недостатками иерархической модели данных являются:

  • Он не гибкий, так как требуется время, чтобы адаптироваться к меняющимся потребностям бизнеса.
  • Структура создает проблему в межведомственном общении, вертикальном общении, а также межведомственном общении.
  • Иерархическая модель данных может создавать проблемы разобщенности.

49) Объясните процесс моделирования данных подхода

Процессно-ориентированный подход, используемый в моделировании данных, следует поэтапному методу связи между моделью сущности-отношения и организационным процессом.

50) Каковы преимущества использования моделирования данных?

Преимущества использования моделирования данных в хранилище данных:

  • Это помогает вам управлять бизнес-данными, нормализуя их и определяя их атрибуты.
  • Моделирование данных объединяет данные различных систем, чтобы уменьшить избыточность данных.
  • Это позволяет создать эффективный дизайн базы данных.
  • Моделирование данных помогает отделу организации функционировать как команда.
  • Это облегчает доступ к данным с легкостью.

51) Каковы недостатки использования моделирования данных?

Недостатками использования данных моделирования являются:

  • Имеет меньшую структурную независимость
  • Это может сделать систему сложной.

52) Что такое индекс?

Индекс используется для столбца или группы столбцов для быстрого получения данных.

53) Каковы характеристики логической модели данных?

Характеристики логической модели данных:

  • Описывает потребности в данных для одного проекта, но может интегрироваться с другими логическими моделями данных в зависимости от объема проекта.
  • Разработан и разработан независимо от СУБД.
  • Атрибуты данных будут иметь типы данных с точной точностью и длиной.
  • Процессы нормализации к модели, которые обычно применяются обычно до 3NF.

54) Каковы характеристики физической модели данных?

Характеристики физической модели данных:

  • Физическая модель данных описывает потребность в данных для одного проекта или приложения. Он может быть интегрирован с другими физическими моделями данных в зависимости от объема проекта.
  • Модель данных содержит отношения между таблицами, которые обращаются к количеству элементов и обнуляемости отношений.
  • Разработан для конкретной версии СУБД, местоположения, хранилища данных или технологии, которая будет использоваться в проекте.
  • Столбцы должны иметь точные типы данных, назначенные длины и значения по умолчанию.
  • Определены первичные и внешние ключи, представления, индексы, профили доступа, авторизации и т. Д.

55) Каковы два типа методов моделирования данных?

Существует два типа методов моделирования данных: 1) модель сущностных отношений (ER) и 2) UML (унифицированный язык моделирования).

56) Что такое UML?

UML (Unified Modeling Language) — это универсальный язык разработки баз данных, язык моделирования в области разработки программного обеспечения. Основное намерение — предоставить обобщенный способ визуализации проектирования системы.

57) Объясните объектно-ориентированную модель базы данных

Объектно-ориентированная модель базы данных представляет собой совокупность объектов. Эти объекты могут иметь связанные функции, а также методы.

58) Что такое модель сети?

Это модель, которая построена на иерархической модели. Это позволяет нескольким отношениям связывать записи, что указывает на наличие нескольких записей. Можно построить набор родительских записей и дочерних записей. Каждая запись может принадлежать нескольким наборам, которые позволяют выполнять сложные взаимосвязи таблиц.

59) Что такое хеширование?

Хеширование — это метод, который используется для поиска всех значений индекса и получения желаемых данных. Это помогает рассчитать прямое расположение данных, которые записываются на диск, без использования структуры индекса.

60) Что такое бизнес или натуральные ключи?

бизнес или натуральные ключи — это поле, однозначно идентифицирующее сущность. Например, идентификатор клиента, номер сотрудника, адрес электронной почты и т. Д.

61) Что такое составной ключ?

Когда для представления ключа используется более одного поля, оно называется составным ключом.

62) Что такое первая нормальная форма?

Первая нормальная форма или 1NF — это свойство отношения, доступное в системе управления реляционными базами данных. Любое отношение называется первой нормальной формой, если домен каждого атрибута содержит значения, которые являются атомарными. Он содержит одно значение из этого домена.

63) В чем разница между первичным ключом и внешним ключом?

Основной ключ Внешний ключ
Первичный ключ помогает вам однозначно идентифицировать запись в таблице. Внешний ключ — это поле в таблице, являющееся первичным ключом другой таблицы.
Первичный ключ никогда не принимает нулевые значения. Внешний ключ может принимать несколько нулевых значений.
Первичный ключ — это кластеризованный индекс, а данные в таблице СУБД физически организованы в последовательности кластерного индекса. Внешний ключ не может автоматически создавать индекс, кластеризованный или некластеризованный. Однако вы можете вручную создать индекс по внешнему ключу.
Вы можете иметь один первичный ключ в таблице. Вы можете иметь несколько внешних ключей в таблице.

64) Каковы требования второй нормальной формы?

Требования второй нормальной формы:

  • Это должно быть в первой нормальной форме.
  • Он не содержит никакого непростого атрибута, который функционально зависит от любого подмножества ключа-кандидата в табличном отношении.

65) Каковы правила для третьей нормальной формы?

Правила для третьих нормальных форм:

  • Это должно быть во второй нормальной форме
  • У него нет транзитивных функциональных зависимостей.

66) Какова важность использования ключей?

  • Ключи помогают идентифицировать любую строку данных в таблице. В реальном приложении таблица может содержать тысячи записей.
  • Ключи гарантируют, что вы сможете однозначно идентифицировать запись таблицы, несмотря на эти проблемы.
  • Позволяет установить связь между и определить связь между таблицами
  • Помочь вам обеспечить идентичность и целостность в отношениях.

67) Что такое суррогатный ключ?

Искусственный ключ, предназначенный для уникальной идентификации каждой записи, называется суррогатным ключом. Эти типы ключей уникальны, потому что они создаются, когда у вас нет естественного первичного ключа. Они не придают никакого значения данным в таблице. Суррогатный ключ обычно является целым числом.

68) Объясните альтернативный ключ в деталях

Альтернативный ключ — это столбец или группа столбцов в таблице, которая однозначно определяет каждую строку в этой таблице. Таблица может иметь несколько вариантов выбора первичного ключа, но в качестве первичного ключа может быть задан только один. Все ключи, которые не являются первичными ключами, называются альтернативными ключами.

69) Что такое четвертая нормальная форма в СУБД?

Четвертая нормальная форма — это уровень нормализации базы данных, где не должно быть нетривиальной зависимости, кроме ключа-кандидата.

70) Что такое система управления базами данных?

Система управления базами данных или СУБД представляет собой программное обеспечение для хранения и извлечения пользовательских данных. Он состоит из группы программ, которые управляют базой данных.

71) Какое правило пятой нормальной формы?

Таблица находится в 5- й нормальной форме, только если она находится в 4- й нормальной форме, и ее нельзя разложить на любое количество более мелких таблиц без потери данных.

72) Что такое нормализация?

Нормализация — это метод проектирования базы данных, который организует таблицы таким образом, чтобы уменьшить избыточность и зависимость данных. Он делит большие таблицы на меньшие и связывает их, используя отношения.

73) Объясните характеристики системы управления базами данных

  • Обеспечивает безопасность и устраняет избыточность
  • Самоописывающая природа системы баз данных
  • Изоляция между программами и абстракция данных
  • Поддержка нескольких просмотров данных.
  • Обмен данными и обработка многопользовательских транзакций
  • СУБД позволяет сущностям и отношениям между ними формировать таблицы.
  • Он следует концепции ACID (атомарность, согласованность, изоляция и долговечность).
  • СУБД поддерживает многопользовательскую среду, которая позволяет пользователям параллельно получать доступ к данным и манипулировать ими.

74) Перечислите популярное программное обеспечение СУБД

Популярное программное обеспечение СУБД:

  • MySQL
  • Microsoft Access
  • оракул
  • PostgreSQL
  • DBase
  • FoxPro
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Объясните концепцию СУРБД

Система управления реляционными базами данных — это программное обеспечение, которое используется для хранения данных в виде таблиц. В такой системе данные управляются и хранятся в строках и столбцах, которые называются кортежами и атрибутами. СУБД является мощной системой управления данными и широко используется во всем мире.

76) Каковы преимущества модели данных?

Преимущества модели данных:

  • Основная цель проектирования модели данных — обеспечить точное представление объектов данных, предлагаемых функциональной группой.
  • Модель данных должна быть достаточно подробной, чтобы ее можно было использовать для построения физической базы данных.
  • Информация в модели данных может использоваться для определения взаимосвязи между таблицами, первичным и внешним ключами и хранимыми процедурами.
  • Модель данных помогает предприятиям общаться внутри и между организациями.
  • Модель данных помогает документировать сопоставления данных в процессе ETL
  • Помогите распознать правильные источники данных для заполнения модели

77) Каковы недостатки модели данных?

Недостатки модели данных:

  • Для разработки модели данных необходимо знать физические характеристики хранимых данных.
  • Это навигационная система, которая производит сложную разработку приложений, управление ими. Таким образом, это требует знания биографической правды.
  • Даже небольшие изменения, внесенные в структуру, требуют изменения во всем приложении.
  • В СУБД нет набора языков манипулирования данными.

78) Объясните различные типы таблиц фактов

Существует три типа таблиц фактов:

  • Добавка: это мера, которая добавляется к любому измерению.
  • Неаддитивный: это мера, которую нельзя добавить ни к одному измерению.
  • Полуаддитивный: это мера, которая может быть добавлена ​​к нескольким измерениям.

79) Что такое сводная таблица?

Таблица агрегирования содержит агрегированные данные, которые можно рассчитать с использованием таких функций, как: 1) Среднее 2) МАКС, 3) Подсчет, 4) СУММА, 5) СУММА и 6) МИН.

80) Что такое подтвержденное измерение?

Соответствующее измерение — это измерение, которое разработано таким образом, чтобы его можно было использовать во многих таблицах фактов в различных областях хранилища данных.

81) Перечислите типы иерархий в моделировании данных

Существует два типа иерархий: 1) иерархии на основе уровней и 2) иерархии родитель-потомок.

82) В чем разница между витриной и хранилищем данных?

Витрина данных Хранилище данных
Data mart фокусируется на одной предметной области бизнеса. Хранилище данных фокусируется на нескольких сферах бизнеса.
Он используется для принятия тактических решений для роста бизнеса. Это помогает владельцам бизнеса принять стратегическое решение
Рынок данных следует восходящей модели Хранилище данных следует нисходящей модели
Источник данных поступает из одного источника данных Источник данных поступает из нескольких разнородных источников данных.

83) Что такое XMLA?

XMLA — это анализ XML, который считается стандартным для доступа к данным в интерактивной аналитической обработке (OLAP).

84) Объясните размер мусора

Измерение мусора помогает хранить данные. Он используется, когда данные неправильно хранить в схеме.

85) Объяснить цепочку репликации данных

Ситуация, когда вторичный узел выбирает цель, используя время пинга, или когда ближайший узел является вторичным, он называется цепной репликацией данных.

86) Объяснить виртуальное хранилище данных

Виртуальное хранилище данных дает общее представление о готовых данных. Виртуальное хранилище данных не имеет исторических данных. Это рассматривается как логическая модель данных, имеющая метаданные.

87) Объясните снимок хранилища данных

Снимок — это полная визуализация данных в тот момент, когда начинается процесс извлечения данных.

88) Что такое двунаправленный экстракт?

Способность системы извлекать, очищать и передавать данные в двух направлениях называется направленным извлечением.