Статьи

Запросы к графу открытых знаний DBpedia со стандартным SQL

Введение в DBpedia

DBpedia — это краудсорсинговый проект сообщества, который извлекает структурированный контент из частично неструктурированных и частично структурированных частей страниц Википедии и других структурированных источников, таких как Викимедиа. В проекте поддерживаются ссылки на внешние источники, и в ответ на это многие источники указывают на новейший граф ондологии / открытого знания DBpedia (OKG).

Вам также может понравиться: Лучший способ написать запрос SQL

Извлеченная / консолидированная информация с комплексной точки зрения представляет граф онтологии / открытых знаний (OKG), который, в свою очередь, также представляет базу знаний, содержащую одновременно метаданные класса / свойства и данные экземпляра класса / свойства. DBpedia охватывает множество доменов по сравнению с типичными базами знаний по конкретным ограниченным областям, а также включает в себя множество различных международных глав / языковых сообществ.

С другой стороны, timbr DBpedia представляет собой синергию между DBpedia + SQL. Позволяет запрашивать онтологию DBpedia / граф открытых знаний (OKG) через стандартный SQL, включая также выражения пути, избегая определения сложных объединений и сложных запросов SPARQL через конечную точку SPARQL. 

Любой, кто чувствует себя комфортно с SQL, может повторно использовать свои знания для запроса / доступа к DBpedia OKG. Кроме того, timbr поддерживает создание онтологий в SQL, а также поддерживает загрузку существующих, как в данном случае, DBpedia Ontology / OKG, которая написана на OWL.

Timbr DBpedia Семантическая паутина

Timbr DBpedia поддерживает онтологии RDF / RDFS / OWL через виртуальный компилятор SQL, который выполняет стек Semantic Web:

  • Моделирование, управление, запрос онтологий через стандартный SQL
  • Включение обхода графа в стандартном SQL через выражения пути, как правило, включается в базы данных граф
  • Разрешение семантического вывода во время выполнения с помощью правил онтологии
  • Как избежать сложных объединений и сложных запросов SPARQL
  • Поддержка онтологий RDF / RDFS / OWL, отображающих их на внутренние СУБД SQL.
  • Расширение SQL с наследованием (отношения IS-A, позволяющие определять большие иерархии подчинения) и возможности вывода.

Рисунок 1. Стек семантической сети Timbr DBpedia

Timbr DBpedia Архитектура

Клиенты SQL и инструменты BI получают доступ через Virtual SQL engine / службу запросов (timbr поддерживает JDBC / ODBC), онтологию timbr DBpedia, которая отображает артефакты онтологии в бэкэнд-СУБД SQL. Классы / концепции / свойства OKG сопоставляются с реляционными таблицами / столбцами посредством схем «три в одном», timbr, etimbr и dtimbr (см. Раздел 5).

Свойства могут включать в себя прямые свойства, унаследованные свойства (в иерархии подчинения) и ссылки, которые являются специальными атрибутами, представляющими отношения с другими классами / концепциями (обычно представленными как URI / внешние ключи в виртуальном механизме SQL).

DBpedia OKG больше не требуется для доступа к сложным SPARQL-запросам / конечным точкам SPARQL. DBpedia OKG может запрашиваться стандартным SQL. Timbr DBpedia также включает в себя Ontology Viewer / Explorer, чтобы конечные пользователи могли интуитивно просматривать область действия данной части OKG. 

В этом техническом отчете мы фокусируемся на доступе к DBpedia OKG через клиентов SQL (в данном случае MySQL и Amazon Redshift). В конце этого отчета мы кратко упомянем Timbr DBpedia Ontology / OKG Explorer и бета-компонент timbr DBpedia Data Exploration.

Рисунок 2. Архитектура Timbr DBpedia

Timbr DBpedia СИСТЕМНЫЕ СТОЛЫ

Мы кратко упомянем системные таблицы timbr-DBpedia как набор таблиц, поддерживающих определение и запросы DBpedia через стандартный SQL. Его можно рассматривать как базовую таблицу «системного каталога». Среди них можно выделить:

Системные таблицы Timbr DBpedia:

  • Timbr.SYS_CONCEPTS: содержит уникальный класс / концепции онтологии Timbr DBpedia.
  • Timbr.SYS_INHERITANCE: содержит базовый / производный класс / понятия.
  • Timbr.SYS_ONTOLOGY: содержит набор классов / концепций с соответствующими свойствами, первичные ключи, унаследованные первичные ключи, родительский класс / концепции, уровень наследования и т. Д.
  • Timbr.SYS_RELATIONSHIPS: включает в себя в общей сложности 8 столбцов, среди которых класс / концепция, связанный класс / концепция, имя внешнего ключа и т. Д.

Три в одном: схемы онтологии Timbr, Etimbr, Dtimbr

В timbr DBpedia есть три различных точки зрения / перспективы представления онтологии:

  • Схема Timbr: неявное представление онтологии. Включает явную онтологию / реляционное отображение.
  • Этимбр схема: исчерпывающее представление. Включает артефакты онтологии схемы timbr плюс производные свойства класса / концепции. Другими словами, родительский класс / концепты включают в себя производные свойства от производных классов / концепций в иерархии подчинения (например, класс / концепт «вещь» будет включать все свойства онтологии / графа знаний DBpedia, откуда все классы / концепции наследуют entity_id и entity_type свойства).
  • Схема Dtimbr: представление с разыменованием, которое включает в себя схему etimbr плюс обходы графа / перехода, избегая ненужных объединений.

Т imbr DBpedia Schema запросов

Это конкретное представление схемы DBpedia рассматривает классы / концепции / свойства как таблицы / столбцы, где каждый класс / концепция имеет как минимум следующие атрибуты (унаследованные от «вещи» артефакта онтологии родительского предка):

  • Entity_id: уникальный URI / первичный ключ.
  • Entity_type: не требует пояснений, это тип артефакта онтологии.

Обратите внимание, что timbr DBpedia разрешает множественное наследование, поэтому entity_type может содержать несколько записей. Также обратите внимание, что онтология / граф знаний DBpedia может содержать множество нулевых значений свойства класса / концепции.


SQL