Учебники

Обработка дискурса естественного языка

Самая сложная проблема ИИ — это обработка естественного языка с помощью компьютеров, или, другими словами, обработка естественного языка является самой сложной проблемой искусственного интеллекта. Если мы говорим об основных проблемах в НЛП, то одной из основных проблем в НЛП является обработка дискурса — построение теорий и моделей того, как высказывания слипаются, образуя согласованный дискурс . На самом деле, язык всегда состоит из связанных, структурированных и связных групп предложений, а не изолированных и не связанных предложений, таких как фильмы. Эти согласованные группы предложений упоминаются как дискурс.

Концепция когерентности

Согласованность и структура дискурса во многом взаимосвязаны. Связность, наряду со свойством хорошего текста, используется для оценки качества вывода системы генерации естественного языка. Возникающий здесь вопрос: что означает, что текст является связным? Предположим, мы собрали одно предложение на каждой странице газеты, тогда это будет дискурс? Конечно, нет. Это потому, что эти предложения не показывают последовательность. Когерентный дискурс должен обладать следующими свойствами —

Соотношение когерентности между высказываниями

Дискурс был бы последовательным, если бы он имел значимые связи между своими высказываниями. Это свойство называется отношением когерентности. Например, должно быть какое-то объяснение, чтобы оправдать связь между высказываниями.

Отношения между сущностями

Другое свойство, которое делает дискурс связным, заключается в том, что должны быть определенные виды отношений с сущностями. Такой вид последовательности называется когерентностью на основе сущностей.

Структура дискурса

Важный вопрос, касающийся дискурса, заключается в том, какую структуру должен иметь дискурс. Ответ на этот вопрос зависит от сегментации, которую мы применили к дискурсу. Сегментации дискурса могут быть определены как определяющие типы структур для большого дискурса. Реализовать дискурсивную сегментацию довольно сложно, но это очень важно для приложений поиска информации, суммирования текста и извлечения информации .

Алгоритмы дискурсивной сегментации

В этом разделе мы узнаем об алгоритмах сегментации дискурса. Алгоритмы описаны ниже —

Сегментация дискурса без присмотра

Класс сегментации дискурса без присмотра часто представлен как линейная сегментация. Мы можем понять задачу линейной сегментации на примере. В этом примере задача разбить текст на несколько абзацев; единицы представляют собой прохождение исходного текста. Эти алгоритмы зависят от сплоченности, которая может быть определена как использование определенных лингвистических устройств для связывания текстовых единиц вместе. С другой стороны, сплоченность лексики — это сплоченность, на которую указывают отношения между двумя или более словами в двух единицах, например использование синонимов.

Сегментация контролируемого дискурса

Предыдущий метод не имеет каких-либо помеченных вручную границ сегментов. С другой стороны, сегментация контролируемого дискурса должна иметь обучающие данные с маркировкой границ. Это очень легко приобрести то же самое. В контролируемой сегментации дискурса важную роль играют дискурсивный маркер или ключевые слова. Маркер дискурса или ключевое слово — это слово или фраза, которые функционируют для обозначения структуры дискурса. Эти дискурсивные маркеры являются предметно-ориентированными.

Согласованность текста

Лексическое повторение — это способ найти структуру в дискурсе, но оно не удовлетворяет требованию быть последовательным дискурсом. Чтобы достигнуть связного дискурса, мы должны сосредоточиться на связности отношений в частности. Как известно, отношение когерентности определяет возможную связь между высказываниями в дискурсе. Хебб предложил такие отношения следующим образом:

Мы берем два термина S 0 и S 1, чтобы представить значение двух связанных предложений:

Результат

Из этого следует, что состояние, утверждаемое термином S 0, может вызвать состояние, утверждаемое S 1 . Например, два утверждения показывают результат отношений: Рам был пойман в огне. Его кожа сгорела.

объяснение

Это означает, что состояние, утвержденное S 1, может вызвать состояние, утвержденное S 0 . Например, два утверждения показывают отношения — Рам сражался с другом Шьяма. Он был пьян.

Параллельно

Он выводит p (a1, a2,…) из утверждения S 0 и p (b1, b2,…) из утверждения S 1 . Здесь ai и bi одинаковы для всех i. Например, два утверждения параллельны — Рам хотел машину. Шиам хотел денег.

разработка

Он выводит одно и то же утверждение P из обоих утверждений — S 0 и S 1. Например, два утверждения показывают развитие отношения: Рам был из Чандигарха. Шиам был из Кералы.

Случай

Это происходит, когда изменение состояния может быть выведено из утверждения S 0 , конечное состояние которого может быть выведено из S 1 и наоборот. Например, два утверждения показывают случай отношения: Рам взял книгу. Он дал это Шиаму.

Построение иерархической структуры дискурса

Когерентность всего дискурса может также рассматриваться иерархической структурой между отношениями когерентности. Например, следующий отрывок может быть представлен в виде иерархической структуры —

  • S 1 — Рам пошел в банк, чтобы внести деньги.

  • S 2 — Затем он сел на поезд до магазина одежды Шиама.

  • S 3 — Он хотел купить одежду.

  • S 4 — У него нет новой одежды для вечеринки.

  • S 5 — Он также хотел поговорить с Shyam относительно его здоровья

S 1 — Рам пошел в банк, чтобы внести деньги.

S 2 — Затем он сел на поезд до магазина одежды Шиама.

S 3 — Он хотел купить одежду.

S 4 — У него нет новой одежды для вечеринки.

S 5 — Он также хотел поговорить с Shyam относительно его здоровья

Построение иерархической структуры дискурса

Справочное разрешение

Интерпретация предложений из любого дискурса является еще одной важной задачей, и для достижения этой цели нам необходимо знать, о ком или о каком объекте идет речь. Здесь ссылка на интерпретацию является ключевым элементом. Ссылка может быть определена как лингвистическое выражение для обозначения сущности или индивидуума. Например, в проходе Рам , менеджер банка ABC , увидел своего друга Шьяма в магазине. Он пошел ему навстречу, такие лингвистические выражения, как «Рам», «Его», «Он» — это ссылки.

В том же примечании эталонное разрешение может быть определено как задача определения того, на какие объекты ссылается какое языковое выражение.

Терминология, используемая в справочной резолюции

Мы используем следующие термины в справочной резолюции —

  • Ссылочное выражениевыражение на естественном языке, используемое для выполнения ссылки, называется ссылочным выражением. Например, отрывок, использованный выше, является ссылочным выражением.

  • Референт — это сущность, которая упоминается. Например, в последнем приведенном примере Рам является референтом.

  • Corefer — когда два выражения используются для ссылки на один и тот же объект, они называются corefers. Например, Рам и он — помощники.

  • Антецедент — Термин имеет лицензию на использование другого термина. Например, Рам является предшественником ссылки он .

  • Анафора и Анафор — это может быть определено как ссылка на сущность, которая была ранее введена в предложение. И, ссылающееся выражение называется анафорическим.

  • Модель дискурса — модель, которая содержит представления сущностей, которые упоминались в дискурсе, и отношения, в которых они участвуют.

Ссылочное выражениевыражение на естественном языке, используемое для выполнения ссылки, называется ссылочным выражением. Например, отрывок, использованный выше, является ссылочным выражением.

Референт — это сущность, которая упоминается. Например, в последнем приведенном примере Рам является референтом.

Corefer — когда два выражения используются для ссылки на один и тот же объект, они называются corefers. Например, Рам и он — помощники.

Антецедент — Термин имеет лицензию на использование другого термина. Например, Рам является предшественником ссылки он .

Анафора и Анафор — это может быть определено как ссылка на сущность, которая была ранее введена в предложение. И, ссылающееся выражение называется анафорическим.

Модель дискурса — модель, которая содержит представления сущностей, которые упоминались в дискурсе, и отношения, в которых они участвуют.

Типы ссылающихся выражений

Давайте теперь посмотрим на различные типы ссылочных выражений. Пять типов ссылочных выражений описаны ниже —

Неопределенные существительные фразы

Такой вид ссылки представляет объекты, которые являются новыми для слушателя в контексте дискурса. Например — в предложении Рама однажды ходил, чтобы принести ему немного еды, — какое-то неопределенное указание.

Определенные Фразы Существительных

В противоположность вышесказанному, такого рода ссылки представляют сущности, которые не являются новыми или не могут быть идентифицированы для слушателя в контексте разговора. Например, в предложении — я читал «Таймс оф Индия» — «Таймс оф Индия» — это определенная ссылка.

Местоимения

Это форма определенной ссылки. Например, Рам смеялся так громко, как мог. Слово, которое он представляет местоимение, ссылаясь на выражение.

Указательные местоимения

Они демонстрируют и ведут себя иначе, чем простые определенные местоимения. Например, это и то, что являются наглядными местоимениями.

имена

Это самый простой тип ссылочного выражения. Это может быть имя человека, организации и места также. Например, в приведенных выше примерах Ram является выражением, ссылающимся на имя.

Задачи справочного разрешения

Две контрольные задачи разрешения описаны ниже.

Разрешение Coreference

Задача состоит в том, чтобы найти ссылающиеся выражения в тексте, которые ссылаются на одну и ту же сущность. Проще говоря, это задача поиска выражений corefer. Набор выражений coreferring называется цепью coreference. Например — Он, Главный менеджер и Его — это ссылки на выражения в первом отрывке, приведенном в качестве примера.

Ограничение на разрешение контрольных точек

В английском языке основной проблемой разрешения ключевых слов является местоимение it. Причина этого в том, что местоимение у него много употреблений. Например, это может относиться так же, как он и она. Местоимение также относится к вещам, которые не относятся к конкретным вещам. Например, идет дождь. Это действительно хорошо.

Прономинальное разрешение анафоры

В отличие от разрешения по основным признакам, местоименное разрешение анафоры может быть определено как задача поиска антецедента для одного местоимения. Например, местоимение принадлежит ему, и задача разрешения местоименной анафоры состоит в том, чтобы найти слово Ram, потому что Ram является предшественником.