Обработка естественного языка — Введение

Язык — это способ общения, с помощью которого мы можем говорить, читать и писать. Например, мы думаем, мы принимаем решения, планы и многое другое на естественном языке; точно, на словах. Однако, большой вопрос, который стоит перед нами в эту эпоху ИИ, заключается в том, можем ли мы так же общаться с компьютерами. Другими словами, могут ли люди общаться с компьютерами на их естественном языке? Для нас непросто разрабатывать приложения НЛП, поскольку компьютерам нужны структурированные данные, но человеческая речь неструктурирована и часто неоднозначна по своей природе.

В этом смысле мы можем сказать, что обработка естественного языка (NLP) — это подразделение компьютерных наук, особенно искусственного интеллекта (ИИ), которое занимается предоставлением компьютерам возможности понимать и обрабатывать человеческий язык. Технически, основной задачей НЛП было бы программирование компьютеров для анализа и обработки огромного количества данных на естественном языке.

История НЛП

Мы разделили историю НЛП на четыре этапа. Фазы имеют отличительные проблемы и стили.

Первая фаза (фаза машинного перевода) — конец 1940-х — конец 1960-х годов

Работа, проделанная на этом этапе, была сосредоточена главным образом на машинном переводе (MT). Этот этап был периодом энтузиазма и оптимизма.

Давайте теперь посмотрим, что было на первом этапе —

Исследование НЛП началось в начале 1950-х годов после расследования Бута и Риченса и меморандума Уивера по машинному переводу в 1949 году.
1954 год был годом, когда в эксперименте Джорджтаун-IBM был продемонстрирован ограниченный эксперимент по автоматическому переводу с русского на английский.
В том же году началась публикация журнала MT (Machine Translation).
Первая международная конференция по машинному переводу (МТ) состоялась в 1952 году, а вторая — в 1956 году.
В 1961 году кульминацией этого этапа стала работа, представленная на Международной конференции по машинному переводу языков и прикладному языку в Теддингтоне.

Исследование НЛП началось в начале 1950-х годов после расследования Бута и Риченса и меморандума Уивера по машинному переводу в 1949 году.

1954 год был годом, когда в эксперименте Джорджтаун-IBM был продемонстрирован ограниченный эксперимент по автоматическому переводу с русского на английский.

В том же году началась публикация журнала MT (Machine Translation).

Первая международная конференция по машинному переводу (МТ) состоялась в 1952 году, а вторая — в 1956 году.

В 1961 году кульминацией этого этапа стала работа, представленная на Международной конференции по машинному переводу языков и прикладному языку в Теддингтоне.

Вторая фаза (фаза влияния ИИ) — конец 1960-х — конец 1970-х годов

На этом этапе проделанная работа была в основном связана с мировым знанием и его ролью в построении и манипулировании смысловыми представлениями. Вот почему эта фаза также называется AI-ароматизированной фазой.

Этап был в нем, следующее —

В начале 1961 года началась работа над проблемами решения и построения базы данных или знаний. Эта работа была под влиянием AI.
В том же году была разработана система ответов на вопросы BASEBALL. Вход в эту систему был ограничен, и языковая обработка была простой.
Очень продвинутая система была описана в Минском (1968). Эта система, по сравнению с системой ответов на вопросы BASEBALL, была признана и предусмотрена для необходимости определения базы знаний при интерпретации и реагировании на ввод языка.

В начале 1961 года началась работа над проблемами решения и построения базы данных или знаний. Эта работа была под влиянием AI.

В том же году была разработана система ответов на вопросы BASEBALL. Вход в эту систему был ограничен, и языковая обработка была простой.

Очень продвинутая система была описана в Минском (1968). Эта система, по сравнению с системой ответов на вопросы BASEBALL, была признана и предусмотрена для необходимости определения базы знаний при интерпретации и реагировании на ввод языка.

Третья фаза (грамматико-логическая фаза) — конец 1970-х — конец 1980-х годов

Эта фаза может быть описана как грамматико-логическая фаза. Из-за неудачи практического построения системы на последнем этапе исследователи перешли к использованию логики для представления знаний и рассуждения в ИИ.

На третьем этапе было следующее:

Грамматико-логический подход к концу десятилетия помог нам с мощными процессорами предложений общего назначения, такими как Core Language Engine и Теория репрезентации дискурса, которые предлагали средства для решения более расширенного дискурса.
На этом этапе мы получили некоторые практические ресурсы и инструменты, такие как парсеры, например Alvey Natural Language Tools, а также более оперативные и коммерческие системы, например, для запросов к базе данных.
Работа над лексикой в 1980-х годах также указала в направлении грамматического подхода.

Грамматико-логический подход к концу десятилетия помог нам с мощными процессорами предложений общего назначения, такими как Core Language Engine и Теория репрезентации дискурса, которые предлагали средства для решения более расширенного дискурса.

На этом этапе мы получили некоторые практические ресурсы и инструменты, такие как парсеры, например Alvey Natural Language Tools, а также более оперативные и коммерческие системы, например, для запросов к базе данных.

Работа над лексикой в 1980-х годах также указала в направлении грамматического подхода.

Четвертая фаза (Lexical & Corpus Phase) — 1990-е годы

Мы можем описать это как лексическую и корпусную фазу. Эта фаза имела лексический подход к грамматике, который появился в конце 1980-х годов и приобрел все большее влияние. В этом десятилетии произошла революция в обработке естественного языка с введением алгоритмов машинного обучения для обработки языка.

Изучение человеческих языков

Язык является важнейшим компонентом человеческой жизни, а также самым фундаментальным аспектом нашего поведения. Мы можем испытать это в основном в двух формах — письменной и устной. В письменной форме это способ передать наши знания из поколения в поколение. В разговорной форме это является первичной средой для координации людей друг с другом в их повседневном поведении. Язык изучается в различных академических дисциплинах. Каждая дисциплина имеет свой собственный набор проблем и набор решений для их решения.

Рассмотрим следующую таблицу, чтобы понять это —

дисциплина	Проблемы	инструменты
Лингвисты	Как фразы и предложения могут быть составлены из слов? Что ограничивает возможный смысл предложения?	Интуиция о правильности и значении. Математическая модель строения. Например, теоретическая семантика модели, теория формального языка.
психолингвистов	Как люди могут определить структуру предложений? Как определить значение слов? Когда происходит понимание?	Экспериментальные методы в основном для измерения производительности людей. Статистический анализ наблюдений.
Философы	Как слова и предложения приобретают смысл? Как объекты идентифицируются по словам? Что это значит?	Аргументация естественного языка с помощью интуиции. Математические модели, такие как логика и теория моделей.
Вычислительные лингвисты	Как мы можем определить структуру предложения Как можно смоделировать знания и рассуждения? Как мы можем использовать язык для выполнения конкретных задач?	Алгоритмы Структуры данных Формальные модели представления и рассуждения. AI методы, такие как методы поиска и представления.

дисциплина

Проблемы

инструменты

Лингвисты

Как фразы и предложения могут быть составлены из слов?

Что ограничивает возможный смысл предложения?

Интуиция о правильности и значении.

Математическая модель строения. Например, теоретическая семантика модели, теория формального языка.

психолингвистов

Как люди могут определить структуру предложений?

Как определить значение слов?

Когда происходит понимание?

Экспериментальные методы в основном для измерения производительности людей.

Статистический анализ наблюдений.

Философы

Как слова и предложения приобретают смысл?

Как объекты идентифицируются по словам?

Что это значит?

Аргументация естественного языка с помощью интуиции.

Математические модели, такие как логика и теория моделей.

Вычислительные лингвисты

Как мы можем определить структуру предложения

Как можно смоделировать знания и рассуждения?

Как мы можем использовать язык для выполнения конкретных задач?

Алгоритмы

Структуры данных

Формальные модели представления и рассуждения.

AI методы, такие как методы поиска и представления.

Лингвисты

Как фразы и предложения могут быть составлены из слов?

Что ограничивает возможный смысл предложения?

Интуиция о правильности и значении.

Математическая модель строения. Например, теоретическая семантика модели, теория формального языка.

психолингвистов

Как люди могут определить структуру предложений?

Как определить значение слов?

Когда происходит понимание?

Экспериментальные методы в основном для измерения производительности людей.

Статистический анализ наблюдений.

Философы

Как слова и предложения приобретают смысл?

Как объекты идентифицируются по словам?

Что это значит?

Аргументация естественного языка с помощью интуиции.

Математические модели, такие как логика и теория моделей.

Вычислительные лингвисты

Как мы можем определить структуру предложения

Как можно смоделировать знания и рассуждения?

Как мы можем использовать язык для выполнения конкретных задач?

Алгоритмы

Структуры данных

Формальные модели представления и рассуждения.

AI методы, такие как методы поиска и представления.

Неопределенность и неопределенность в языке

Неоднозначность, обычно используемая в обработке естественного языка, может быть названа как способность быть понятой более чем одним способом. Проще говоря, мы можем сказать, что двусмысленность — это способность быть понятой более чем одним способом. Естественный язык очень неоднозначен. НЛП имеет следующие виды неясностей —

Лексическая Неоднозначность

Неоднозначность одного слова называется лексической двусмысленностью. Например, рассматривая слово серебро как существительное, прилагательное или глагол.

Синтаксическая Неопределенность

Такая двусмысленность возникает, когда предложение разбирается по-разному. Например, предложение «Мужчина увидел девушку с телескопом». Не ясно, видел ли мужчина девушку с телескопом или видел ее через телескоп.

Семантическая двусмысленность

Такая двусмысленность возникает, когда значение самих слов может быть неправильно истолковано. Другими словами, семантическая неоднозначность возникает, когда предложение содержит неоднозначное слово или фразу. Например, предложение «Автомобиль врезался в столб, когда он двигался», имеет семантическую двусмысленность, потому что интерпретации могут быть такими: «Автомобиль, двигаясь, врезается в столб» и «Автомобиль врезался в столб, когда столб двигался».

Анафорическая Неоднозначность

Такая двусмысленность возникает из-за использования в дискурсе анафорных сущностей. Например, лошадь побежала в гору. Это было очень круто. Скоро надоело. Здесь анафорическая ссылка на «это» в двух ситуациях вызывает неоднозначность.

Прагматическая двусмысленность

Такая двусмысленность относится к ситуации, когда контекст фразы дает ей несколько толкований. Проще говоря, мы можем сказать, что прагматическая двусмысленность возникает, когда утверждение не является конкретным. Например, предложение «ты мне тоже нравишься» может иметь несколько толкований, как ты мне нравишься (так же, как я тебе нравлюсь), ты мне нравишься (точно так же, как кто-то другой).

Фазы НЛП

Следующая диаграмма показывает фазы или логические шаги в обработке естественного языка —

Морфологическая обработка

Это первая фаза НЛП. Целью этого этапа является разбиение фрагментов ввода языка на наборы токенов, соответствующих абзацам, предложениям и словам. Например, слово типа «непростое» можно разбить на два токена подслов как «непростое» .

Синтаксический анализ

Это вторая фаза НЛП. Цель этого этапа состоит в двух направлениях: проверить, правильно ли сформировано предложение или нет, и разбить его на структуру, которая показывает синтаксические отношения между различными словами. Например, предложение типа «Школа идет к мальчику» будет отклонено синтаксическим анализатором или анализатором.

Семантический анализ

Это третья фаза НЛП. Цель этого этапа — нарисовать точное значение, или вы можете сказать значение словаря из текста. Текст проверен на осмысленность. Например, семантический анализатор отклонил бы предложение типа «Горячее мороженое».

Прагматический анализ

Это четвертая фаза НЛП. Прагматический анализ просто сопоставляет фактические объекты / события, которые существуют в данном контексте, с объектными ссылками, полученными на последнем этапе (семантический анализ). Например, предложение «Положите банан в корзину на полке» может иметь две семантические интерпретации, и прагматический анализатор будет выбирать между этими двумя возможностями.

НЛП — Лингвистические ресурсы

В этой главе мы узнаем о лингвистических ресурсах в обработке естественного языка.

тело

Корпус — это большой и структурированный набор машиночитаемых текстов, которые были созданы в естественной коммуникативной обстановке. Его множественное число является корпусом. Они могут быть получены по-разному, например, текст, который был первоначально электронным, стенограммы разговорного языка и оптического распознавания символов и т. Д.

Элементы Корпус Дизайн

Язык бесконечен, но корпус должен быть конечным по размеру. Чтобы корпус был конечным по размеру, нам нужно выполнить выборку и пропорционально включить широкий спектр типов текста, чтобы обеспечить хороший дизайн корпуса.

Давайте теперь узнаем о некоторых важных элементах дизайна корпуса —

Представительность корпуса

Репрезентативность является определяющей чертой дизайна корпуса. Следующие определения двух великих исследователей — Пиявки и Бибера, помогут нам понять представительность корпуса —

Согласно Leech (1991), «корпус считается представителем языкового разнообразия, которое он должен представлять, если результаты, основанные на его содержании, могут быть обобщены до указанного языкового разнообразия».
Согласно Biber (1993), «репрезентативность относится к степени, в которой выборка включает полный диапазон изменчивости в популяции».

Согласно Leech (1991), «корпус считается представителем языкового разнообразия, которое он должен представлять, если результаты, основанные на его содержании, могут быть обобщены до указанного языкового разнообразия».

Согласно Biber (1993), «репрезентативность относится к степени, в которой выборка включает полный диапазон изменчивости в популяции».

Таким образом, мы можем сделать вывод, что репрезентативность корпуса определяется следующими двумя факторами:

Баланс — Диапазон жанров включает в себя корпус
Выборка — Как выбираются фрагменты для каждого жанра.

Баланс — Диапазон жанров включает в себя корпус

Выборка — Как выбираются фрагменты для каждого жанра.

Корпус Баланс

Другой очень важный элемент дизайна корпуса — баланс корпуса — диапазон жанра, включенного в корпус. Мы уже изучали, что репрезентативность общего корпуса зависит от того, насколько сбалансирован корпус. Сбалансированный корпус охватывает широкий спектр текстовых категорий, которые должны быть представителями языка. У нас нет какой-либо надежной научной меры для баланса, но лучшая оценка и интуиция работают в этом отношении. Другими словами, мы можем сказать, что принятый баланс определяется только его предполагаемым использованием.

отбор проб

Другим важным элементом дизайна корпуса является выборка. Репрезентативность и сбалансированность корпуса очень тесно связаны с отбором проб. Вот почему мы можем сказать, что выборка неизбежна при построении корпуса.

Согласно Биберу (1993) , «некоторые из первых соображений при построении корпуса касаются общего дизайна: например, типы включенных текстов, количество текстов, выбор конкретных текстов, выбор образцов текста из текстов. и длина образцов текста. Каждый из них включает выборочное решение, сознательное или нет ».

Согласно Биберу (1993) , «некоторые из первых соображений при построении корпуса касаются общего дизайна: например, типы включенных текстов, количество текстов, выбор конкретных текстов, выбор образцов текста из текстов. и длина образцов текста. Каждый из них включает выборочное решение, сознательное или нет ».

При получении репрезентативной выборки нам необходимо учитывать следующее:

Единица отбора проб — относится к единице, для которой требуется образец. Например, для письменного текста единицей выборки может быть газета, журнал или книга.
Рамка выборки — список всех единиц выборки называется кадром выборки.
Население — это можно назвать сборкой всех единиц выборки. Он определяется с точки зрения языкового производства, языкового восприятия или языка как продукта.

Единица отбора проб — относится к единице, для которой требуется образец. Например, для письменного текста единицей выборки может быть газета, журнал или книга.

Рамка выборки — список всех единиц выборки называется кадром выборки.

Население — это можно назвать сборкой всех единиц выборки. Он определяется с точки зрения языкового производства, языкового восприятия или языка как продукта.

Размер корпуса

Другим важным элементом дизайна корпуса является его размер. Насколько большим должен быть корпус? На этот вопрос нет конкретного ответа. Размер корпуса зависит от цели, для которой он предназначен, а также от следующих практических соображений:

Вид запроса, ожидаемого от пользователя.
Методология, используемая пользователями для изучения данных.
Наличие источника данных.

Вид запроса, ожидаемого от пользователя.

Методология, используемая пользователями для изучения данных.

Наличие источника данных.

С прогрессом в технологии, размер корпуса также увеличивается. Следующая таблица сравнения поможет вам понять, как работает размер корпуса —

Год	Наименование корпуса	Размер (словами)
1960-е — 70-е годы	Коричневый и LOB	1 миллион слов
1980-е годы	Бирмингемская Корпорация	20 миллионов слов
1990-е годы	Британский национальный корпус	100 миллионов слов
Начало 21 века	Банк английского корпуса	650 миллионов слов

В наших последующих разделах мы рассмотрим несколько примеров корпусов.

TreeBank Corpus

Он может быть определен как лингвистически проанализированный текстовый корпус, который аннотирует синтаксическую или семантическую структуру предложения. Джеффри Лич ввел термин «древовидный банк», который означает, что наиболее распространенным способом представления грамматического анализа является древовидная структура. Как правило, древовидные банки создаются в верхней части корпуса, который уже снабжен тегами части речи.

Типы TreeBank Корпус

Семантические и синтаксические древовидные банки являются двумя наиболее распространенными типами древовидных банков в лингвистике. Давайте теперь узнаем больше об этих типах —

Семантические древовидные

Эти древовидные банки используют формальное представление семантической структуры предложения. Они различаются по глубине своего семантического представления. Команды роботов Treebank, Geoquery, Groningen Meaning Bank, RoboCup Corpus — вот некоторые примеры семантических древовидных банков.

Синтаксические древовидные

В отличие от семантических древовидных банков входные данные для систем синтаксического древовидного банка являются выражениями формального языка, полученного в результате преобразования проанализированных данных древовидного банка. Выходы таких систем основаны на предикатном логическом значении представления. К настоящему времени созданы различные синтаксические древовидные блоки на разных языках. Например, Penn Arabic Treebank, Columbia Arabic Treebank — это синтаксические Treebank, созданные на арабском языке. Sininca синтаксический Treebank создан на китайском языке. Люси, Сьюзен и BLLIP WSJ создали синтаксический корпус на английском языке.

Приложения TreeBank Corpus

Ниже приведены некоторые из приложений TreeBanks —

В компьютерной лингвистике

Если мы говорим о вычислительной лингвистике, то лучше всего использовать TreeBanks для разработки современных систем обработки естественного языка, таких как метки части речи, парсеры, семантические анализаторы и системы машинного перевода.

В корпусе лингвистики

В случае корпусной лингвистики лучше всего использовать древовидные банки для изучения синтаксических явлений.

В теоретической лингвистике и психолингвистике

Лучшее использование древовидных банков в теоретической и психолингвистической практике — это доказательство взаимодействия.

ПропБанк Корпус

PropBank, более конкретно называемый «Банком предложений», представляет собой корпус, который снабжен устными предложениями и их аргументами. Корпус — это ресурс, ориентированный на глагол; аннотации здесь более тесно связаны с синтаксическим уровнем. Марта Палмер и др., Отделение лингвистики, Университет Колорадо, Боулдер разработали его. Мы можем использовать термин PropBank как обычное существительное, относящееся к любому корпусу, который аннотирован предложениями и их аргументами.

В области обработки естественного языка (NLP) проект PropBank сыграл очень важную роль. Это помогает в семантической ролевой маркировке.

VerbNet (VN),

VerbNet (VN) — это иерархический независимый от домена и самый большой лексический ресурс, представленный на английском языке, который включает как семантическую, так и синтаксическую информацию о его содержимом. VN — это глагол широкого охвата, имеющий сопоставления с другими лексическими ресурсами, такими как WordNet, Xtag и FrameNet. Он организован в классы глаголов, расширяющие классы Левина путем уточнения и добавления подклассов для достижения синтаксической и семантической согласованности среди членов класса.

Каждый класс VerbNet (VN) содержит —

Набор синтаксических описаний или синтаксических фреймов

Для изображения возможных поверхностных реализаций структуры аргумента для таких конструкций, как транзитивные, непереходные, пропозициональные фразы, результативные и большой набор чередований диатезов.

Набор семантических описаний, таких как анимация, человек, организация

Для ограничения, типы тематических ролей, разрешенных аргументами, и дополнительные ограничения могут быть наложены. Это поможет в указании синтаксической природы компонента, который может быть связан с тематической ролью.

WordNet

WordNet, созданный Princeton, представляет собой лексическую базу данных для английского языка. Это часть корпуса НЛТК. В WordNet существительные, глаголы, прилагательные и наречия группируются в наборы когнитивных синонимов, называемых Синсетами . Все синтаксисы связаны с помощью концептуально-семантических и лексических отношений. Его структура делает его очень полезным для обработки естественного языка (НЛП).

В информационных системах WordNet используется для различных целей, таких как устранение неоднозначности слов, поиск информации, автоматическая классификация текста и машинный перевод. Одним из наиболее важных применений WordNet является выявление сходства между словами. Для этой задачи в различных пакетах были реализованы различные алгоритмы, такие как Similarity в Perl, NLTK в Python и ADW в Java.

НЛП — Анализ на уровне слов

В этой главе мы разберемся с анализом мирового уровня в обработке естественного языка.

Регулярные выражения

Регулярное выражение (RE) — это язык для указания строк текстового поиска. RE помогает нам сопоставлять или находить другие строки или наборы строк, используя специальный синтаксис, содержащийся в шаблоне. Регулярные выражения используются для поиска текстов в UNIX, а также в MS WORD одинаковым способом. У нас есть различные поисковые системы, использующие ряд функций RE.

Свойства регулярных выражений

Ниже приведены некоторые важные свойства RE —

Американский математик Стивен Коул Клин формализовал язык регулярных выражений.
RE — это формула на специальном языке, которую можно использовать для указания простых классов строк, последовательности символов. Другими словами, мы можем сказать, что RE является алгебраической нотацией для характеристики набора строк.
Регулярное выражение требует двух вещей: одна — это шаблон, который мы хотим искать, а другая — это совокупность текста, из которого мы должны искать.

Американский математик Стивен Коул Клин формализовал язык регулярных выражений.

RE — это формула на специальном языке, которую можно использовать для указания простых классов строк, последовательности символов. Другими словами, мы можем сказать, что RE является алгебраической нотацией для характеристики набора строк.

Регулярное выражение требует двух вещей: одна — это шаблон, который мы хотим искать, а другая — это совокупность текста, из которого мы должны искать.

Математически Регулярное выражение может быть определено следующим образом:

ε является регулярным выражением, которое указывает, что язык имеет пустую строку.
φ является регулярным выражением, которое обозначает, что это пустой язык.
Если X и Y являются регулярными выражениями, то
- X, Y
- XY (объединение XY)
- X + Y (Союз X и Y)
- X *, Y * (Клин Закрытие X и Y)

ε является регулярным выражением, которое указывает, что язык имеет пустую строку.

φ является регулярным выражением, которое обозначает, что это пустой язык.

Если X и Y являются регулярными выражениями, то

X, Y

XY (объединение XY)

X + Y (Союз X и Y)

X *, Y * (Клин Закрытие X и Y)

также регулярные выражения.

Если строка получена из вышеуказанных правил, то это также будет регулярное выражение.

Если строка получена из вышеуказанных правил, то это также будет регулярное выражение.

Примеры регулярных выражений

В следующей таблице приведены несколько примеров регулярных выражений:

Регулярные выражения	Обычный набор
(0 + 10 *)	{0, 1, 10, 100, 1000, 10000,…}
(0 * 10 *)	{1, 01, 10, 010, 0010,…}
(0 + ε) (1 + ε)	{ε, 0, 1, 01}
(А + б) *	Это будет набор строк a и b любой длины, который также содержит пустую строку, т. Е. {Ε, a, b, aa, ab, bb, ba, aaa …….}
(А + б) * АВВ	Это будет набор строк из a и b, оканчивающихся строкой abb, т.е. {abb, aabb, babb, aaabb, ababb, ………… ..}
(11) *	Это будет набор, состоящий из четного числа 1, которое также содержит пустую строку, т. Е. {Ε, 11, 1111, 111111, ……….}
(Аа) * (бб) * б	Это будет набор строк, состоящий из четного числа a, за которым следует нечетное количество b, т.е. {b, aab, aabbb, aabbbbb, aaaab, aaaabbb, ………… ..}
(aa + ab + ba + bb) *	Это будет строка a и b одинаковой длины, которая может быть получена путем объединения любой комбинации строк aa, ab, ba и bb, включая ноль, т. Е. {Aa, ab, ba, bb, aaab, aaba, …………. .}

Регулярные множества и их свойства

Он может быть определен как набор, который представляет значение регулярного выражения и состоит из определенных свойств.

Свойства регулярных множеств

Если мы сделаем объединение двух регулярных наборов, то результирующий набор также будет регулярным.
Если мы сделаем пересечение двух регулярных множеств, то результирующий набор также будет регулярным.
Если мы сделаем дополнение регулярных множеств, то результирующий набор также будет регулярным.
Если мы сделаем различие двух регулярных наборов, то результирующий набор также будет регулярным.
Если мы сделаем обращение регулярных множеств, то результирующий набор также будет регулярным.
Если мы возьмем замыкание регулярных множеств, то результирующий набор также будет регулярным.
Если мы сделаем объединение двух регулярных наборов, то результирующий набор также будет регулярным.

Если мы сделаем объединение двух регулярных наборов, то результирующий набор также будет регулярным.

Если мы сделаем пересечение двух регулярных множеств, то результирующий набор также будет регулярным.

Если мы сделаем дополнение регулярных множеств, то результирующий набор также будет регулярным.

Если мы сделаем различие двух регулярных наборов, то результирующий набор также будет регулярным.

Если мы сделаем обращение регулярных множеств, то результирующий набор также будет регулярным.

Если мы возьмем замыкание регулярных множеств, то результирующий набор также будет регулярным.

Если мы сделаем объединение двух регулярных наборов, то результирующий набор также будет регулярным.

Конечные Государственные Автоматы

Термин «автоматы», производный от греческого слова «αὐτόματα», означающего «самодействующий», является множественным числом автомата, которое может быть определено как абстрактное самоходное вычислительное устройство, которое автоматически следует заданной последовательности операций.

Автомат с конечным числом состояний называется конечным автоматом (FA) или конечным автоматом (FSA).

Математически автомат может быть представлен 5-кортежем (Q, Σ, δ, q0, F), где —

Q — конечное множество состояний.
Σ — это конечный набор символов, называемый алфавитом автомата.
δ — функция перехода
q0 — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).
F — множество конечных состояний / состояний Q (F ⊆ Q).

Q — конечное множество состояний.

Σ — это конечный набор символов, называемый алфавитом автомата.

δ — функция перехода

q0 — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).

F — множество конечных состояний / состояний Q (F ⊆ Q).

Связь между конечными автоматами, регулярными грамматиками и регулярными выражениями

Следующие пункты дадут нам четкое представление о связи между конечными автоматами, регулярными грамматиками и регулярными выражениями —

Поскольку мы знаем, что конечные автоматы являются теоретической основой вычислительной работы, а регулярные выражения являются одним из способов их описания.
Можно сказать, что любое регулярное выражение может быть реализовано как FSA, а любое FSA может быть описано с помощью регулярного выражения.
С другой стороны, регулярное выражение — это способ охарактеризовать разновидность языка, называемого регулярным языком. Следовательно, мы можем сказать, что регулярный язык может быть описан как с помощью FSA, так и регулярного выражения.
Регулярная грамматика, формальная грамматика, которая может быть правильной или правильной слева, является еще одним способом характеристики обычного языка.

Поскольку мы знаем, что конечные автоматы являются теоретической основой вычислительной работы, а регулярные выражения являются одним из способов их описания.

Можно сказать, что любое регулярное выражение может быть реализовано как FSA, а любое FSA может быть описано с помощью регулярного выражения.

С другой стороны, регулярное выражение — это способ охарактеризовать разновидность языка, называемого регулярным языком. Следовательно, мы можем сказать, что регулярный язык может быть описан как с помощью FSA, так и регулярного выражения.

Регулярная грамматика, формальная грамматика, которая может быть правильной или правильной слева, является еще одним способом характеристики обычного языка.

Следующая диаграмма показывает, что конечные автоматы, регулярные выражения и регулярные грамматики являются эквивалентными способами описания регулярных языков.

Типы конечной государственной автоматизации (ФСА)

Автоматизация конечных состояний бывает двух типов. Давайте посмотрим, что это за типы.

Детерминированная конечная автоматизация (DFA)

Это может быть определено как тип конечной автоматизации, в которой для каждого входного символа мы можем определить состояние, в которое машина перейдет. Он имеет конечное число состояний, поэтому машина называется детерминированным конечным автоматом (DFA).

Математически DFA может быть представлен 5-кортежем (Q, Σ, δ, q0, F), где —

Q — конечное множество состояний.
Σ — это конечный набор символов, называемый алфавитом автомата.
δ — функция перехода, где δ: Q × Σ → Q.
q0 — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).
F — множество конечных состояний / состояний Q (F ⊆ Q).

Q — конечное множество состояний.

Σ — это конечный набор символов, называемый алфавитом автомата.

δ — функция перехода, где δ: Q × Σ → Q.

q0 — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).

F — множество конечных состояний / состояний Q (F ⊆ Q).

В то время как графически DFA может быть представлен диаграммами, называемыми диаграммами состояний, где —

Состояния представлены вершинами .
Переходы показаны помеченными дугами .
Начальное состояние представлено пустой входящей дугой .
Конечное состояние представлено двойным кружком .

Состояния представлены вершинами .

Переходы показаны помеченными дугами .

Начальное состояние представлено пустой входящей дугой .

Конечное состояние представлено двойным кружком .

Пример ДФА

Предположим, что DFA будет

Q = {a, b, c},
Σ = {0, 1},
q ₀ = {а},
F = {c},
Функция перехода δ показана в таблице следующим образом:

Q = {a, b, c},

Σ = {0, 1},

q ₀ = {а},

F = {c},

Функция перехода δ показана в таблице следующим образом:

Текущее состояние	Следующее состояние для ввода 0	Следующее состояние для ввода 1
		В
В	б
С	с	С

Графическое представление этого DFA будет следующим:

Недетерминированная конечная автоматизация (NDFA)

Это может быть определено как тип конечной автоматизации, где для каждого входного символа мы не можем определить состояние, в которое будет перемещаться машина, т.е. машина может перейти в любую комбинацию состояний. Он имеет конечное число состояний, поэтому машина называется недетерминированной конечной автоматизацией (NDFA).

Математически NDFA может быть представлен 5-кортежем (Q, Σ, δ, q0, F), где —

Q — конечное множество состояний.
Σ — это конечный набор символов, называемый алфавитом автомата.
δ: — функция перехода, где δ: Q × Σ → 2 ^Q.
q0: — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).
F: -множество конечного состояния / состояний Q (F ⊆ Q).

Q — конечное множество состояний.

Σ — это конечный набор символов, называемый алфавитом автомата.

δ: — функция перехода, где δ: Q × Σ → 2 ^Q.

q0: — начальное состояние, из которого обрабатывается любой вход (q0 ∈ Q).

F: -множество конечного состояния / состояний Q (F ⊆ Q).

В то время как графически (так же, как DFA), NDFA может быть представлен диаграммами, называемыми диаграммами состояний, где —

Состояния представлены вершинами .
Переходы показаны помеченными дугами .
Начальное состояние представлено пустой входящей дугой .
Конечное состояние представлено двойным кружком .

Состояния представлены вершинами .

Переходы показаны помеченными дугами .

Начальное состояние представлено пустой входящей дугой .

Конечное состояние представлено двойным кружком .

Пример NDFA

Предположим, что NDFA будет

Q = {a, b, c},
Σ = {0, 1},
q 0 = {а},
F = {c},
Функция перехода δ показана в таблице следующим образом:

Q = {a, b, c},

Σ = {0, 1},

q 0 = {а},

F = {c},

Функция перехода δ показана в таблице следующим образом:

Текущее состояние	Следующее состояние для ввода 0	Следующее состояние для ввода 1
	а, б	В
В	С	а, с
С	До нашей эры	С

Графическое представление этого NDFA будет следующим:

Морфологический анализ

Термин морфологический анализ связан с анализом морфем. Мы можем определить морфологический анализ как проблему распознавания того, что слово разбивается на более мелкие значимые единицы, называемые морфемами, создавая для него некую лингвистическую структуру. Например, мы можем разбить слово « лисы» на два, « лиса» и « -ес» . Мы видим, что слово « лисы» состоит из двух морфем: одна — лиса, а другая — «да».

В другом смысле мы можем сказать, что морфология — это изучение

Формирование слов.
Происхождение слов.
Грамматические формы слов.
Использование префиксов и суффиксов в образовании слов.
Как формируются части речи (PoS) языка.

Формирование слов.

Происхождение слов.

Грамматические формы слов.

Использование префиксов и суффиксов в образовании слов.

Как формируются части речи (PoS) языка.

Типы морфем

Морфемы, наименьшие смыслосодержащие единицы, можно разделить на два типа:

Стебли
Порядок слов

Стебли

Порядок слов

Стебли

Это основная смысловая единица слова. Можно также сказать, что это корень слова. Например, в слове лисы ствол — лиса.

Аффиксы. Как следует из названия, они добавляют словам дополнительный смысл и грамматические функции. Например, в слове «лисы» аффикс — ес.

Аффиксы. Как следует из названия, они добавляют словам дополнительный смысл и грамматические функции. Например, в слове «лисы» аффикс — ес.

Кроме того, аффиксы также можно разделить на следующие четыре типа:

Префиксы. Как следует из названия, префиксы предшествуют основам. Например, в слове unbuckle un является префиксом.
Суффиксы — Как следует из названия, суффиксы следуют за основанием. Например, в слове кошки суффикс -s.
Инфиксы — Как следует из названия, инфиксы вставляются в ствол. Например, слово cupful можно использовать для множественного числа как cupsful, используя -s в качестве инфикса.
Circumfixes — они предшествуют и следуют за стеблем. Примеров обрезаний на английском языке очень мало. Очень распространенный пример — «A-ing», где мы можем использовать -A перед, а -ing после ствола.

Префиксы. Как следует из названия, префиксы предшествуют основам. Например, в слове unbuckle un является префиксом.

Суффиксы — Как следует из названия, суффиксы следуют за основанием. Например, в слове кошки суффикс -s.

Инфиксы — Как следует из названия, инфиксы вставляются в ствол. Например, слово cupful можно использовать для множественного числа как cupsful, используя -s в качестве инфикса.

Circumfixes — они предшествуют и следуют за стеблем. Примеров обрезаний на английском языке очень мало. Очень распространенный пример — «A-ing», где мы можем использовать -A перед, а -ing после ствола.

Порядок слов

Порядок слов будет определяться путем морфологического анализа. Давайте теперь посмотрим требования для построения морфологического парсера —

Словарный запас

Самым первым требованием для построения морфологического синтаксического анализатора является лексикон, который включает в себя список основ и аффиксов вместе с основной информацией о них. Например, информация о том, является ли ствол существительным или глагольным стволом и т. Д.

Morphotactics

В основном это модель упорядочения морфем. В другом смысле модель, объясняющая, какие классы морфем могут следовать за другими классами морфем внутри слова. Например, морфотаксический факт заключается в том, что морфема английского множественного числа всегда следует за существительным, а не предшествует ему.

Орфографические правила

Эти правила правописания используются для моделирования изменений, происходящих в слове. Например, правило преобразования у в слова, например, город + с = города, а не города.

Обработка естественного языка — синтаксический анализ

Синтаксический анализ, синтаксический анализ или синтаксический анализ — это третья фаза НЛП. Цель этого этапа — нарисовать точное значение, или вы можете сказать значение словаря из текста. Синтаксический анализ проверяет текст на предмет значимости по сравнению с правилами формальной грамматики. Например, предложение типа «горячее мороженое» будет отклонено семантическим анализатором.

В этом смысле синтаксический анализ или синтаксический анализ могут быть определены как процесс анализа строк символов на естественном языке в соответствии с правилами формальной грамматики. Происхождение слова «парсинг» происходит от латинского слова «парс», что означает «часть» .

Концепция парсера

Используется для реализации задачи разбора. Он может быть определен как программный компонент, предназначенный для сбора входных данных (текста) и обеспечения структурного представления входных данных после проверки правильности синтаксиса в соответствии с формальной грамматикой. Он также строит структуру данных, как правило, в форме дерева разбора или абстрактного синтаксического дерева или другой иерархической структуры.

Основные роли разбора включают в себя —

Чтобы сообщить о любой синтаксической ошибке.
Для восстановления после часто встречающейся ошибки, чтобы можно было продолжить обработку оставшейся части программы.
Создать дерево разбора.
Создать таблицу символов.
Производить промежуточные представления (IR).

Чтобы сообщить о любой синтаксической ошибке.

Для восстановления после часто встречающейся ошибки, чтобы можно было продолжить обработку оставшейся части программы.

Создать дерево разбора.

Создать таблицу символов.

Производить промежуточные представления (IR).

Типы разбора

Вывод делит синтаксический анализ на следующие два типа:

Разбор сверху вниз
Анализ снизу вверх

Разбор сверху вниз

Анализ снизу вверх

Разбор сверху вниз

При таком разборе синтаксический анализатор начинает строить дерево разбора из начального символа, а затем пытается преобразовать начальный символ во входные данные. Наиболее распространенная форма синтаксического анализа сверху вниз использует рекурсивную процедуру для обработки ввода. Основным недостатком разбора рекурсивного спуска является возврат.

Анализ снизу вверх

При таком анализе синтаксический анализатор начинается с входного символа и пытается построить дерево синтаксического анализатора до начального символа.

Концепция деривации

Чтобы получить входную строку, нам нужна последовательность правил производства. Вывод — это набор правил производства. Во время синтаксического анализа нам нужно выбрать нетерминал, который должен быть заменен, вместе с решением производственного правила, с помощью которого нетерминал будет заменен.

Типы деривации

В этом разделе мы узнаем о двух типах дериваций, которые можно использовать, чтобы решить, какой нетерминал следует заменить производственным правилом —

Самый левый вывод

В самом левом выводе предложенная форма ввода сканируется и заменяется слева направо. Форма предложения в этом случае называется формой слева.

Самый правый вывод

В крайнем левом выводе предложенная форма ввода сканируется и заменяется справа налево. Форма предложения в этом случае называется формой предложения справа.

Концепция разбора дерева

Это может быть определено как графическое изображение деривации. Начальный символ деривации служит корнем дерева разбора. В каждом дереве разбора конечные узлы являются терминалами, а внутренние узлы — нетерминалами. Свойство дерева разбора состоит в том, что обход по порядку будет производить исходную входную строку.

Концепция грамматики

Грамматика очень важна и важна для описания синтаксической структуры правильно сформированных программ. В литературном смысле они обозначают синтаксические правила общения на естественных языках. Лингвистика пыталась определить грамматику с момента появления естественных языков, таких как английский, хинди и т. Д.

Теория формальных языков также применима в области компьютерных наук, главным образом, в языках программирования и структуре данных. Например, в языке «C» правила точной грамматики определяют, как функции создаются из списков и операторов.

Математическая модель грамматики была дана Ноамом Хомским в 1956 году, которая эффективна для написания компьютерных языков.

Математически грамматика G может быть формально записана как 4-кортеж (N, T, S, P), где —

N или V _N = набор нетерминальных символов, т. Е. Переменных.
T или ∑ = набор терминальных символов.
S = начальный символ, где S ∈ N
P обозначает Производственные правила для Терминалов, а также для Нетерминалов. Он имеет вид α → β, где α и β — строки на V _N ∪ ∑, и хотя бы один символ α принадлежит V _N

N или V _N = набор нетерминальных символов, т. Е. Переменных.

T или ∑ = набор терминальных символов.

S = начальный символ, где S ∈ N

P обозначает Производственные правила для Терминалов, а также для Нетерминалов. Он имеет вид α → β, где α и β — строки на V _N ∪ ∑, и хотя бы один символ α принадлежит V _N

Структура фразы или грамматика избирательного округа

Фраза грамматической структуры, представленная Ноамом Хомским, основана на отношении избирателей. Вот почему это также называется избирательной грамматикой. Это противоположно грамматике зависимости.

пример

Прежде чем приводить пример грамматики избирательного округа, нам необходимо знать основные положения о грамматике избирательного округа и взаимоотношениях с избирателями.

Все связанные структуры рассматривают структуру предложения с точки зрения отношения избирателей.
Отношение избирательных округов происходит от субъектно-предикатного разделения латинской и греческой грамматики.
Основная структура предложения понимается в терминах именной группы NP и глагольной фразы VP .

Все связанные структуры рассматривают структуру предложения с точки зрения отношения избирателей.

Отношение избирательных округов происходит от субъектно-предикатного разделения латинской и греческой грамматики.

Основная структура предложения понимается в терминах именной группы NP и глагольной фразы VP .

Мы можем написать предложение «Это дерево иллюстрирует отношение избирателей» следующим образом:

Грамматика зависимости

Это противоположно грамматике избирательного округа и основано на отношении зависимости. Он был представлен Люсьеном Теснере. Грамматика зависимости (DG) противоположна грамматике избирательного округа, потому что в ней отсутствуют фразовые узлы.

пример

Перед тем, как привести пример грамматики зависимости, нам нужно знать основные моменты, касающиеся грамматики зависимости и отношения зависимости.

В ГД лингвистические единицы, т. Е. Слова, связаны друг с другом направленными ссылками.
Глагол становится центром структуры предложения.
Все остальные синтаксические единицы связаны с глаголом в терминах направленной связи. Эти синтаксические единицы называются зависимостями .

В ГД лингвистические единицы, т. Е. Слова, связаны друг с другом направленными ссылками.

Глагол становится центром структуры предложения.

Все остальные синтаксические единицы связаны с глаголом в терминах направленной связи. Эти синтаксические единицы называются зависимостями .

Мы можем написать предложение «Это дерево иллюстрирует отношение зависимости» следующим образом;

Дерево синтаксического анализа, которое использует грамматику постоянных групп, называется основанным на избирательном округе деревом анализа; и деревья разбора, которые используют грамматику зависимости, называются основанным на зависимости деревом разбора.

Контекстная бесплатная грамматика

Контекстно-свободная грамматика, также называемая CFG, является нотацией для описания языков и надмножеством регулярной грамматики. Это можно увидеть на следующей диаграмме —

Определение CFG

CFG состоит из конечного набора правил грамматики со следующими четырьмя компонентами:

Набор нетерминалов

Он обозначается буквой V. Нетерминалы — это синтаксические переменные, обозначающие наборы строк, которые дополнительно помогают определить язык, генерируемый грамматикой.

Набор терминалов

Он также называется токеном и определяется как. Строки сформированы с основными символами терминалов.

Набор произведений

Обозначается буквой P. Набор определяет, как клеммы и нетерминалы могут быть объединены. Каждое производство (P) состоит из нетерминалов, стрелки и терминалов (последовательность терминалов). Нетерминалы называются левой стороной производства, а терминалы называются правой стороной производства.

Начальный символ

Производство начинается с начального символа. Он обозначается символом S. Нетерминальный символ всегда обозначается как начальный символ.

Обработка естественного языка — семантический анализ

Цель семантического анализа состоит в том, чтобы нарисовать точное значение, или вы можете сказать значение словаря из текста. Работа семантического анализатора заключается в проверке текста на предмет осмысленности.

Мы уже знаем, что лексический анализ также касается значения слов, тогда чем семантический анализ отличается от лексического анализа? Лексический анализ основан на меньшем токене, но с другой стороны семантический анализ фокусируется на больших кусках. Вот почему семантический анализ можно разделить на следующие две части:

Изучение значения отдельного слова

Это первая часть семантического анализа, в которой проводится изучение значения отдельных слов. Эта часть называется лексической семантикой.

Изучение комбинации отдельных слов

Во второй части отдельные слова будут объединены, чтобы придать смысл предложениям.

Важнейшей задачей семантического анализа является получение правильного значения предложения. Например, проанализируйте предложение «Рам велик». В этом предложении говорящий говорит либо о лорде Раме, либо о человеке по имени Рам. Вот почему важна работа, чтобы получить правильное значение предложения семантического анализатора.

Элементы семантического анализа

Ниже приведены некоторые важные элементы семантического анализа —

Hyponymy

Это может быть определено как связь между общим термином и экземплярами этого общего термина. Здесь общий термин называется гиперным, а его экземпляры называются гипонимами. Например, слово color является гиперным, а цвет blue, yellow и т. Д. Является гипонимом.

Омонимия

Это может быть определено как слова, имеющие одинаковое написание или одинаковую форму, но имеющие различное и несвязанное значение. Например, слово «летучая мышь» является омонимичным словом, потому что летучая мышь может быть орудием для удара по мячу, или летучая мышь также является ночным летающим млекопитающим.

многозначность

Полисемия — это греческое слово, которое означает «много знаков». Это слово или фраза с другим, но связанным смыслом. Другими словами, мы можем сказать, что многозначность имеет то же самое написание, но различное и связанное значение. Например, слово «банк» является многозначным словом, имеющим следующие значения:

Финансовое учреждение.
Здание, в котором находится такое заведение.
Синоним «полагаться».

Финансовое учреждение.

Здание, в котором находится такое заведение.

Синоним «полагаться».

Разница между полисемией и омонимией

И слова многозначности, и слова омонимии имеют одинаковый синтаксис или орфографию. Основное различие между ними состоит в том, что в многозначности значения слов связаны, но в омонимии значения слов не связаны. Например, если мы говорим об одном и том же слове «Банк», мы можем написать значение «финансовое учреждение» или «речной берег». В этом случае это будет пример омонима, потому что значения не связаны друг с другом.

синонимия

Это отношение между двумя лексическими единицами, имеющими разные формы, но выражающими одинаковое или близкое значение. Примерами являются «автор / писатель», «судьба / судьба».

антонимия

Это отношение между двумя лексическими элементами, имеющими симметрию между их семантическими компонентами относительно оси. Сфера антонимии заключается в следующем —

Применение собственности или нет — Пример «жизнь / смерть», «уверенность / неуверенность»
Применение масштабируемого свойства — пример «богатый / плохой», «горячий / холодный»
Применение использования — Пример «отец / сын», «луна / солнце».

Применение собственности или нет — Пример «жизнь / смерть», «уверенность / неуверенность»

Применение масштабируемого свойства — пример «богатый / плохой», «горячий / холодный»

Применение использования — Пример «отец / сын», «луна / солнце».

Значение Представления

Семантический анализ создает представление значения предложения. Но прежде чем углубляться в концепцию и подходы, относящиеся к смысловой репрезентации, нам нужно понять строительные блоки семантической системы.

Строительные блоки семантической системы

В представлении слов или представлении значения слов важную роль играют следующие строительные блоки:

Субъекты — это лицо, например, конкретное лицо, место и т. Д. Например, Харьяна. Индия, Рам все сущности.
Понятия — представляет общую категорию людей, таких как человек, город и т. Д.
Отношения — представляет отношения между сущностями и концепцией. Например, Рам — это человек.
Предикаты — Представляет структуру глагола. Например, семантические роли и падежная грамматика являются примерами предикатов.

Субъекты — это лицо, например, конкретное лицо, место и т. Д. Например, Харьяна. Индия, Рам все сущности.

Понятия — представляет общую категорию людей, таких как человек, город и т. Д.

Отношения — представляет отношения между сущностями и концепцией. Например, Рам — это человек.

Предикаты — Представляет структуру глагола. Например, семантические роли и падежная грамматика являются примерами предикатов.

Теперь мы можем понять, что смысловое представление показывает, как собрать строительные блоки семантических систем. Другими словами, он показывает, как собрать сущности, концепции, отношения и предикаты для описания ситуации. Это также позволяет рассуждать о семантическом мире.

Подходы к смысловым представлениям

Семантический анализ использует следующие подходы для представления значения —

Логика предикатов первого порядка (FOPL)
Семантические сети
Рамки
Концептуальная зависимость (CD)
Архитектура на основе правил
Падеж грамматика
Концептуальные Графики

Логика предикатов первого порядка (FOPL)

Семантические сети

Рамки

Концептуальная зависимость (CD)

Архитектура на основе правил

Падеж грамматика

Концептуальные Графики

Необходимость смысловых представлений

Возникающий здесь вопрос: зачем нам нужен смысл представления? Ниже приведены причины того же —

Связывание лингвистических элементов с неязыковыми элементами

Самая первая причина заключается в том, что с помощью смыслового представления можно связать лингвистические элементы с неязыковыми.

Представляя разнообразие на лексическом уровне

С помощью смысловой репрезентации однозначные канонические формы могут быть представлены на лексическом уровне.

Можно использовать для рассуждений

Значение представления может быть использовано для обоснования проверки того, что является истинным в мире, а также для вывода знаний из семантического представления.

Лексическая семантика

Первая часть семантического анализа, изучающая значение отдельных слов, называется лексической семантикой. Он включает в себя слова, подслов, аффиксы (подразделы), составные слова и фразы, а также. Все слова, подслов и т. Д. В совокупности называются лексическими единицами. Другими словами, мы можем сказать, что лексическая семантика — это связь между лексическими элементами, значением предложений и синтаксисом предложения.

Ниже приведены шаги, включенные в лексическую семантику:

Классификация лексических элементов, таких как слова, подслов, аффиксы и т. Д., Выполняется в лексической семантике.
Разложение лексических элементов, таких как слова, подслов, аффиксы и т. Д., Выполняется в лексической семантике.
Различия, а также сходства между различными лексическими семантическими структурами также анализируются.

Классификация лексических элементов, таких как слова, подслов, аффиксы и т. Д., Выполняется в лексической семантике.

Разложение лексических элементов, таких как слова, подслов, аффиксы и т. Д., Выполняется в лексической семантике.

Различия, а также сходства между различными лексическими семантическими структурами также анализируются.

НЛП — однозначный смысл слова

Мы понимаем, что слова имеют разные значения в зависимости от контекста их использования в предложении. Если мы говорим о человеческих языках, то они также неоднозначны, потому что многие слова могут интерпретироваться различными способами в зависимости от контекста их возникновения.

Устранение неоднозначности смысла слова в обработке естественного языка (NLP) может быть определено как способность определять, какое значение слова активируется при использовании слова в определенном контексте. Лексическая неоднозначность, синтаксическая или семантическая, является одной из самых первых проблем, с которыми сталкивается любая система НЛП. Тэгеры части речи (POS) с высоким уровнем точности могут решить синтаксическую неоднозначность Word. С другой стороны, проблема разрешения семантической неоднозначности называется WSD (неоднозначность смысла слова). Разрешить семантическую неоднозначность сложнее, чем разрешить синтаксическую двусмысленность.

Например, рассмотрим два примера особого смысла, которые существуют для слова «бас» —

Я слышу звук баса.
Он любит есть на гриле бас.

Я слышу звук баса.

Он любит есть на гриле бас.

Появление слова « бас» явно обозначает четкое значение. В первом предложении это означает частоту, а во втором — рыба . Следовательно, если это будет устранено неоднозначностью WSD, то правильное значение для вышеупомянутых предложений может быть назначено следующим образом:

Я слышу бас / частоту звука.
Он любит есть на гриле окунь / рыбу.

Я слышу бас / частоту звука.

Он любит есть на гриле окунь / рыбу.

Оценка WSD

Оценка WSD требует следующих двух входов —

Словарь

Самым первым входом для оценки WSD является словарь, который используется для определения чувств, которые необходимо устранить.

Тестовый корпус

Другой вход, требуемый WSD, — это аннотированный тестовый корпус, имеющий целевой или правильный смысл. Тестовые корпуса могут быть двух типов & minsu;

Лексический образец — этот вид корпусов используется в системе, где требуется устранить неоднозначность небольшой выборки слов.
Все слова — этот тип корпусов используется в системе, где предполагается, что все слова будут неоднозначными в бегущем тексте.

Лексический образец — этот вид корпусов используется в системе, где требуется устранить неоднозначность небольшой выборки слов.

Все слова — этот тип корпусов используется в системе, где предполагается, что все слова будут неоднозначными в бегущем тексте.

Подходы и методы устранения неоднозначности в смысле слова (WSD)

Подходы и методы к WSD классифицируются в соответствии с источником знаний, используемых в устранении неоднозначности слов.

Давайте теперь посмотрим на четыре традиционных метода WSD —

Методы на основе словаря или знаний

Как следует из названия, для устранения неоднозначности эти методы в первую очередь опираются на словари, сокровища и лексическую базу знаний. Они не используют телесные доказательства для устранения неоднозначности. Метод Lesk — это основанный на словаре метод, основанный на словарях в 1986 году. В основу определения Lesk, лежащего в основе алгоритма Lesk, входит «измерение перекрытия между определениями смыслов для всех слов в контексте» . Однако в 2000 году Килгаррифф и Розенцвейг дали упрощенное определение Леска как «измерение совпадения между определениями смысла слова и текущим контекстом» , что дополнительно означает определение правильного смысла для одного слова за раз. Здесь текущий контекст — это набор слов в окружающем предложении или абзаце.

Контролируемые методы

Для устранения неоднозначности, методы машинного обучения используют аннотированный корпус для обучения. Эти методы предполагают, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности смысла. В этих методах слова знание и рассуждение считаются ненужными. Контекст представлен в виде набора «свойств» слов. Он также включает в себя информацию об окружающих словах. Механизм опорных векторов и обучение на основе памяти являются наиболее успешными контролируемыми подходами к WSD. Эти методы основаны на значительном количестве корпусов, помеченных вручную, что очень дорого создавать.

Методы под наблюдением

Из-за отсутствия учебного корпуса в большинстве алгоритмов устранения неоднозначности смысла слова используются методы обучения с полууправляемым обучением. Это связано с тем, что в полууправляемых методах используются как помеченные, так и непомеченные данные. Эти методы требуют очень небольшого количества аннотированного текста и большого количества простого аннотированного текста. Техника, которая используется в методах полуобслуживания, является начальной загрузкой из начальных данных.

Неконтролируемые методы

Эти методы предполагают, что подобные чувства встречаются в сходном контексте. Вот почему чувства могут быть выведены из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста. Эта задача называется индукцией смысла слова или различением. Неконтролируемые методы имеют большой потенциал для преодоления узкого места приобретения знаний из-за отсутствия зависимости от ручных усилий.

Применение неоднозначности смысла слова (WSD)

Смысл словосочетания (WSD) применяется практически в каждом приложении языковой технологии.

Давайте теперь посмотрим на сферу WSD —

Машинный перевод

Машинный перевод или MT является наиболее очевидным применением WSD. В МТ лексический выбор слов, имеющих разные переводы для разных смыслов, осуществляется WSD. Чувства в МТ представляются в виде слов на целевом языке. Большинство систем машинного перевода не используют явный модуль WSD.

Информационный поиск (IR)

Поиск информации (IR) может быть определен как программное обеспечение, которое занимается организацией, хранением, поиском и оценкой информации из хранилищ документов, в частности текстовой информации. Система в основном помогает пользователям в поиске необходимой информации, но не дает явных ответов на вопросы. WSD используется для разрешения неоднозначностей запросов, предоставляемых IR-системе. Как и MT, современные IR-системы явно не используют модуль WSD, и они полагаются на концепцию, согласно которой пользователь будет набирать в запросе достаточно контекста, чтобы получать только соответствующие документы.

Добыча текста и извлечение информации (IE)

В большинстве приложений WSD необходим для точного анализа текста. Например, WSD помогает интеллектуальной системе сбора данных пометить правильные слова. Например, медицинской интеллектуальной системе может потребоваться пометка «незаконных наркотиков», а не «медицинских препаратов»

Лексикография

WSD и лексикография могут работать в цикле, потому что современная лексикография основана на корпусе. С помощью лексикографии WSD обеспечивает грубые эмпирические смысловые группировки, а также статистически значимые контекстные показатели смысла.

Трудности в устранении неоднозначности смысла слова (WSD)

Ниже приведены некоторые трудности, с которыми сталкиваются двусмысленности в смысле слова (WSD) —

Различия между словарями

Основная проблема WSD состоит в том, чтобы определить смысл слова, потому что разные чувства могут быть очень тесно связаны. Даже разные словари и тезаурусы могут обеспечить разное деление слов на смыслы.

Разные алгоритмы для разных приложений

Другая проблема WSD заключается в том, что для разных приложений может потребоваться совершенно другой алгоритм. Например, в машинном переводе это принимает форму выбора целевого слова; и при поиске информации инвентаризация смысла не требуется.

Расхождение между судьями

Другая проблема WSD состоит в том, что системы WSD, как правило, тестируются, сравнивая результаты своих задач с задачами людей. Это называется проблемой межсудовой дисперсии.

Слово-смысловая дискретность

Другая трудность в WSD состоит в том, что слова не могут быть легко разделены на отдельные значения.

Обработка дискурса естественного языка

Самая сложная проблема ИИ — это обработка естественного языка с помощью компьютеров, или, другими словами, обработка естественного языка является самой сложной проблемой искусственного интеллекта. Если мы говорим об основных проблемах в НЛП, то одной из основных проблем в НЛП является обработка дискурса — построение теорий и моделей того, как высказывания слипаются, образуя согласованный дискурс . На самом деле, язык всегда состоит из связанных, структурированных и связных групп предложений, а не изолированных и не связанных предложений, таких как фильмы. Эти согласованные группы предложений упоминаются как дискурс.

Концепция когерентности

Согласованность и структура дискурса во многом взаимосвязаны. Связность, наряду со свойством хорошего текста, используется для оценки качества вывода системы генерации естественного языка. Возникающий здесь вопрос: что означает, что текст является связным? Предположим, мы собрали одно предложение на каждой странице газеты, тогда это будет дискурс? Конечно, нет. Это потому, что эти предложения не показывают последовательность. Когерентный дискурс должен обладать следующими свойствами —

Соотношение когерентности между высказываниями

Дискурс был бы последовательным, если бы он имел значимые связи между своими высказываниями. Это свойство называется отношением когерентности. Например, должно быть какое-то объяснение, чтобы оправдать связь между высказываниями.

Отношения между сущностями

Другое свойство, которое делает дискурс связным, заключается в том, что должны быть определенные виды отношений с сущностями. Такой вид последовательности называется когерентностью на основе сущностей.

Структура дискурса

Важный вопрос, касающийся дискурса, заключается в том, какую структуру должен иметь дискурс. Ответ на этот вопрос зависит от сегментации, которую мы применили к дискурсу. Сегментации дискурса могут быть определены как определяющие типы структур для большого дискурса. Реализовать дискурсивную сегментацию довольно сложно, но это очень важно для приложений поиска информации, суммирования текста и извлечения информации .

Алгоритмы дискурсивной сегментации

В этом разделе мы узнаем об алгоритмах сегментации дискурса. Алгоритмы описаны ниже —

Сегментация дискурса без присмотра

Класс сегментации дискурса без присмотра часто представлен как линейная сегментация. Мы можем понять задачу линейной сегментации на примере. В этом примере задача разбить текст на несколько абзацев; единицы представляют собой прохождение исходного текста. Эти алгоритмы зависят от сплоченности, которая может быть определена как использование определенных лингвистических устройств для связывания текстовых единиц вместе. С другой стороны, сплоченность лексики — это сплоченность, на которую указывают отношения между двумя или более словами в двух единицах, например использование синонимов.

Сегментация контролируемого дискурса

Предыдущий метод не имеет каких-либо помеченных вручную границ сегментов. С другой стороны, сегментация контролируемого дискурса должна иметь обучающие данные с маркировкой границ. Это очень легко приобрести то же самое. В контролируемой сегментации дискурса важную роль играют дискурсивный маркер или ключевые слова. Маркер дискурса или ключевое слово — это слово или фраза, которые функционируют для обозначения структуры дискурса. Эти дискурсивные маркеры являются предметно-ориентированными.

Согласованность текста

Лексическое повторение — это способ найти структуру в дискурсе, но оно не удовлетворяет требованию быть последовательным дискурсом. Чтобы достигнуть связного дискурса, мы должны сосредоточиться на связности отношений в частности. Как известно, отношение когерентности определяет возможную связь между высказываниями в дискурсе. Хебб предложил такие отношения следующим образом:

Мы берем два термина S ₀ и S _1, чтобы представить значение двух связанных предложений:

Результат

Из этого следует, что состояние, утверждаемое термином S _0, может вызвать состояние, утверждаемое S ₁ . Например, два утверждения показывают результат отношений: Рам был пойман в огне. Его кожа сгорела.

объяснение

Это означает, что состояние, утвержденное S _1, может вызвать состояние, утвержденное S ₀ . Например, два утверждения показывают отношения — Рам сражался с другом Шьяма. Он был пьян.

Параллельно

Он выводит p (a1, a2,…) из утверждения S ₀ и p (b1, b2,…) из утверждения S ₁ . Здесь ai и bi одинаковы для всех i. Например, два утверждения параллельны — Рам хотел машину. Шиам хотел денег.

разработка

Он выводит одно и то же утверждение P из обоих утверждений — S ₀ и S _1. Например, два утверждения показывают развитие отношения: Рам был из Чандигарха. Шиам был из Кералы.

Случай

Это происходит, когда изменение состояния может быть выведено из утверждения S ₀ , конечное состояние которого может быть выведено из S ₁ и наоборот. Например, два утверждения показывают случай отношения: Рам взял книгу. Он дал это Шиаму.

Построение иерархической структуры дискурса

Когерентность всего дискурса может также рассматриваться иерархической структурой между отношениями когерентности. Например, следующий отрывок может быть представлен в виде иерархической структуры —

S ₁ — Рам пошел в банк, чтобы внести деньги.
S ₂ — Затем он сел на поезд до магазина одежды Шиама.
S ₃ — Он хотел купить одежду.
S ₄ — У него нет новой одежды для вечеринки.
S ₅ — Он также хотел поговорить с Shyam относительно его здоровья

S ₁ — Рам пошел в банк, чтобы внести деньги.

S ₂ — Затем он сел на поезд до магазина одежды Шиама.

S ₃ — Он хотел купить одежду.

S ₄ — У него нет новой одежды для вечеринки.

S ₅ — Он также хотел поговорить с Shyam относительно его здоровья

Справочное разрешение

Интерпретация предложений из любого дискурса является еще одной важной задачей, и для достижения этой цели нам необходимо знать, о ком или о каком объекте идет речь. Здесь ссылка на интерпретацию является ключевым элементом. Ссылка может быть определена как лингвистическое выражение для обозначения сущности или индивидуума. Например, в проходе Рам , менеджер банка ABC , увидел своего друга Шьяма в магазине. Он пошел ему навстречу, такие лингвистические выражения, как «Рам», «Его», «Он» — это ссылки.

В том же примечании эталонное разрешение может быть определено как задача определения того, на какие объекты ссылается какое языковое выражение.

Терминология, используемая в справочной резолюции

Мы используем следующие термины в справочной резолюции —

Ссылочное выражение — выражение на естественном языке, используемое для выполнения ссылки, называется ссылочным выражением. Например, отрывок, использованный выше, является ссылочным выражением.
Референт — это сущность, которая упоминается. Например, в последнем приведенном примере Рам является референтом.
Corefer — когда два выражения используются для ссылки на один и тот же объект, они называются corefers. Например, Рам и он — помощники.
Антецедент — Термин имеет лицензию на использование другого термина. Например, Рам является предшественником ссылки он .
Анафора и Анафор — это может быть определено как ссылка на сущность, которая была ранее введена в предложение. И, ссылающееся выражение называется анафорическим.
Модель дискурса — модель, которая содержит представления сущностей, которые упоминались в дискурсе, и отношения, в которых они участвуют.

Ссылочное выражение — выражение на естественном языке, используемое для выполнения ссылки, называется ссылочным выражением. Например, отрывок, использованный выше, является ссылочным выражением.

Референт — это сущность, которая упоминается. Например, в последнем приведенном примере Рам является референтом.

Corefer — когда два выражения используются для ссылки на один и тот же объект, они называются corefers. Например, Рам и он — помощники.

Антецедент — Термин имеет лицензию на использование другого термина. Например, Рам является предшественником ссылки он .

Анафора и Анафор — это может быть определено как ссылка на сущность, которая была ранее введена в предложение. И, ссылающееся выражение называется анафорическим.

Модель дискурса — модель, которая содержит представления сущностей, которые упоминались в дискурсе, и отношения, в которых они участвуют.

Типы ссылающихся выражений

Давайте теперь посмотрим на различные типы ссылочных выражений. Пять типов ссылочных выражений описаны ниже —

Неопределенные существительные фразы

Такой вид ссылки представляет объекты, которые являются новыми для слушателя в контексте дискурса. Например — в предложении Рама однажды ходил, чтобы принести ему немного еды, — какое-то неопределенное указание.

Определенные Фразы Существительных

В противоположность вышесказанному, такого рода ссылки представляют сущности, которые не являются новыми или не могут быть идентифицированы для слушателя в контексте разговора. Например, в предложении — я читал «Таймс оф Индия» — «Таймс оф Индия» — это определенная ссылка.

Местоимения

Это форма определенной ссылки. Например, Рам смеялся так громко, как мог. Слово, которое он представляет местоимение, ссылаясь на выражение.

Указательные местоимения

Они демонстрируют и ведут себя иначе, чем простые определенные местоимения. Например, это и то, что являются наглядными местоимениями.

имена

Это самый простой тип ссылочного выражения. Это может быть имя человека, организации и места также. Например, в приведенных выше примерах Ram является выражением, ссылающимся на имя.

Задачи справочного разрешения

Две контрольные задачи разрешения описаны ниже.

Разрешение Coreference

Задача состоит в том, чтобы найти ссылающиеся выражения в тексте, которые ссылаются на одну и ту же сущность. Проще говоря, это задача поиска выражений corefer. Набор выражений coreferring называется цепью coreference. Например — Он, Главный менеджер и Его — это ссылки на выражения в первом отрывке, приведенном в качестве примера.

Ограничение на разрешение контрольных точек

В английском языке основной проблемой разрешения ключевых слов является местоимение it. Причина этого в том, что местоимение у него много употреблений. Например, это может относиться так же, как он и она. Местоимение также относится к вещам, которые не относятся к конкретным вещам. Например, идет дождь. Это действительно хорошо.

Прономинальное разрешение анафоры

В отличие от разрешения по основным признакам, местоименное разрешение анафоры может быть определено как задача поиска антецедента для одного местоимения. Например, местоимение принадлежит ему, и задача разрешения местоименной анафоры состоит в том, чтобы найти слово Ram, потому что Ram является предшественником.

Пометка части речи (PoS)

Маркировка — это разновидность классификации, которая может быть определена как автоматическое присвоение описания токенам. Здесь дескриптор называется тегом, который может представлять одну из частей речи, семантическую информацию и так далее.

Теперь, если мы говорим о тегировании части речи (PoS), то это может быть определено как процесс присвоения одной из частей речи данному слову. Обычно это маркировка POS. Проще говоря, мы можем сказать, что POS-теги — это задача маркировки каждого слова в предложении соответствующей частью речи. Мы уже знаем, что части речи включают в себя существительные, глаголы, наречия, прилагательные, местоимения, союз и их подкатегории.

Большая часть POS-тегов относится к POS-тегам на основе правил, Stochastic POS-тегам и тегам на основе преобразования.

POS-теги на основе правил

Одним из самых старых методов тегирования является POS-тегирование на основе правил. Основанные на правилах тегеры используют словарь или лексику для получения возможных тегов для маркировки каждого слова. Если слово имеет более одного возможного тега, то тегеры на основе правил используют рукописные правила для определения правильного тега. Устранение неоднозначности также может быть выполнено в тегировании на основе правил путем анализа лингвистических особенностей слова наряду с предшествующими, а также последующими словами. Например, предположим, что если предыдущим словом слова является артикль, тогда слово должно быть существительным.

Как следует из названия, вся такая информация в тегах POS на основе правил кодируется в форме правил. Эти правила могут быть:

Правила контекстного шаблона
Или, как регулярное выражение, скомпилированное в конечные автоматы, пересекается с лексически неоднозначным представлением предложения.

Правила контекстного шаблона

Или, как регулярное выражение, скомпилированное в конечные автоматы, пересекается с лексически неоднозначным представлением предложения.

Мы также можем понять POS-теги на основе правил по их двухэтапной архитектуре —

Первый этап — На первом этапе он использует словарь, чтобы назначить каждому слову список потенциальных частей речи.
Второй этап. На втором этапе используются большие списки рукописных правил устранения неоднозначности, чтобы отсортировать список по одной части речи для каждого слова.

Первый этап — На первом этапе он использует словарь, чтобы назначить каждому слову список потенциальных частей речи.

Второй этап. На втором этапе используются большие списки рукописных правил устранения неоднозначности, чтобы отсортировать список по одной части речи для каждого слова.

Свойства POS-тегов на основе правил

POS-теги на основе правил обладают следующими свойствами:

Эти тегеры являются тегерами, основанными на знаниях.
Правила в POS-тегах на основе правил создаются вручную.
Информация закодирована в виде правил.
У нас есть ограниченное количество правил примерно около 1000.
Сглаживание и языковое моделирование явно определены в основанных на правилах тегах.

Эти тегеры являются тегерами, основанными на знаниях.

Правила в POS-тегах на основе правил создаются вручную.

Информация закодирована в виде правил.

У нас есть ограниченное количество правил примерно около 1000.

Сглаживание и языковое моделирование явно определены в основанных на правилах тегах.

Стохастическая POS-маркировка

Другая техника тегирования — это Stochastic POS Tagging. Теперь возникает вопрос: какая модель может быть стохастической? Модель, которая включает в себя частоту или вероятность (статистику), можно назвать стохастической. Любое количество различных подходов к проблеме тегирования части речи можно назвать стохастическим тегером.

Простейший стохастический тегер применяет следующие методы для маркировки POS —

Частотный подход

В этом подходе стохастические тегеры устраняют неоднозначность слов на основе вероятности того, что слово встречается с определенным тегом. Можно также сказать, что тег, встречающийся наиболее часто со словом в обучающем наборе, является тегом, назначенным для неоднозначного экземпляра этого слова. Основная проблема этого подхода заключается в том, что он может привести к недопустимой последовательности тегов.

Вероятности последовательности тегов

Это еще один подход стохастического тегирования, где тегер вычисляет вероятность появления данной последовательности тегов. Это также называется n-граммовый подход. Это называется так, потому что лучший тег для данного слова определяется вероятностью, с которой оно встречается с n предыдущими тегами.

Свойства стохастической POST-метки

Стохастические POS-тегеры обладают следующими свойствами —

Эта маркировка POS основана на вероятности появления метки.
Требуется учебный корпус
Не было бы никакой вероятности для слов, которые не существуют в корпусе.
Он использует другой корпус тестирования (кроме тренировочного корпуса).
Это самая простая маркировка POS, потому что она выбирает наиболее частые теги, связанные со словом в учебном корпусе.

Эта маркировка POS основана на вероятности появления метки.

Требуется учебный корпус

Не было бы никакой вероятности для слов, которые не существуют в корпусе.

Он использует другой корпус тестирования (кроме тренировочного корпуса).

Это самая простая маркировка POS, потому что она выбирает наиболее частые теги, связанные со словом в учебном корпусе.

Пометка на основе преобразования

Маркировка на основе преобразования также называется маркировкой Брилла. Это пример обучения на основе преобразования (TBL), который представляет собой алгоритм на основе правил для автоматической маркировки POS для данного текста. TBL, позволяет нам иметь лингвистические знания в удобочитаемой форме, преобразовывает одно состояние в другое с помощью правил преобразования.

Он черпает вдохновение как в предыдущих объясненных тегерах — на основе правил и стохастиков. Если мы видим сходство между тегом на основе правил и преобразованием, то, как и на основе правил, оно также основано на правилах, которые указывают, какие теги нужно назначать каким словам. С другой стороны, если мы видим сходство между стохастиком и тэгером преобразования, то, подобно стохастику, это техника машинного обучения, в которой правила автоматически выводятся из данных.

Работа трансформационного обучения (TBL)

Чтобы понять работу и концепцию основанных на преобразовании тегеров, нам необходимо понять работу обучения, основанного на преобразованиях. Рассмотрим следующие шаги, чтобы понять работу TBL —

Начните с решения — TBL обычно начинается с некоторого решения проблемы и работает циклично.
Выбрана наиболее выгодная трансформация — в каждом цикле TBL будет выбирать наиболее выгодную трансформацию.
Применить к проблеме — преобразование, выбранное на последнем шаге, будет применено к проблеме.

Начните с решения — TBL обычно начинается с некоторого решения проблемы и работает циклично.

Выбрана наиболее выгодная трансформация — в каждом цикле TBL будет выбирать наиболее выгодную трансформацию.

Применить к проблеме — преобразование, выбранное на последнем шаге, будет применено к проблеме.

Алгоритм остановится, когда выбранное преобразование на шаге 2 не добавит больше значения или если больше нет преобразований для выбора. Такое обучение лучше всего подходит для задач классификации.

Преимущества трансформационного обучения (TBL)

Преимущества TBL заключаются в следующем —

Мы изучаем небольшой набор простых правил, и этих правил достаточно для тегирования.
Разработка и отладка очень просты в TBL, потому что изученные правила легко понять.
Сложность в тегировании снижается, потому что в TBL происходит переплетение машинно-обученных и созданных человеком правил.
Основанный на преобразовании тегер намного быстрее, чем маркер модели Маркова.

Мы изучаем небольшой набор простых правил, и этих правил достаточно для тегирования.

Разработка и отладка очень просты в TBL, потому что изученные правила легко понять.

Сложность в тегировании снижается, потому что в TBL происходит переплетение машинно-обученных и созданных человеком правил.

Основанный на преобразовании тегер намного быстрее, чем маркер модели Маркова.

Недостатки трансформационного обучения (TBL)

Недостатки TBL заключаются в следующем —

Трансформационное обучение (TBL) не обеспечивает вероятности тегов.
В TBL время обучения очень большое, особенно на больших корпусах.

Трансформационное обучение (TBL) не обеспечивает вероятности тегов.

В TBL время обучения очень большое, особенно на больших корпусах.

Маркировка POS скрытой марковской модели (HMM)

Прежде чем углубляться в POS-теги HMM, мы должны понять концепцию скрытой модели Маркова (HMM).

Скрытая Марковская Модель

Модель HMM может быть определена как стохастическая модель с двумя вложениями, в которой скрытый стохастический процесс скрыт. Этот скрытый случайный процесс может наблюдаться только через другой набор случайных процессов, который производит последовательность наблюдений.

пример

Например, выполняется последовательность экспериментов с подбрасыванием скрытых монет, и мы видим только последовательность наблюдений, состоящую из голов и хвостов. Фактические детали процесса — сколько использованных монет, порядок их выбора — скрыты от нас. Наблюдая эту последовательность голов и хвостов, мы можем построить несколько HMM, чтобы объяснить последовательность. Ниже приводится одна из форм скрытой модели Маркова для этой задачи.

Мы предположили, что в НММ есть два состояния, и каждое из этих состояний соответствует выбору смещенной монеты. Следующая матрица дает вероятности перехода состояния —

$A = \ begin {bmatrix} a11 &amp; a12 \\ a21 &amp; a22 \ end {bmatrix}$

Вот,

a _ij = вероятность перехода из одного состояния в другое из i в j.
a ₁₁ + a ₁₂ = 1 и a ₂₁ + a ₂₂ = 1
P ₁ = вероятность глав первой монеты, то есть смещение первой монеты.
P ₂ = вероятность головы второй монеты, то есть смещение второй монеты.

a _ij = вероятность перехода из одного состояния в другое из i в j.

a ₁₁ + a ₁₂ = 1 и a ₂₁ + a ₂₂ = 1

P ₁ = вероятность глав первой монеты, то есть смещение первой монеты.

P ₂ = вероятность головы второй монеты, то есть смещение второй монеты.

Мы также можем создать модель HMM, предполагая, что есть 3 монеты или больше.

Таким образом, мы можем охарактеризовать HMM следующими элементами:

N — количество состояний в модели (в приведенном выше примере N = 2, только два состояния).
M — количество различных наблюдений, которые могут появиться с каждым состоянием в приведенном выше примере (M = 2, т. Е. H или T).
А, распределение вероятностей перехода состояний — матрица А в приведенном выше примере.
P — распределение вероятностей наблюдаемых символов в каждом состоянии (в нашем примере P1 и P2).
Я, начальное состояние распределения.

N — количество состояний в модели (в приведенном выше примере N = 2, только два состояния).

M — количество различных наблюдений, которые могут появиться с каждым состоянием в приведенном выше примере (M = 2, т. Е. H или T).

А, распределение вероятностей перехода состояний — матрица А в приведенном выше примере.

P — распределение вероятностей наблюдаемых символов в каждом состоянии (в нашем примере P1 и P2).

Я, начальное состояние распределения.

Использование HMM для POS-тегов

Процесс маркировки POS — это процесс поиска последовательности тегов, которая, скорее всего, сгенерировала данную последовательность слов. Мы можем смоделировать этот процесс POS, используя скрытую марковскую модель (HMM), где теги — это скрытые состояния, которые дали видимый результат, то есть слова .

Математически, в POS-тегах мы всегда заинтересованы в поиске последовательности тегов (C), которая максимизирует —

P (C | W)

Куда,

C = C ₁ , C ₂ , C ₃ … C _T

W = W ₁ , W ₂ , W ₃ , W _T

С другой стороны, дело в том, что нам нужно много статистических данных для разумной оценки таких последовательностей. Однако, чтобы упростить задачу, мы можем применить некоторые математические преобразования вместе с некоторыми допущениями.

Использование HMM для маркировки POS является частным случаем байесовской помехи. Следовательно, мы начнем с повторения проблемы, используя правило Байеса, которое гласит, что вышеупомянутая условная вероятность равна —

(PROB (C ₁ , …, CT) * PROB (W ₁ , …, WT | C ₁ , …, CT)) / PROB (W ₁ , …, WT)

Мы можем исключить знаменатель во всех этих случаях, потому что нам интересно найти последовательность C, которая максимизирует указанное выше значение. Это не повлияет на наш ответ. Теперь наша проблема сводится к нахождению последовательности C, которая максимизирует —

PROB (C ₁ , …, CT) * PROB (W ₁ , …, WT | C ₁ , …, CT) (1)

Даже после уменьшения проблемы в вышеприведенном выражении потребуется большой объем данных. Мы можем сделать разумные предположения о независимости двух вероятностей в вышеприведенном выражении, чтобы преодолеть проблему.

Первое предположение

Вероятность тега зависит от предыдущего (модель биграммы) или предыдущих двух (модель триграммы) или предыдущих n тегов (модель n-граммы), что математически можно объяснить следующим образом:

PROB (C ₁ , …, C _T ) = Π _{i = 1..T} PROB (C _i | C _{i-n + 1} … C _i-1 ) (n-граммовая модель)

PROB (C ₁ , …, CT) = Π _{i = 1..T} PROB (C _i | C _i-1 ) (биграмная модель)

Начало предложения можно объяснить, приняв начальную вероятность для каждого тега.

PROB (C ₁ | C ₀ ) = _{инициализация} PROB (C ₁ )

Второе предположение

Вторая вероятность в приведенном выше уравнении (1) может быть аппроксимирована, если предположить, что слово появляется в категории, не зависящей от слов в предыдущих или последующих категориях, что можно математически объяснить следующим образом:

PROB (W ₁ , …, W _T | C ₁ , …, C _T ) = Π _{i = 1..T} PROB (W _i | C _i )

Теперь, исходя из двух вышеупомянутых предположений, наша цель сводится к поиску последовательности C, которая максимизирует

Π _{i = 1 … T} PROB (C _i | C _i-1 ) * PROB (W _i | C _i )

Теперь возникает вопрос: действительно ли нам помогло преобразование проблемы в вышеуказанную форму? Ответ — да, это так. Если у нас большой помеченный корпус, то две вероятности в приведенной выше формуле можно рассчитать как —

PROB (C _{i = VERB} | C _{i-1 = NOUN} ) = (количество случаев, когда глагол следует за существительным) / (количество случаев, когда появляется существительное) (2)

PROB (W _i | C _i ) = (количество случаев, когда W _i появляется в C _i ) / (количество случаев, когда C _i появляется) (3)

Обработка естественного языка — Начало

В этой главе мы обсудим возникновение естественного языка в обработке естественного языка. Для начала давайте разберемся, что такое грамматика естественного языка.

Грамматика естественного языка

Для лингвистики язык — это группа произвольных голосовых знаков. Можно сказать, что язык является творческим, подчиняется правилам, врожденным и универсальным одновременно. С другой стороны, это тоже по-человечески. Природа языка различна для разных людей. Существует много заблуждений относительно природы языка. Вот почему очень важно понимать значение неоднозначного термина «грамматика» . В лингвистике термин грамматика может быть определен как правила или принципы, с помощью которых работает язык. В широком смысле мы можем разделить грамматику на две категории —

Описательная грамматика

Набор правил, в которых лингвистика и грамматики формулируют грамматику говорящего, называется дескриптивной грамматикой.

Перспективная грамматика

Это совсем другое чувство грамматики, которое пытается поддерживать стандарт правильности в языке. Эта категория имеет мало общего с фактической работой языка.

Компоненты языка

Язык обучения делится на взаимосвязанные компоненты, которые являются как обычными, так и произвольными разделами лингвистического исследования. Объяснение этих компонентов заключается в следующем —

Фонология

Самым первым компонентом языка является фонология. Это изучение звуков речи определенного языка. Происхождение слова можно проследить до греческого языка, где «телефон» означает звук или голос. Фонетика, подразделение фонологии, — это изучение речевых звуков человеческого языка с точки зрения их производства, восприятия или их физических свойств. IPA (Международный фонетический алфавит) — это инструмент, который регулярно отображает звуки человека при изучении фонологии. В IPA каждый письменный символ представляет один и только один речевой звук и наоборот.

фонемы

Это может быть определено как одна из единиц звука, которые отличают одно слово от другого в языке. В лингвистике фонемы пишутся между слешами. Например, фонема / k / встречается в таких словах, как kit, skit.

Морфология

Это второй компонент языка. Это изучение структуры и классификации слов в определенном языке. Происхождение слова происходит от греческого языка, где слово «морфе» означает «форма». Морфология рассматривает принципы формирования слов в языке. Другими словами, как звуки объединяются в значимые единицы, такие как префиксы, суффиксы и корни. Это также рассматривает, как слова могут быть сгруппированы в части речи.

лексема

В лингвистике абстрактная единица морфологического анализа, которая соответствует набору форм, взятых одним словом, называется лексемой. Способ использования лексемы в предложении определяется его грамматической категорией. Лексема может быть отдельным словом или несколькими словами. Например, слово talk является примером отдельного слова lexeme, которое может иметь много грамматических вариантов, таких как разговоры, разговоры и разговоры. Лексема из нескольких слов может состоять из нескольких орфографических слов. Например, говорить, тянуть и т. Д. Являются примерами многословных лексем.

Синтаксис

Это третий компонент языка. Это изучение порядка и расположения слов в более крупные единицы. Слово можно проследить до греческого языка, где слово suntassein означает «навести порядок». Он изучает тип предложений и их структуру, предложения, фразы.

Семантика

Это четвертый компонент языка. Это изучение того, как передается смысл. Значение может быть связано с внешним миром или может быть связано с грамматикой предложения. Слово можно проследить до греческого языка, где слово semainein означает «обозначать», «показывать», «сигнал».

Прагматика

Это пятый компонент языка. Это изучение функций языка и его использование в контексте. Происхождение слова можно проследить до греческого языка, где слово «прагма» означает «поступок», «дело».

Грамматические категории

Грамматическая категория может быть определена как класс единиц или признаков в грамматике языка. Эти единицы являются строительными блоками языка и имеют общий набор характеристик. Грамматические категории также называют грамматическими особенностями.

Инвентаризация грамматических категорий описана ниже —

Число

Это самая простая грамматическая категория. У нас есть два термина, относящихся к этой категории — сингулярный и множественный. Единственное число — это понятие «один», тогда как множественное число — это понятие «более чем один». Например, собака / собаки, это / эти.

Пол

Грамматический пол выражен изменением в личных местоимениях и третьем лице. Примеры грамматических родов единственного числа — он, она, это; формы первого и второго лица — я, мы и вы; 3-е лицо во множественном числе образует общий или средний род.

Человек

Другая простая грамматическая категория — человек. При этом признаются следующие три условия:

1-е лицо — говорящее лицо считается 1-м лицом.
2-е лицо — лицо, которое является слушателем или человеком, с которым говорят, признается 2-м лицом.
Третье лицо — лицо или предмет, о котором мы говорим, признается третьим лицом.

1-е лицо — говорящее лицо считается 1-м лицом.

2-е лицо — лицо, которое является слушателем или человеком, с которым говорят, признается 2-м лицом.

Третье лицо — лицо или предмет, о котором мы говорим, признается третьим лицом.

случай

Это одна из самых сложных грамматических категорий. Он может быть определен как указание на функцию именной фразы (NP) или отношения существительной фразы к глаголу или к другим именным фразам в предложении. У нас есть следующие три случая, выраженные в личных и вопросительных местоимениях —

Именительный падеж — это функция субъекта. Например, я, мы, вы, он, она, она, они и кто именительный.
Родительный падеж — это функция владельца. Например, мой / мой, наш / наш, его, ее / ее, его, их / их, которые являются родительными.
Объективный случай — это функция объекта. Например, я, мы, вы, он, она, они, которые являются объективными.

Именительный падеж — это функция субъекта. Например, я, мы, вы, он, она, она, они и кто именительный.

Родительный падеж — это функция владельца. Например, мой / мой, наш / наш, его, ее / ее, его, их / их, которые являются родительными.

Объективный случай — это функция объекта. Например, я, мы, вы, он, она, они, которые являются объективными.

степень

Эта грамматическая категория связана с прилагательными и наречиями. Он имеет следующие три условия —

Положительная степень — это выражает качество. Например, большие, быстрые, красивые — это положительные степени.
Сравнительная степень — выражает большую степень или интенсивность качества в одном из двух пунктов. Например, больше, быстрее, красивее сравнительные степени.
Превосходная степень — выражает наибольшую степень или интенсивность качества в одном из трех или более элементов. Например, самые большие, самые быстрые, самые красивые — это превосходные степени.

Положительная степень — это выражает качество. Например, большие, быстрые, красивые — это положительные степени.

Сравнительная степень — выражает большую степень или интенсивность качества в одном из двух пунктов. Например, больше, быстрее, красивее сравнительные степени.

Превосходная степень — выражает наибольшую степень или интенсивность качества в одном из трех или более элементов. Например, самые большие, самые быстрые, самые красивые — это превосходные степени.

Определенность и неопределенность

Обе эти концепции очень просты. Определенность, как мы знаем, представляет референта, который известен, знаком или опознаваем говорящим или слушателем. С другой стороны, неопределенность представляет референта, который не известен или незнаком. Понятие может быть понято в совместном появлении статьи с существительным —

определенная статья —
неопределенный артикль — а / п

определенная статья —

неопределенный артикль — а / п

Время

Эта грамматическая категория относится к глаголу и может быть определена как лингвистическое указание времени действия. Время устанавливает отношение, потому что оно указывает время события относительно момента речи. В общих чертах, он имеет следующие три типа —

Настоящее время — представляет возникновение действия в настоящий момент. Например, Рам много работает.
Прошедшее время — представляет собой действие до настоящего момента. Например, шел дождь.
Будущее время — представляет возникновение действия после настоящего момента. Например, будет дождь.

Настоящее время — представляет возникновение действия в настоящий момент. Например, Рам много работает.

Прошедшее время — представляет собой действие до настоящего момента. Например, шел дождь.

Будущее время — представляет возникновение действия после настоящего момента. Например, будет дождь.

аспект

Эта грамматическая категория может быть определена как точка зрения на событие. Это может быть следующих типов —

Идеальный аспект — представление воспринимается как единое целое в аспекте. Например, простое прошедшее время, как вчера, когда я встретил своего друга, на английском языке является совершенным в аспекте, поскольку оно рассматривает событие как завершенное и целостное.
Несовершенный аспект — точка зрения воспринимается как продолжающаяся и неполная в аспекте. Например, настоящее причастное время, как я работаю над этой проблемой, на английском языке несовершенно в аспекте, поскольку рассматривает событие как незавершенное и продолжающееся.

Идеальный аспект — представление воспринимается как единое целое в аспекте. Например, простое прошедшее время, как вчера, когда я встретил своего друга, на английском языке является совершенным в аспекте, поскольку оно рассматривает событие как завершенное и целостное.

Несовершенный аспект — точка зрения воспринимается как продолжающаяся и неполная в аспекте. Например, настоящее причастное время, как я работаю над этой проблемой, на английском языке несовершенно в аспекте, поскольку рассматривает событие как незавершенное и продолжающееся.

Настроение

Эту грамматическую категорию немного сложно определить, но ее можно просто сформулировать как показатель отношения говорящего к тому, о чем он / она говорит. Это также грамматическая особенность глаголов. Это отличается от грамматического времени и грамматического аспекта. Примерами настроений являются показательный, вопросительный, императивный, запретительный, сослагательный, потенциальный, факультативный, герундии и причастия.

соглашение

Это также называется Конкорд. Это происходит, когда слово меняется в зависимости от других слов, к которым оно относится. Другими словами, это подразумевает согласование значения некоторой грамматической категории между разными словами или частью речи. Ниже приведены соглашения, основанные на других грамматических категориях —

Соглашение, основанное на личности — это соглашение между субъектом и глаголом. Например, мы всегда используем «Я есть» и «Он есть», но никогда не «Он есть» и «Я есть».
Соглашение на основе числа — это соглашение между субъектом и глаголом. В этом случае существуют определенные формы глагола для первого лица единственного числа, второго лица множественного числа и так далее. Например, 1-е лицо единственного числа: я на самом деле, 2-е лицо множественного числа: мы на самом деле, 3-го лица единственного числа: мальчик поет, 3-го лица множественного числа: мальчики поют.
Соглашение, основанное на полу — В английском языке существует соглашение в отношении пола между местоимениями и антецедентами. Например, он достиг своей цели. Корабль достиг ее пункта назначения.
Соглашение, основанное на случае — этот вид соглашения не является существенной чертой английского языка. Например, кто пришел первым — он или его сестра?

Соглашение, основанное на личности — это соглашение между субъектом и глаголом. Например, мы всегда используем «Я есть» и «Он есть», но никогда не «Он есть» и «Я есть».

Соглашение на основе числа — это соглашение между субъектом и глаголом. В этом случае существуют определенные формы глагола для первого лица единственного числа, второго лица множественного числа и так далее. Например, 1-е лицо единственного числа: я на самом деле, 2-е лицо множественного числа: мы на самом деле, 3-го лица единственного числа: мальчик поет, 3-го лица множественного числа: мальчики поют.

Соглашение, основанное на полу — В английском языке существует соглашение в отношении пола между местоимениями и антецедентами. Например, он достиг своей цели. Корабль достиг ее пункта назначения.

Соглашение, основанное на случае — этот вид соглашения не является существенной чертой английского языка. Например, кто пришел первым — он или его сестра?

Синтаксис разговорного языка

Письменная грамматика английского и разговорного английского языка имеет много общих черт, но наряду с этим они также отличаются по ряду аспектов. Следующие особенности различают устную и письменную грамматику английского языка —

Неисправности и ремонт

Эта поразительная особенность делает грамматику разговорной и письменной речи отличной друг от друга Он индивидуально известен как явления нарушения и все вместе как явления ремонта. Несоответствия включают использование следующего —

Заполняющие слова. Иногда между предложениями мы используем некоторые заполняющие слова. Их называют наполнителями паузы наполнителя. Примеры таких слов: хм и гм.
Репарандум и исправление . Повторяющаяся часть слов между предложениями называется репарандумом. В том же сегменте измененное слово называется ремонт. Рассмотрим следующий пример, чтобы понять это —

Заполняющие слова. Иногда между предложениями мы используем некоторые заполняющие слова. Их называют наполнителями паузы наполнителя. Примеры таких слов: хм и гм.

Репарандум и исправление . Повторяющаяся часть слов между предложениями называется репарандумом. В том же сегменте измененное слово называется ремонт. Рассмотрим следующий пример, чтобы понять это —

Предлагает ли авиакомпания ABC перелеты в одну сторону или в одну сторону за 5000 рупий?

В приведенном выше предложении рейс в одну сторону — это репарадум, а рейсы в одну сторону — ремонт.

Перезапуск

После паузы наполнителя происходит перезапуск. Например, в приведенном выше предложении перезапуски происходят, когда говорящий начинает спрашивать о перелетах в одну сторону, затем останавливается, исправляет себя с помощью паузы, а затем снова начинает спрашивать о тарифах в одну сторону.

Фрагменты слова

Иногда мы говорим предложения с меньшими фрагментами слов. Например, какое время? Здесь слова w-wha являются фрагментами слова.

НЛП — Поиск информации

Поиск информации (IR) может быть определен как программное обеспечение, которое занимается организацией, хранением, поиском и оценкой информации из хранилищ документов, в частности текстовой информации. Система помогает пользователям найти требуемую информацию, но не дает явных ответов на вопросы. Он информирует о наличии и местонахождении документов, которые могут состоять из необходимой информации. Документы, которые удовлетворяют требованиям пользователя, называются соответствующими документами. Идеальная система IR будет получать только соответствующие документы.

С помощью следующей диаграммы мы можем понять процесс поиска информации (IR) —

Из вышеприведенной диаграммы видно, что пользователю, которому нужна информация, необходимо будет сформулировать запрос в форме запроса на естественном языке. Затем система IR ответит путем извлечения соответствующих выходных данных в форме документов о требуемой информации.

Классическая проблема в информационно-поисковой (ИК) системе

Основная цель исследования IR состоит в том, чтобы разработать модель для извлечения информации из хранилищ документов. Здесь мы собираемся обсудить классическую проблему, названную специальной поисковой проблемой , связанной с системой IR.

В специальном поиске пользователь должен ввести запрос на естественном языке, который описывает необходимую информацию. Затем система IR вернет необходимые документы, связанные с желаемой информацией. Например, предположим, что мы что-то ищем в Интернете, и он дает некоторые точные страницы, которые соответствуют нашему требованию, но могут быть и некоторые не относящиеся к делу страницы. Это связано со специальной проблемой поиска.

Аспекты специального поиска

Ниже приведены некоторые аспекты специального поиска, которые рассматриваются в исследованиях IR —

Как пользователи с помощью обратной связи по релевантности могут улучшить оригинальную формулировку запроса?
Как реализовать объединение баз данных, т. Е. Как результаты из разных текстовых баз данных можно объединить в один набор результатов?
Как обрабатывать частично поврежденные данные? Какие модели подходят для одного и того же?

Как пользователи с помощью обратной связи по релевантности могут улучшить оригинальную формулировку запроса?

Как реализовать объединение баз данных, т. Е. Как результаты из разных текстовых баз данных можно объединить в один набор результатов?

Как обрабатывать частично поврежденные данные? Какие модели подходят для одного и того же?

Модель поиска информации (IR)

Математически, модели используются во многих научных областях, имеющих целью понять некоторые явления в реальном мире. Модель поиска информации предсказывает и объясняет, что пользователь найдет в связи с заданным запросом. Модель IR в основном представляет собой шаблон, который определяет вышеупомянутые аспекты процедуры поиска и состоит из следующего:

Модель для документов.
Модель для запросов.
Функция сопоставления, которая сравнивает запросы с документами.

Модель для документов.

Модель для запросов.

Функция сопоставления, которая сравнивает запросы с документами.

Математически поисковая модель состоит из —

D — Представление для документов.

R — Представление для запросов.

F — Каркас моделирования для D, Q вместе с отношениями между ними.

R (q, di) — функция сходства, которая упорядочивает документы по запросу. Это также называется рейтингом.

Типы модели поиска информации (IR)

Модель информационной модели (IR) может быть классифицирована на следующие три модели:

Классическая модель IR

Это самая простая и легко реализуемая модель IR. Эта модель основана на математических знаниях, которые также легко распознавались и понимались. Boolean, Vector и Probabilistic — это три классические ИК-модели.

Неклассическая ИК модель

Это полностью противоположно классической модели IR. Такие модели IR основаны на принципах, отличных от подобия, вероятности, логических операций. Информационно-логическая модель, модель теории ситуаций и модели взаимодействия являются примерами неклассической ИК-модели.

Альтернативная модель IR

Это расширение классической модели IR, использующее некоторые специфические методы из некоторых других областей. Кластерная модель, нечеткая модель и модели скрытой семантической индексации (LSI) являются примером альтернативной модели IR.

Конструктивные особенности информационно-поисковых (ИК) систем

Давайте теперь узнаем о конструктивных особенностях ИК систем —

Перевернутый индекс

Первичная структура данных большинства ИК-систем представлена в форме инвертированного индекса. Мы можем определить инвертированный индекс как структуру данных, которая перечисляет для каждого слова все документы, которые его содержат, и частоту вхождений в документе. Это облегчает поиск «совпадений» в слове запроса.

Остановить удаление слов

Стоп-слова — это те высокочастотные слова, которые вряд ли пригодятся для поиска. У них меньше смысловых весов. Все подобные слова находятся в списке, называемом стоп-листом. Например, статьи «a», «an», «the» и такие предлоги, как «in», «of», «for», «at» и т. Д., Являются примерами стоп-слов. Размер инвертированного индекса может быть значительно уменьшен с помощью стоп-листа. Согласно закону Ципфа, стоп-лист, охватывающий несколько десятков слов, уменьшает размер инвертированного индекса почти вдвое. С другой стороны, иногда удаление стоп-слова может привести к удалению термина, который полезен для поиска. Например, если мы исключим алфавит «А» из «Витамина А», это не будет иметь никакого значения.

Морфологический

Стемминг, упрощенная форма морфологического анализа, — это эвристический процесс выделения базовой формы слов путем обрезания концов слов. Например, слова «смеяться, смеяться, смеяться» будут ограничены корнем слова «смеяться».

В наших последующих разделах мы обсудим некоторые важные и полезные модели IR.

Булева Модель

Это самая старая информационно-поисковая (ИК) модель. Модель основана на теории множеств и булевой алгебре, где документы — это наборы терминов, а запросы — это булевы выражения для терминов. Булева модель может быть определена как —

D — Набор слов, то есть термины индексации, присутствующие в документе. Здесь каждый член либо присутствует (1), либо отсутствует (0).
Q — логическое выражение, где термины — это термины индекса, а операторы — логические продукты — И, логическая сумма — ИЛИ и логическая разница — НЕ
F — булева алгебра над множествами терминов, а также над множествами документов

Если мы говорим об обратной связи по релевантности, то в логической модели IR прогноз релевантности можно определить следующим образом:
R — Документ прогнозируется как релевантный выражению запроса, если и только если он удовлетворяет выражению запроса как —

D — Набор слов, то есть термины индексации, присутствующие в документе. Здесь каждый член либо присутствует (1), либо отсутствует (0).

Q — логическое выражение, где термины — это термины индекса, а операторы — логические продукты — И, логическая сумма — ИЛИ и логическая разница — НЕ

F — булева алгебра над множествами терминов, а также над множествами документов

Если мы говорим об обратной связи по релевантности, то в логической модели IR прогноз релевантности можно определить следующим образом:

R — Документ прогнозируется как релевантный выражению запроса, если и только если он удовлетворяет выражению запроса как —

((???? ˅ ???????????) ˄ ???????? ˄ ˜ ?ℎ????)

Мы можем объяснить эту модель термином запроса как однозначное определение набора документов.

Например, термин запроса «экономический» определяет набор документов, которые индексируются термином «экономический» .

Теперь, каков будет результат после объединения терминов с логическим оператором AND? Он определит набор документов, который меньше или равен наборам документов любого из отдельных терминов. Например, запрос с терминами «социальный» и «экономический» приведет к набору документов, индексируемому обоими терминами. Другими словами, документ установлен с пересечением обоих наборов.

Теперь, каков будет результат после объединения терминов с логическим оператором ИЛИ? Он определит набор документов, который больше или равен наборам документов любого из отдельных терминов. Например, запрос с терминами «социальный» или «экономический» приведет к набору документов, индексируемому с помощью термина «социальный» или «экономический» . Другими словами, документ установлен с объединением обоих наборов.

Преимущества булева режима

Преимущества булевой модели следующие:

Простейшая модель, основанная на множествах.
Легко понять и реализовать.
Он только получает точные совпадения
Это дает пользователю ощущение контроля над системой.

Простейшая модель, основанная на множествах.

Легко понять и реализовать.

Он только получает точные совпадения

Это дает пользователю ощущение контроля над системой.

Недостатки булевой модели

Недостатки булевой модели следующие:

Функция подобия модели является логической. Следовательно, не будет частичных совпадений. Это может раздражать пользователей.
В этой модели использование логического оператора имеет гораздо большее влияние, чем критическое слово.
Язык запросов выразителен, но он также сложен.
Нет рейтинга для найденных документов.

Функция подобия модели является логической. Следовательно, не будет частичных совпадений. Это может раздражать пользователей.

В этой модели использование логического оператора имеет гораздо большее влияние, чем критическое слово.

Язык запросов выразителен, но он также сложен.

Нет рейтинга для найденных документов.

Модель векторного пространства

Из-за вышеупомянутых недостатков булевой модели Джерард Солтон и его коллеги предложили модель, основанную на критерии сходства Луна. Критерий подобия, сформулированный Луном, гласит: «Чем больше двух представлений согласовано в данных элементах и их распределении, тем выше будет вероятность того, что они представят подобную информацию».

Рассмотрим следующие важные моменты, чтобы понять больше о модели векторного пространства —

Индексные представления (документы) и запросы рассматриваются как векторы, вложенные в евклидово пространство большой размерности.
Мера сходства вектора документа с вектором запроса обычно представляет собой косинус угла между ними.

Индексные представления (документы) и запросы рассматриваются как векторы, вложенные в евклидово пространство большой размерности.

Мера сходства вектора документа с вектором запроса обычно представляет собой косинус угла между ними.

Формула измерения сходства косинусов

Косинус является нормализованным точечным произведением, которое можно рассчитать с помощью следующей формулы:

$Score \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \:. Q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2}$

$Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: когда \: d = q$

$Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: когда \: d \: и \: q \: поделиться \: no \: items$

Представление векторного пространства с запросом и документом

Запрос и документы представлены двумерным векторным пространством. Условия — автомобиль и страховка . В векторном пространстве есть один запрос и три документа.

Документом с самым высоким рейтингом в ответ на термины автомобиль и страховка будет документ d _2, поскольку угол между q и d ₂ является наименьшим. Причиной этого является то, что концепт-кар и страховка имеют значение в d ₂ и, следовательно, имеют большой вес. С другой стороны, d ₁ и d ₃ также упоминают оба термина, но в каждом случае один из них не является центрально важным термином в документе.

Срок взвешивания

Взвешивание терминов означает веса в терминах в векторном пространстве. Чем выше вес термина, тем больше будет влияние термина на косинус. Большим весам следует присваивать более важные термины в модели. Теперь возникает вопрос: как мы можем смоделировать это?

Один из способов сделать это состоит в том, чтобы считать слова в документе как его вес термина. Однако, вы думаете, это будет эффективный метод?

Другой способ, который является более эффективным, заключается в использовании термина частота (tf _ij ), частота документа (df _i ) и частота сбора (cf _i ) .

Термин частота (TF _IJ )

Это может быть определено как число вхождений w _i в d _j . Информация, получаемая по частоте термина, — это то, насколько значимым является слово в данном документе, или, другими словами, мы можем сказать, что чем выше частота термина, тем больше это слово является хорошим описанием содержания этого документа.

Частота документов (df _i )

Он может быть определен как общее количество документов в коллекции, в которой он находится. Это показатель информативности. Семантически сфокусированные слова будут встречаться в документе несколько раз, в отличие от семантически сфокусированных слов.

Частота сбора (ср. _Я )

Это может быть определено как общее количество вхождений w _i в коллекцию.

Математически,

Формы взвешивания по частоте документов

Давайте теперь узнаем о различных формах взвешивания частоты документа. Формы описаны ниже —

Термин частотный фактор

Это также классифицируется как термин частотный коэффициент, что означает, что если термин t часто встречается в документе, запрос, содержащий t, должен извлечь этот документ. Мы можем объединить частоту слова (tf _ij ) и частоту документа (df _i ) в один вес следующим образом:

$weight \ left (i, j \ right) = \ begin {case} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {case }$

Здесь N — общее количество документов.

Частота обратных документов (IDF)

Это еще одна форма взвешивания частоты документа и часто называемая IDF-взвешиванием или обратным взвешиванием частоты документа. Важным моментом взвешивания IDF является то, что нехватка термина во всей коллекции является показателем его важности, а важность обратно пропорциональна частоте встречаемости.

Математически,

$idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right)$

$idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right)$

Вот,

N = документы в коллекции

n _t = документы, содержащие термин t

Улучшение пользовательских запросов

Основной целью любой информационно-поисковой системы должна быть точность — производить соответствующие документы в соответствии с требованиями пользователя. Однако возникает вопрос: как мы можем улучшить вывод, улучшив стиль формирования запросов пользователя. Конечно, вывод любой ИК-системы зависит от запроса пользователя, и хорошо отформатированный запрос даст более точные результаты. Пользователь может улучшить свой запрос с помощью обратной связи по релевантности , что является важным аспектом любой модели IR.

Актуальность Обратная связь

Релевантная обратная связь принимает выходные данные, которые первоначально возвращаются из данного запроса. Этот начальный вывод можно использовать для сбора информации о пользователе и для выяснения, является ли этот вывод релевантным для выполнения нового запроса или нет. Отзывы могут быть классифицированы следующим образом —

Явная обратная связь

Это может быть определено как обратная связь, полученная от экспертов по релевантности. Эти оценщики также укажут актуальность документа, извлеченного из запроса. Чтобы повысить производительность поиска запросов, информацию обратной связи по релевантности необходимо интерполировать с исходным запросом.

Оценщики или другие пользователи системы могут явно указать актуальность, используя следующие системы релевантности:

Бинарная система релевантности. Эта система обратной связи по релевантности указывает, что документ является релевантным (1) или неактуальным (0) для данного запроса.
Система градуированной релевантности — система обратной связи градуированной релевантности указывает релевантность документа для данного запроса на основе классификации с использованием цифр, букв или описаний. Описание может быть как «не релевантно», «несколько релевантно», «очень актуально» или «актуально».

Бинарная система релевантности. Эта система обратной связи по релевантности указывает, что документ является релевантным (1) или неактуальным (0) для данного запроса.

Система градуированной релевантности — система обратной связи градуированной релевантности указывает релевантность документа для данного запроса на основе классификации с использованием цифр, букв или описаний. Описание может быть как «не релевантно», «несколько релевантно», «очень актуально» или «актуально».

Скрытая обратная связь

Это обратная связь, которая выводится из поведения пользователя. Поведение включает в себя продолжительность времени, которое пользователь потратил на просмотр документа, какой документ выбран для просмотра, а какой нет, действия по просмотру страниц и прокрутке и т. Д. Одним из лучших примеров неявной обратной связи является время задержки , которое является мерой того, как много времени пользователь тратит на просмотр страницы, на которую ссылается результат поиска.

Псевдо-обратная связь

Это также называется слепой обратной связью. Он предоставляет метод для автоматического локального анализа. Ручная часть обратной связи по релевантности автоматизируется с помощью псевдо-релевантной обратной связи, так что пользователь получает улучшенную производительность поиска без расширенного взаимодействия. Основным преимуществом этой системы обратной связи является то, что она не требует от оценщиков, как в случае системы обратной связи с явным соответствием.

Рассмотрим следующие шаги для реализации этой обратной связи —

Шаг 1 — Во-первых, результат, возвращаемый начальным запросом, должен быть принят как соответствующий результат. Диапазон релевантных результатов должен быть в топ-10-50 результатов.
Шаг 2 — Теперь выберите верхние 20-30 терминов из документов, используя, например, вес частоты (tf), обратный частоте документа (idf).
Шаг 3 — Добавьте эти условия в запрос и сопоставьте возвращенные документы. Затем верните наиболее актуальные документы.

Шаг 1 — Во-первых, результат, возвращаемый начальным запросом, должен быть принят как соответствующий результат. Диапазон релевантных результатов должен быть в топ-10-50 результатов.

Шаг 2 — Теперь выберите верхние 20-30 терминов из документов, используя, например, вес частоты (tf), обратный частоте документа (idf).

Шаг 3 — Добавьте эти условия в запрос и сопоставьте возвращенные документы. Затем верните наиболее актуальные документы.

Приложения НЛП

Natural Language Processing (NLP) — это новая технология, которая порождает различные формы ИИ, которые мы видим в настоящее время, и ее использование для создания бесшовного, а также интерактивного интерфейса между людьми и машинами будет оставаться главным приоритетом для сегодняшнего и завтрашнего дня. все более познавательные приложения. Здесь мы собираемся обсудить некоторые из очень полезных приложений НЛП.

Машинный перевод

Машинный перевод (MT), процесс перевода одного исходного языка или текста на другой язык, является одним из наиболее важных приложений НЛП. Мы можем понять процесс машинного перевода с помощью следующей блок-схемы —

Типы систем машинного перевода

Существуют разные типы систем машинного перевода. Давайте посмотрим, что это за разные типы.

Двуязычная система MT

Двуязычные системы MT производят переводы между двумя конкретными языками.

Многоязычная система MT

Многоязычные системы MT производят переводы между любой парой языков. Они могут быть однонаправленными или двунаправленными по своей природе.

Подходы к машинному переводу (МТ)

Давайте теперь узнаем о важных подходах к машинному переводу. Подходы к МТ следующие:

Прямой подход к МТ

Это менее популярный, но самый старый подход MT. Системы, использующие этот подход, способны переводить SL (исходный язык) непосредственно в TL (целевой язык). Такие системы являются двуязычными и однонаправленными по своей природе.

Интерлингва подход

Системы, использующие подход Interlingua, переводят SL на промежуточный язык, называемый Interlingua (IL), а затем переводят IL в TL. Подход Интерлингва может быть понят с помощью следующей MT пирамиды —

Трансферный подход

Три этапа связаны с этим подходом.

На первом этапе тексты на исходном языке (SL) преобразуются в абстрактные SL-ориентированные представления.
На втором этапе SL-ориентированные представления преобразуются в эквивалентные целевые (TL) -ориентированные представления.
На третьем этапе создается окончательный текст.

На первом этапе тексты на исходном языке (SL) преобразуются в абстрактные SL-ориентированные представления.

На втором этапе SL-ориентированные представления преобразуются в эквивалентные целевые (TL) -ориентированные представления.

На третьем этапе создается окончательный текст.

Эмпирический подход МТ

Это новый подход для MT. В основном, он использует большое количество необработанных данных в форме параллельных корпусов. Необработанные данные состоят из текста и их переводов. Основанные на аналогах, основанные на примерах методы машинного перевода на основе памяти используют эмпирический подход MT.

Борьба со спамом

Одна из наиболее распространенных проблем в наши дни — нежелательные письма. Это делает спам-фильтры еще более важными, потому что это первая линия защиты от этой проблемы.

Система фильтрации спама может быть разработана с использованием функциональности НЛП с учетом основных ложноположительных и ложноотрицательных вопросов.

Существующие модели НЛП для фильтрации спама

Ниже приведены некоторые существующие модели НЛП для фильтрации спама.

N-грамм моделирование

Модель N-граммы — это N-символьный фрагмент более длинной строки. В этой модели N-граммы нескольких разных длин используются одновременно при обработке и обнаружении спама.

Слово Стемминг

Спамеры, генераторы спам-писем, обычно меняют один или несколько символов атакующих слов в своих спамах, чтобы они могли нарушать фильтры спама на основе контента. Вот почему мы можем сказать, что контентные фильтры бесполезны, если они не могут понять значение слов или фраз в электронном письме. Чтобы устранить такие проблемы при фильтрации спама, разработана основанная на правилах методика определения слов, которая может сопоставлять слова, которые похожи и звучат одинаково.

Байесовская классификация

Теперь это стало широко используемой технологией для фильтрации спама. Количество слов в электронном письме измеряется по сравнению с его типичным появлением в базе данных нежелательных (спам) и законных (ветчина) сообщений электронной почты в статистическом методе.

Автоматическое суммирование

В эту цифровую эпоху самое ценное — это данные, или вы можете сказать информацию. Однако действительно ли мы получаем полезную информацию и требуемое количество информации? Ответ «НЕТ», потому что информация перегружена, и наш доступ к знаниям и информации намного превосходит наши возможности ее понять. Мы остро нуждаемся в автоматическом обобщении текста и информации, потому что поток информации через Интернет не остановится.

Обобщение текста может быть определено как метод создания короткого и точного резюме более длинных текстовых документов. Автоматическое суммирование текста поможет нам с актуальной информацией за меньшее время. Обработка естественного языка (НЛП) играет важную роль в разработке автоматического обобщения текста.

Вопрос-ответ

Другое основное применение обработки естественного языка (NLP) — это ответы на вопросы. Поисковые системы ставят информацию о мире у нас под рукой, но им все еще не хватает, когда речь идет о том, чтобы отвечать на вопросы людей на их естественном языке. У нас есть крупные технологические компании, такие как Google, которые также работают в этом направлении.

Ответ на вопрос является дисциплиной информатики в областях ИИ и НЛП. Основное внимание уделяется созданию систем, которые автоматически отвечают на вопросы, заданные людьми на их естественном языке. Компьютерная система, которая понимает естественный язык, обладает способностью программной системы переводить предложения, написанные людьми, во внутреннее представление, чтобы система могла генерировать правильные ответы. Точные ответы могут быть получены путем синтаксического и семантического анализа вопросов. Лексический разрыв, неоднозначность и многоязычие — вот некоторые из проблем, с которыми НЛП сталкивается при построении хорошей системы ответов на вопросы.

Анализ настроений

Другим важным применением обработки естественного языка (NLP) является анализ настроений. Как следует из названия, анализ настроений используется для выявления настроений среди нескольких постов. Он также используется для определения настроения, когда эмоции не выражены явно. Компании используют анализ настроений, приложение обработки естественного языка (NLP), чтобы определить мнение и настроение своих клиентов в Интернете. Это поможет компаниям понять, что их клиенты думают о продуктах и услугах. Компании могут оценить свою общую репутацию по сообщениям клиентов с помощью анализа настроений. Таким образом, мы можем сказать, что помимо определения простой полярности, анализ настроений понимает чувства в контексте, чтобы помочь нам лучше понять, что стоит за выраженным мнением.

Обработка естественного языка — Python

В этой главе мы узнаем о языковой обработке с использованием Python.

Следующие функции отличают Python от других языков —

Python интерпретируется — нам не нужно компилировать нашу программу Python перед ее выполнением, потому что интерпретатор обрабатывает Python во время выполнения.
Интерактивный — мы можем напрямую взаимодействовать с переводчиком для написания наших программ на Python.
Объектно-ориентированный — Python является объектно-ориентированным по своей природе и облегчает написание этого языка на программах, поскольку с помощью этого метода программирования он инкапсулирует код в объектах.
Начинающий может легко учиться — Python также называют языком начинающего, потому что он очень прост для понимания и поддерживает разработку широкого спектра приложений.

Python интерпретируется — нам не нужно компилировать нашу программу Python перед ее выполнением, потому что интерпретатор обрабатывает Python во время выполнения.

Интерактивный — мы можем напрямую взаимодействовать с переводчиком для написания наших программ на Python.

Объектно-ориентированный — Python является объектно-ориентированным по своей природе и облегчает написание этого языка на программах, поскольку с помощью этого метода программирования он инкапсулирует код в объектах.

Начинающий может легко учиться — Python также называют языком начинающего, потому что он очень прост для понимания и поддерживает разработку широкого спектра приложений.

Предпосылки

Последняя версия Python 3 выпущена на Python 3.7.1 и доступна для Windows, Mac OS и большинства версий ОС Linux.

Для окон мы можем перейти по ссылке www.python.org/downloads/windows/, чтобы загрузить и установить Python.
Для MAC OS мы можем использовать ссылку www.python.org/downloads/mac-osx/ .
В случае Linux разные версии Linux используют разные менеджеры пакетов для установки новых пакетов.
- Например, чтобы установить Python 3 в Ubuntu Linux, мы можем использовать следующую команду из терминала:

Для окон мы можем перейти по ссылке www.python.org/downloads/windows/, чтобы загрузить и установить Python.

Для MAC OS мы можем использовать ссылку www.python.org/downloads/mac-osx/ .

В случае Linux разные версии Linux используют разные менеджеры пакетов для установки новых пакетов.

Например, чтобы установить Python 3 в Ubuntu Linux, мы можем использовать следующую команду из терминала:

$sudo apt-get install python3-minimal

Чтобы узнать больше о программировании на Python, прочитайте основное руководство по Python 3 — Python 3

Начало работы с NLTK

Мы будем использовать библиотеку Python NLTK (Natural Language Toolkit) для анализа текста на английском языке. Инструментарий естественного языка (NLTK) представляет собой набор библиотек Python, разработанный специально для идентификации и маркировки частей речи, встречающихся в тексте естественного языка, такого как английский.

Установка НЛТК

Перед тем, как начать использовать NLTK, нам нужно его установить. С помощью следующей команды мы можем установить ее в нашей среде Python —

pip install nltk

Если мы используем Anaconda, то пакет Conda для NLTK может быть собран с помощью следующей команды —

conda install -c anaconda nltk

Загрузка данных НЛТК

После установки NLTK еще одной важной задачей является загрузка предустановленных текстовых репозиториев, чтобы их можно было легко использовать. Однако перед этим нам нужно импортировать NLTK так же, как мы импортируем любой другой модуль Python. Следующая команда поможет нам в импорте NLTK —

import nltk

Теперь загрузите данные NLTK с помощью следующей команды —

nltk.download()

Установка всех доступных пакетов NLTK займет некоторое время.

Другие необходимые пакеты

Некоторые другие пакеты Python, такие как gensim и pattern , также очень необходимы для анализа текста, а также для создания приложений обработки естественного языка с использованием NLTK. пакеты могут быть установлены, как показано ниже —

gensim

gensim — это надежная библиотека семантического моделирования, которая может использоваться во многих приложениях. Мы можем установить его с помощью следующей команды —

pip install gensim

шаблон

Он может быть использован для правильной работы пакета gensim . Следующая команда помогает в установке шаблона —

pip install pattern

лексемизацию

Токенизация может быть определена как Процесс разбиения данного текста на более мелкие единицы, называемые токенами. Слова, цифры или знаки препинания могут быть токенами. Это также можно назвать сегментацией слов.

пример

Вход — кровать и стул являются типами мебели.

У нас есть разные пакеты для токенизации, предоставляемые NLTK. Мы можем использовать эти пакеты в соответствии с нашими требованиями. Пакеты и детали их установки:

пакет sent_tokenize

Этот пакет можно использовать для разделения входного текста на предложения. Мы можем импортировать его с помощью следующей команды —

from nltk.tokenize import sent_tokenize

пакет word_tokenize

Этот пакет можно использовать для разделения входного текста на слова. Мы можем импортировать его с помощью следующей команды —

from nltk.tokenize import word_tokenize

Пакет WordPunctTokenizer

Этот пакет можно использовать для разделения входного текста на слова и знаки препинания. Мы можем импортировать его с помощью следующей команды —

from nltk.tokenize import WordPuncttokenizer

Морфологический

Из-за грамматических причин язык включает в себя множество вариаций. Вариации в том смысле, что язык, английский и другие языки тоже имеют разные формы слова. Например, такие слова, как демократия , демократия и демократизация . Для проектов машинного обучения очень важно, чтобы машины понимали, что эти разные слова, как и выше, имеют одинаковую базовую форму. Вот почему очень полезно извлекать базовые формы слов при анализе текста.

Стемминг — это эвристический процесс, который помогает в извлечении базовых форм слов путем измельчения их концов.

Ниже приведены различные пакеты для стемминга, предоставляемые модулем NLTK:

PorterStemmer пакет

Алгоритм Портера используется этим пакетом stemming для извлечения базовой формы слов. С помощью следующей команды мы можем импортировать этот пакет —

from nltk.stem.porter import PorterStemmer

Например, «write» будет выводом слова «writing», заданным в качестве входных данных для этого стеммера.

LancasterStemmer пакет

Алгоритм Ланкастера используется этим пакетом stemming для извлечения базовой формы слов. С помощью следующей команды мы можем импортировать этот пакет —

from nltk.stem.lancaster import LancasterStemmer

Например, «запись» будет выводом слова «запись», заданным в качестве входных данных для этого стеммера.

SnowballStemmer пакет

Алгоритм Snowball используется этим пакетом stemming для извлечения базовой формы слов. С помощью следующей команды мы можем импортировать этот пакет —

from nltk.stem.snowball import SnowballStemmer

Например, «write» будет выводом слова «writing», заданным в качестве входных данных для этого стеммера.

лемматизации

Это еще один способ извлечь базовую форму слов, обычно целью которой является удаление флективных окончаний с помощью словарного и морфологического анализа. После лемматизации базовая форма любого слова называется леммой.

Модуль НЛТК предоставляет следующий пакет для лемматизации —

Пакет WordNetLemmatizer

Этот пакет извлечет основную форму слова в зависимости от того, используется ли оно как существительное или как глагол. Следующая команда может быть использована для импорта этого пакета —

from nltk.stem import WordNetLemmatizer

Подсчет POS-тегов – Chunking

Идентификация частей речи (POS) и коротких фраз может быть выполнена с помощью чанкинга. Это один из важных процессов в обработке естественного языка. Поскольку мы знаем о процессе токенизации для создания токенов, то на самом деле разбиение на фрагменты — это маркировка этих токенов. Другими словами, мы можем сказать, что мы можем получить структуру предложения с помощью процесса разбиения на фрагменты.

пример

В следующем примере мы реализуем чанки Noun-Phrase, категорию чанков, которые найдут чанки именных фраз в предложении, используя модуль Python NLTK.

Рассмотрим следующие шаги для реализации разбиения на именные фразы —

Шаг 1: Определение грамматики чанка

На этом этапе нам нужно определить грамматику для разбиения на фрагменты. Он будет состоять из правил, которым мы должны следовать.

Шаг 2: Создание парсера чанка

Далее нам нужно создать парсер чанка. Было бы разобрать грамматику и дать вывод.

Шаг 3: Выход

На этом шаге мы получим вывод в древовидном формате.

Запуск сценария НЛП

Начните с импорта пакета NLTK —

import nltk

Теперь нам нужно определить предложение.

Вот,

DT является определяющим
VBP это глагол
JJ это прилагательное
IN это предлог
NN это существительное

DT является определяющим

VBP это глагол

JJ это прилагательное

IN это предлог

NN это существительное

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Далее грамматика должна быть дана в форме регулярного выражения.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Теперь нам нужно определить парсер для разбора грамматики.

parser_chunking = nltk.RegexpParser(grammar)

Теперь синтаксический анализатор проанализирует предложение следующим образом:

parser_chunking.parse(sentence)

Далее вывод будет в переменной следующим образом:

Output = parser_chunking.parse(sentence)

Теперь следующий код поможет вам сделать вывод в виде дерева.

output.draw()

Обработка естественного языка — Краткое руководство

Обработка естественного языка — Введение

История НЛП

Первая фаза (фаза машинного перевода) — конец 1940-х — конец 1960-х годов

Вторая фаза (фаза влияния ИИ) — конец 1960-х — конец 1970-х годов

Третья фаза (грамматико-логическая фаза) — конец 1970-х — конец 1980-х годов

Четвертая фаза (Lexical & Corpus Phase) — 1990-е годы

Изучение человеческих языков

Неопределенность и неопределенность в языке

Лексическая Неоднозначность

Синтаксическая Неопределенность

Семантическая двусмысленность

Анафорическая Неоднозначность

Прагматическая двусмысленность

Фазы НЛП

Морфологическая обработка

Синтаксический анализ

Семантический анализ

Прагматический анализ

НЛП — Лингвистические ресурсы

тело

Элементы Корпус Дизайн

Представительность корпуса

Корпус Баланс

отбор проб

Размер корпуса

TreeBank Corpus

Типы TreeBank Корпус

Семантические древовидные

Синтаксические древовидные

Приложения TreeBank Corpus

В компьютерной лингвистике

В корпусе лингвистики

В теоретической лингвистике и психолингвистике

ПропБанк Корпус

VerbNet (VN),

Набор синтаксических описаний или синтаксических фреймов

Набор семантических описаний, таких как анимация, человек, организация

WordNet

НЛП — Анализ на уровне слов

Регулярные выражения

Свойства регулярных выражений

Примеры регулярных выражений

Регулярные множества и их свойства

Свойства регулярных множеств

Конечные Государственные Автоматы

Связь между конечными автоматами, регулярными грамматиками и регулярными выражениями

Типы конечной государственной автоматизации (ФСА)

Детерминированная конечная автоматизация (DFA)

Пример ДФА

Недетерминированная конечная автоматизация (NDFA)

Пример NDFA

Морфологический анализ

Типы морфем

Стебли

Порядок слов

Словарный запас

Morphotactics

Орфографические правила

Обработка естественного языка — синтаксический анализ

Концепция парсера

Типы разбора

Разбор сверху вниз

Анализ снизу вверх

Концепция деривации

Типы деривации

Самый левый вывод

Самый правый вывод

Концепция разбора дерева

Концепция грамматики

Структура фразы или грамматика избирательного округа

пример

Грамматика зависимости

пример

Контекстная бесплатная грамматика

Определение CFG

Набор нетерминалов

Набор терминалов

Набор произведений

Начальный символ