Учебники

НЛП – Лингвистические ресурсы

В этой главе мы узнаем о лингвистических ресурсах в обработке естественного языка.

тело

Корпус – это большой и структурированный набор машиночитаемых текстов, которые были созданы в естественной коммуникативной обстановке. Его множественное число является корпусом. Они могут быть получены по-разному, например, текст, который был первоначально электронным, стенограммы разговорного языка и оптического распознавания символов и т. Д.

Элементы Корпус Дизайн

Язык бесконечен, но корпус должен быть конечным по размеру. Чтобы корпус был конечным по размеру, нам нужно выполнить выборку и пропорционально включить широкий спектр типов текста, чтобы обеспечить хороший дизайн корпуса.

Давайте теперь узнаем о некоторых важных элементах дизайна корпуса –

Представительность корпуса

Репрезентативность является определяющей чертой дизайна корпуса. Следующие определения двух великих исследователей – Пиявки и Бибера, помогут нам понять представительность корпуса –

  • Согласно Leech (1991), «корпус считается представителем языкового разнообразия, которое он должен представлять, если результаты, основанные на его содержании, могут быть обобщены до указанного языкового разнообразия».

  • Согласно Biber (1993), «репрезентативность относится к степени, в которой выборка включает полный диапазон изменчивости в популяции».

Согласно Leech (1991), «корпус считается представителем языкового разнообразия, которое он должен представлять, если результаты, основанные на его содержании, могут быть обобщены до указанного языкового разнообразия».

Согласно Biber (1993), «репрезентативность относится к степени, в которой выборка включает полный диапазон изменчивости в популяции».

Таким образом, мы можем сделать вывод, что репрезентативность корпуса определяется следующими двумя факторами:

  • Баланс – Диапазон жанров включает в себя корпус

  • Выборка – Как выбираются фрагменты для каждого жанра.

Баланс – Диапазон жанров включает в себя корпус

Выборка – Как выбираются фрагменты для каждого жанра.

Корпус Баланс

Другой очень важный элемент дизайна корпуса – баланс корпуса – диапазон жанра, включенного в корпус. Мы уже изучали, что репрезентативность общего корпуса зависит от того, насколько сбалансирован корпус. Сбалансированный корпус охватывает широкий спектр текстовых категорий, которые должны быть представителями языка. У нас нет какой-либо надежной научной меры для баланса, но лучшая оценка и интуиция работают в этом отношении. Другими словами, мы можем сказать, что принятый баланс определяется только его предполагаемым использованием.

отбор проб

Другим важным элементом дизайна корпуса является выборка. Репрезентативность и сбалансированность корпуса очень тесно связаны с отбором проб. Вот почему мы можем сказать, что выборка неизбежна при построении корпуса.

  • Согласно Биберу (1993) , «некоторые из первых соображений при построении корпуса касаются общего дизайна: например, типы включенных текстов, количество текстов, выбор конкретных текстов, выбор образцов текста из текстов. и длина образцов текста. Каждый из них включает выборочное решение, сознательное или нет ».

Согласно Биберу (1993) , «некоторые из первых соображений при построении корпуса касаются общего дизайна: например, типы включенных текстов, количество текстов, выбор конкретных текстов, выбор образцов текста из текстов. и длина образцов текста. Каждый из них включает выборочное решение, сознательное или нет ».

При получении репрезентативной выборки нам необходимо учитывать следующее:

  • Единица отбора проб – относится к единице, для которой требуется образец. Например, для письменного текста единицей выборки может быть газета, журнал или книга.

  • Рамка выборки – список всех единиц выборки называется кадром выборки.

  • Население – это можно назвать сборкой всех единиц выборки. Он определяется с точки зрения языкового производства, языкового восприятия или языка как продукта.

Единица отбора проб – относится к единице, для которой требуется образец. Например, для письменного текста единицей выборки может быть газета, журнал или книга.

Рамка выборки – список всех единиц выборки называется кадром выборки.

Население – это можно назвать сборкой всех единиц выборки. Он определяется с точки зрения языкового производства, языкового восприятия или языка как продукта.

Размер корпуса

Другим важным элементом дизайна корпуса является его размер. Насколько большим должен быть корпус? На этот вопрос нет конкретного ответа. Размер корпуса зависит от цели, для которой он предназначен, а также от следующих практических соображений:

  • Вид запроса, ожидаемого от пользователя.

  • Методология, используемая пользователями для изучения данных.

  • Наличие источника данных.

Вид запроса, ожидаемого от пользователя.

Методология, используемая пользователями для изучения данных.

Наличие источника данных.

С прогрессом в технологии, размер корпуса также увеличивается. Следующая таблица сравнения поможет вам понять, как работает размер корпуса –

Год Наименование корпуса Размер (словами)
1960-е – 70-е годы Коричневый и LOB 1 миллион слов
1980-е годы Бирмингемская Корпорация 20 миллионов слов
1990-е годы Британский национальный корпус 100 миллионов слов
Начало 21 века Банк английского корпуса 650 миллионов слов

В наших последующих разделах мы рассмотрим несколько примеров корпусов.

TreeBank Corpus

Он может быть определен как лингвистически проанализированный текстовый корпус, который аннотирует синтаксическую или семантическую структуру предложения. Джеффри Лич ввел термин «древовидный банк», который означает, что наиболее распространенным способом представления грамматического анализа является древовидная структура. Как правило, древовидные банки создаются в верхней части корпуса, который уже снабжен тегами части речи.

Типы TreeBank Корпус

Семантические и синтаксические древовидные банки являются двумя наиболее распространенными типами древовидных банков в лингвистике. Давайте теперь узнаем больше об этих типах –

Семантические древовидные

Эти древовидные банки используют формальное представление семантической структуры предложения. Они различаются по глубине своего семантического представления. Команды роботов Treebank, Geoquery, Groningen Meaning Bank, RoboCup Corpus – вот некоторые примеры семантических древовидных банков.

Синтаксические древовидные

В отличие от семантических древовидных банков входные данные для систем синтаксического древовидного банка являются выражениями формального языка, полученного в результате преобразования проанализированных данных древовидного банка. Выходы таких систем основаны на предикатном логическом значении представления. К настоящему времени созданы различные синтаксические древовидные блоки на разных языках. Например, Penn Arabic Treebank, Columbia Arabic Treebank – это синтаксические Treebank, созданные на арабском языке. Sininca синтаксический Treebank создан на китайском языке. Люси, Сьюзен и BLLIP WSJ создали синтаксический корпус на английском языке.

Приложения TreeBank Corpus

Ниже приведены некоторые из приложений TreeBanks –

В компьютерной лингвистике

Если мы говорим о вычислительной лингвистике, то лучше всего использовать TreeBanks для разработки современных систем обработки естественного языка, таких как метки части речи, парсеры, семантические анализаторы и системы машинного перевода.

В корпусе лингвистики

В случае корпусной лингвистики лучше всего использовать древовидные банки для изучения синтаксических явлений.

В теоретической лингвистике и психолингвистике

Лучшее использование древовидных банков в теоретической и психолингвистической практике – это доказательство взаимодействия.

ПропБанк Корпус

PropBank, более конкретно называемый «Банком предложений», представляет собой корпус, который снабжен устными предложениями и их аргументами. Корпус – это ресурс, ориентированный на глагол; аннотации здесь более тесно связаны с синтаксическим уровнем. Марта Палмер и др., Отделение лингвистики, Университет Колорадо, Боулдер разработали его. Мы можем использовать термин PropBank как обычное существительное, относящееся к любому корпусу, который аннотирован предложениями и их аргументами.

В области обработки естественного языка (NLP) проект PropBank сыграл очень важную роль. Это помогает в семантической ролевой маркировке.

VerbNet (VN),

VerbNet (VN) – это иерархический независимый от домена и самый большой лексический ресурс, представленный на английском языке, который включает как семантическую, так и синтаксическую информацию о его содержимом. VN – это глагол широкого охвата, имеющий сопоставления с другими лексическими ресурсами, такими как WordNet, Xtag и FrameNet. Он организован в классы глаголов, расширяющие классы Левина путем уточнения и добавления подклассов для достижения синтаксической и семантической согласованности среди членов класса.

Каждый класс VerbNet (VN) содержит –

Набор синтаксических описаний или синтаксических фреймов

Для изображения возможных поверхностных реализаций структуры аргумента для таких конструкций, как транзитивные, непереходные, пропозициональные фразы, результативные и большой набор чередований диатезов.

Набор семантических описаний, таких как анимация, человек, организация

Для ограничения, типы тематических ролей, разрешенных аргументами, и дополнительные ограничения могут быть наложены. Это поможет в указании синтаксической природы компонента, который может быть связан с тематической ролью.

WordNet

WordNet, созданный Princeton, представляет собой лексическую базу данных для английского языка. Это часть корпуса НЛТК. В WordNet существительные, глаголы, прилагательные и наречия группируются в наборы когнитивных синонимов, называемых Синсетами . Все синтаксисы связаны с помощью концептуально-семантических и лексических отношений. Его структура делает его очень полезным для обработки естественного языка (НЛП).

В информационных системах WordNet используется для различных целей, таких как устранение неоднозначности слов, поиск информации, автоматическая классификация текста и машинный перевод. Одним из наиболее важных применений WordNet является выявление сходства между словами. Для этой задачи в различных пакетах были реализованы различные алгоритмы, такие как Similarity в Perl, NLTK в Python и ADW в Java.