Мы понимаем, что слова имеют разные значения в зависимости от контекста их использования в предложении. Если мы говорим о человеческих языках, то они также неоднозначны, потому что многие слова могут интерпретироваться различными способами в зависимости от контекста их возникновения.
Устранение неоднозначности смысла слова в обработке естественного языка (NLP) может быть определено как способность определять, какое значение слова активируется при использовании слова в определенном контексте. Лексическая неоднозначность, синтаксическая или семантическая, является одной из самых первых проблем, с которыми сталкивается любая система НЛП. Тэгеры части речи (POS) с высоким уровнем точности могут решить синтаксическую неоднозначность Word. С другой стороны, проблема разрешения семантической неоднозначности называется WSD (неоднозначность смысла слова). Разрешить семантическую неоднозначность сложнее, чем разрешить синтаксическую двусмысленность.
Например, рассмотрим два примера особого смысла, которые существуют для слова «бас» —
-
Я слышу звук баса.
-
Он любит есть на гриле бас.
Я слышу звук баса.
Он любит есть на гриле бас.
Появление слова « бас» явно обозначает четкое значение. В первом предложении это означает частоту, а во втором — рыба . Следовательно, если это будет устранено неоднозначностью WSD, то правильное значение для вышеупомянутых предложений может быть назначено следующим образом:
-
Я слышу бас / частоту звука.
-
Он любит есть на гриле окунь / рыбу.
Я слышу бас / частоту звука.
Он любит есть на гриле окунь / рыбу.
Оценка WSD
Оценка WSD требует следующих двух входов —
Словарь
Самым первым входом для оценки WSD является словарь, который используется для определения чувств, которые необходимо устранить.
Тестовый корпус
Другой вход, требуемый WSD, — это аннотированный тестовый корпус, имеющий целевой или правильный смысл. Тестовые корпуса могут быть двух типов & minsu;
-
Лексический образец — этот вид корпусов используется в системе, где требуется устранить неоднозначность небольшой выборки слов.
-
Все слова — этот тип корпусов используется в системе, где предполагается, что все слова будут неоднозначными в бегущем тексте.
Лексический образец — этот вид корпусов используется в системе, где требуется устранить неоднозначность небольшой выборки слов.
Все слова — этот тип корпусов используется в системе, где предполагается, что все слова будут неоднозначными в бегущем тексте.
Подходы и методы устранения неоднозначности в смысле слова (WSD)
Подходы и методы к WSD классифицируются в соответствии с источником знаний, используемых в устранении неоднозначности слов.
Давайте теперь посмотрим на четыре традиционных метода WSD —
Методы на основе словаря или знаний
Как следует из названия, для устранения неоднозначности эти методы в первую очередь опираются на словари, сокровища и лексическую базу знаний. Они не используют телесные доказательства для устранения неоднозначности. Метод Lesk — это основанный на словаре метод, основанный на словарях в 1986 году. В основу определения Lesk, лежащего в основе алгоритма Lesk, входит «измерение перекрытия между определениями смыслов для всех слов в контексте» . Однако в 2000 году Килгаррифф и Розенцвейг дали упрощенное определение Леска как «измерение совпадения между определениями смысла слова и текущим контекстом» , что дополнительно означает определение правильного смысла для одного слова за раз. Здесь текущий контекст — это набор слов в окружающем предложении или абзаце.
Контролируемые методы
Для устранения неоднозначности, методы машинного обучения используют аннотированный корпус для обучения. Эти методы предполагают, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности смысла. В этих методах слова знание и рассуждение считаются ненужными. Контекст представлен в виде набора «свойств» слов. Он также включает в себя информацию об окружающих словах. Механизм опорных векторов и обучение на основе памяти являются наиболее успешными контролируемыми подходами к WSD. Эти методы основаны на значительном количестве корпусов, помеченных вручную, что очень дорого создавать.
Методы под наблюдением
Из-за отсутствия учебного корпуса в большинстве алгоритмов устранения неоднозначности смысла слова используются методы обучения с полууправляемым обучением. Это связано с тем, что в полууправляемых методах используются как помеченные, так и непомеченные данные. Эти методы требуют очень небольшого количества аннотированного текста и большого количества простого аннотированного текста. Техника, которая используется в методах полуобслуживания, является начальной загрузкой из начальных данных.
Неконтролируемые методы
Эти методы предполагают, что подобные чувства встречаются в сходном контексте. Вот почему чувства могут быть выведены из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста. Эта задача называется индукцией смысла слова или различением. Неконтролируемые методы имеют большой потенциал для преодоления узкого места приобретения знаний из-за отсутствия зависимости от ручных усилий.
Применение неоднозначности смысла слова (WSD)
Смысл словосочетания (WSD) применяется практически в каждом приложении языковой технологии.
Давайте теперь посмотрим на сферу WSD —
Машинный перевод
Машинный перевод или MT является наиболее очевидным применением WSD. В МТ лексический выбор слов, имеющих разные переводы для разных смыслов, осуществляется WSD. Чувства в МТ представляются в виде слов на целевом языке. Большинство систем машинного перевода не используют явный модуль WSD.
Информационный поиск (IR)
Поиск информации (IR) может быть определен как программное обеспечение, которое занимается организацией, хранением, поиском и оценкой информации из хранилищ документов, в частности текстовой информации. Система в основном помогает пользователям в поиске необходимой информации, но не дает явных ответов на вопросы. WSD используется для разрешения неоднозначностей запросов, предоставляемых IR-системе. Как и MT, современные IR-системы явно не используют модуль WSD, и они полагаются на концепцию, согласно которой пользователь будет набирать в запросе достаточно контекста, чтобы получать только соответствующие документы.
Добыча текста и извлечение информации (IE)
В большинстве приложений WSD необходим для точного анализа текста. Например, WSD помогает интеллектуальной системе сбора данных пометить правильные слова. Например, медицинской интеллектуальной системе может потребоваться пометка «незаконных наркотиков», а не «медицинских препаратов»
Лексикография
WSD и лексикография могут работать в цикле, потому что современная лексикография основана на корпусе. С помощью лексикографии WSD обеспечивает грубые эмпирические смысловые группировки, а также статистически значимые контекстные показатели смысла.
Трудности в устранении неоднозначности смысла слова (WSD)
Ниже приведены некоторые трудности, с которыми сталкиваются двусмысленности в смысле слова (WSD) —
Различия между словарями
Основная проблема WSD состоит в том, чтобы определить смысл слова, потому что разные чувства могут быть очень тесно связаны. Даже разные словари и тезаурусы могут обеспечить разное деление слов на смыслы.
Разные алгоритмы для разных приложений
Другая проблема WSD заключается в том, что для разных приложений может потребоваться совершенно другой алгоритм. Например, в машинном переводе это принимает форму выбора целевого слова; и при поиске информации инвентаризация смысла не требуется.
Расхождение между судьями
Другая проблема WSD состоит в том, что системы WSD, как правило, тестируются, сравнивая результаты своих задач с задачами людей. Это называется проблемой межсудовой дисперсии.
Слово-смысловая дискретность
Другая трудность в WSD состоит в том, что слова не могут быть легко разделены на отдельные значения.