Учебники

1) НЛП

Что такое обработка естественного языка?

Natural Language Processing (NLP) — это ветвь ИИ, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком.

НЛП помогает разработчикам организовывать и структурировать знания для выполнения таких задач, как перевод, суммирование, распознавание именованных объектов, извлечение отношений, распознавание речи, сегментация тем и т. Д.

НЛП — это способ компьютеров анализировать, понимать и получать значение от таких человеческих языков, как английский, испанский, хинди и т. Д.

В этом уроке по nlp вы узнаете:

История НЛП

Вот важные события в истории обработки естественного языка:

1950 — НЛП началась, когда Алан Тьюринг опубликовал статью под названием «Машина и интеллект».

1950 — попытки автоматизировать перевод между русским и английским

1960- Работа Хомского и др. По теории формального языка и генеративному синтаксису

1990 — вероятностные и управляемые данными модели стали вполне стандартными

2000 — большое количество устных и текстовых данных становятся доступными

Как работает НЛП?

Прежде чем мы узнаем, как работает НЛП, давайте разберемся, как люди используют язык-

Каждый день мы говорим тысячи слов, которые другие люди интерпретируют, чтобы делать бесчисленные вещи. Мы считаем это простым общением, но все мы знаем, что слова намного глубже этого. Всегда есть некоторый контекст, который мы получаем из того, что мы говорим и как мы это говорим. НЛП никогда не фокусируется на голосовой модуляции; он опирается на контекстные шаблоны.

Пример:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Здесь мы можем легко общаться, потому что мужчина — это мужской пол, а женщина — женский пол. Точно так же король — это мужской род, а его женский пол — это королева.

Пример:

Is King to kings as the queen is to_______?
The answer is--- queens 

Здесь мы можем видеть два слова короли и короли, где одно единственное число, а другое во множественном числе. Поэтому, когда приходит мировая королева, она автоматически связывается с королевами снова во множественном числе.

Здесь самый большой вопрос: как мы узнаем, что означают слова? Давайте скажем, кто назовет это королевой?

Ответ в том, что мы узнаем, что мыслят через опыт. Однако здесь главный вопрос в том, как компьютер узнал об этом?

We need to provide enough data for Machines to learn through experience. We can feed details like

  • Her Majesty the Queen.
  • The Queen’s speech during the State visit
  • The crown of Queen Elizabeth
  • The Queens’s Mother
  • The queen is generous.

With above examples the machine understands the entity Queen.

The machine creates word vectors as below. A word vector is built using surrounding words.

The machine creates these vectors

  • As it learns from multiple datasets
  • Use Machine learning (e.g., Deep Learning algorithms)
  • A word vector is built using surrounding words.

Here is the formula:

Meaning (king) – meaning (man) + meaning (woman)=?

This amounts to performing simple algebraic operations on word vectors:

Vector ( king) – vector (man) + vector (woman)= vector(?)

To which the machine answers queen.

Components of NLP

Пять основных компонентов обработки естественного языка:

  • Морфологический и лексический анализ
  • Синтаксический анализ
  • Семантический анализ
  • Интеграция дискурса
  • Прагматический анализ

Морфологический и лексический анализ

Лексический анализ — это словарный запас, который включает в себя слова и выражения. Он изображает анализ, определение и описание структуры слов. Включает разделение текста на абзацы, слова и предложения

Отдельные слова анализируются по их компонентам, а неслова, такие как знаки препинания, отделяются от слов.

Семантический анализ

Семантический анализ — это структура, созданная синтаксическим анализатором, который присваивает значения. Этот компонент переводит линейные последовательности слов в структуры. Это показывает, как слова связаны друг с другом.

Семантика фокусируется только на буквальном значении слов, фраз и предложений. Это только абстрагирует значение словаря или реальное значение из данного контекста. Структуры, назначенные синтаксическим анализатором, всегда имеют назначенное значение

Например. «Бесцветная зеленая идея». Это будет отклонено анализом Symantec как бесцветный; зеленый не имеет никакого смысла.

Прагматический анализ

Прагматический анализ имеет дело с общим коммуникативным и социальным содержанием и его влиянием на интерпретацию. Это означает абстрагирование или вывод значимого использования языка в ситуациях. В этом анализе основное внимание всегда уделяется тому, что было сказано, в новой интерпретации того, что имеется в виду.

Прагматический анализ помогает пользователям обнаружить этот предполагаемый эффект, применяя набор правил, которые характеризуют совместные диалоги.

Например, «закрыть окно?» следует интерпретировать как запрос, а не заказ.

Синтаксический анализ

Слова обычно принимаются как самые маленькие единицы синтаксиса. Синтаксис относится к принципам и правилам, которые регулируют структуру предложений любых отдельных языков.

Синтаксис фокусируется на правильном порядке слов, которые могут повлиять на его значение. Это включает анализ слов в предложении, следуя грамматической структуре предложения. Слова преобразуются в структуру, чтобы показать, как слова связаны друг с другом.

Интеграция дискурса

Это означает чувство контекста. Значение любого отдельного предложения, которое зависит от этих предложений. Также учитывается значение следующего предложения.

Например, слово «что» в предложении «Он хотел этого» зависит от предшествующего контекста дискурса.

НЛП и письменные системы

Тип системы письма, используемый для языка, является одним из решающих факторов при определении наилучшего подхода к предварительной обработке текста. Письменные системы могут быть

  1. Логография: большое количество отдельных символов представляют слова. Пример японский, мандарин
  2. Силлабический: отдельные символы представляют слоги
  3. Алфавитный: отдельные символы представляют звук

Большинство письменных систем используют Syllabic или Alphabetic. Даже английский язык с его относительно простой системой письма, основанной на латинском алфавите, использует логографические символы, которые включают арабские цифры, символы валюты (S, £) и другие специальные символы.

Эта поза следующие проблемы

  • Извлечение значения (семантики) из текста является проблемой
  • НЛП зависит от качества корпуса. Если домен обширный, сложно понять контекст.
  • Существует зависимость от набора символов и языка

Как реализовать НЛП

Ниже приведены популярные методы, используемые для естественного процесса обучения:

Машинное обучение: процедуры обучения NLP, используемые во время машинного обучения. Он автоматически фокусируется на самых распространенных случаях. Поэтому, когда мы пишем правила вручную, это часто не совсем правильно, когда речь идет о человеческих ошибках.

Статистический вывод: НЛП может использовать алгоритмы статистического вывода. Это помогает вам создавать надежные модели. например, содержащие слова или структуры, которые известны каждому.

Примеры НЛП

Сегодня технология обучения естественным процессам широко используется.

Вот обычное приложение НЛП:

Поиск информации и веб-поиск

Google, Yahoo, Bing и другие поисковые системы основывают свои технологии машинного перевода на моделях глубокого обучения NLP. Это позволяет алгоритмам читать текст на веб-странице, интерпретировать его значение и переводить на другой язык.

Грамматическая коррекция:

Техника НЛП широко используется программным обеспечением для обработки текстов, таким как MS-word, для исправления орфографии и проверки грамматики.

Ответ на вопрос

Введите ключевые слова, чтобы задать вопросы на естественном языке.

Суммирование текста

Процесс обобщения важной информации из источника для создания сокращенной версии

Машинный перевод

Использование компьютерных приложений для перевода текста или речи с одного естественного языка на другой.

Анализ настроений

НЛП помогает компаниям анализировать большое количество отзывов о товаре. Это также позволяет их клиентам дать обзор конкретного продукта.

Будущее НЛП

  • Обработка понятного человеку естественного языка — самая большая проблема. Это все равно, что решить центральную проблему искусственного интеллекта и сделать компьютеры такими же умными, как люди.
  • Будущие компьютеры или машины с помощью НЛП смогут извлекать уроки из информации в Интернете и применять ее в реальных условиях, однако в этом отношении необходимо проделать большую работу.
  • Языковой инструментарий Naturla или NLTK становятся более эффективными
  • В сочетании с генерацией естественного языка компьютеры станут более способными получать и предоставлять полезную и полезную информацию или данные.

Естественный язык против компьютерного языка

параметр Естественный язык Компьютерные языки
двусмысленный Они неоднозначны по своей природе. Они предназначены для однозначного.
избыточность На естественных языках много избыточности. Формальные языки менее избыточны.
буквальность Естественные языки сделаны из идиомы и метафоры Формальные языки означают именно то, что они хотят сказать

Преимущества НЛП

  • Пользователи могут задавать вопросы по любому вопросу и получить прямой ответ в течение нескольких секунд.
  • Система НЛП дает ответы на вопросы на естественном языке
  • Система НЛП предлагает точные ответы на вопросы, никакой ненужной или нежелательной информации
  • Точность ответов увеличивается с количеством соответствующей информации, представленной в вопросе.
  • Процесс НЛП помогает компьютерам общаться с людьми на их языке и масштабировать другие языковые задачи
  • Позволяет выполнять больше языковых данных, сравнивая их с человеком без усталости и непредвзято и последовательно.
  • Структурирование крайне неструктурированного источника данных

Недостатки НЛП

  • Сложный язык запросов — система может не дать правильного ответа на вопрос, который сформулирован плохо или неоднозначно.
  • Система построена только для одной и конкретной задачи; он не может адаптироваться к новым доменам и проблемам из-за ограниченных функций.
  • Система НЛП не имеет пользовательского интерфейса, в котором отсутствуют функции, позволяющие пользователям дальше взаимодействовать с системой

Резюме

  • Обработка естественного языка — это отрасль ИИ, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком.
  • НЛП началась, когда Алан Тьюринг опубликовал статью под названием «Машина и интеллект».
  • НЛП никогда не фокусируется на голосовой модуляции; это опирается на контекстные шаблоны
  • Пять основных компонентов обработки естественного языка: 1) морфологический и лексический анализ 2) синтаксический анализ 3) семантический анализ 4) интеграция дискурса 5) прагматический анализ
  • Три типа системы записи естественного процесса: 1) логографическая 2) силлабическая 3) алфавитная
  • Машинное обучение и статистический вывод — два метода реализации естественного процесса обучения
  • Основными областями применения НЛП являются поиск информации и веб-поиск, ответы на вопросы по исправлению грамматики, суммирование текста, машинный перевод и т. Д.
  • Будущие компьютеры или машины с помощью НЛП и Data Science смогут извлечь уроки из информации в Интернете и применить ее в реальном мире, однако в этом отношении необходимо проделать большую работу.
  • НЛП неоднозначны, в то время как язык с открытым исходным кодом разработан для однозначного
  • Самым большим преимуществом системы НЛП является то, что она предлагает точные ответы на вопросы, никакой ненужной или нежелательной информации
  • Самый большой недостаток системы НЛП предназначен только для одной конкретной задачи, поэтому он не может адаптироваться к новым доменам и проблемам из-за ограниченных функций.