AI - обработка естественного языка

Обработка естественного языка (NLP) относится к методу искусственного интеллекта для связи с интеллектуальными системами с использованием естественного языка, такого как английский.

Обработка естественного языка требуется, когда вы хотите, чтобы интеллектуальная система, такая как робот, работала в соответствии с вашими инструкциями, когда вы хотите услышать решение из диалоговой системы клинических экспертов и т. Д.

Область НЛП включает в себя создание компьютеров для выполнения полезных задач с использованием естественных языков, которые люди используют. Вход и выход системы НЛП может быть:

  • речь
  • Письменный текст

Компоненты НЛП

Есть два компонента НЛП как дано -

Понимание естественного языка (НЛУ)

Понимание включает в себя следующие задачи -

  • Отображение данного ввода на естественном языке в полезные представления.
  • Анализируя различные аспекты языка.

Поколение естественного языка (NLG)

Это процесс производства значимых фраз и предложений в форме естественного языка из некоторого внутреннего представления.

Это включает в себя -

  • Планирование текста - включает в себя получение соответствующего контента из базы знаний.

  • Планирование предложения - включает в себя выбор необходимых слов, формирование значимых фраз, настройку тона предложения.

  • Реализация текста - это отображение плана предложения в структуру предложения.

НЛУ сложнее, чем НЛГ.

Трудности в НЛУ

NL имеет чрезвычайно богатую форму и структуру.

Это очень неоднозначно. Там могут быть разные уровни неоднозначности -

  • Лексическая неоднозначность - это на очень примитивном уровне, например на уровне слов.

  • Например, трактует ли слово «доска» как существительное или глагол?

  • Неоднозначность синтаксического уровня - предложение может быть проанализировано по-разному.

  • Например, «Он поднял жука с красной шапочкой». - Он использовал шапку, чтобы поднять жука, или он поднял жука с красной шапочкой?

  • Ссылочная двусмысленность - Ссылка на что-то с использованием местоимений. Например, Римма отправилась в Гаури. Она сказала: «Я устала». Кто конкретно устал?

  • Один вход может означать разные значения.

  • Многие входы могут означать одно и то же.

НЛП Терминология

  • Фонология - это систематическое изучение звука.

  • Морфология - это изучение построения слов из примитивных значимых единиц.

  • Морфема - это примитивная единица значения в языке.

  • Синтаксис - это относится к расположению слов, чтобы сделать предложение. Это также включает определение структурной роли слов в предложении и во фразе.

  • Семантика - это касается значения слов и того, как объединить слова в значимые фразы и предложения.

  • Прагматика - это касается использования и понимания предложений в различных ситуациях и того, как это влияет на интерпретацию предложения.

  • Дискурс. Он касается того, как непосредственно предшествующее предложение может повлиять на толкование следующего предложения.

  • Мир знаний - включает в себя общие знания о мире.

Шаги в НЛП

Есть пять основных шагов -

  • Лексический анализ - включает в себя определение и анализ структуры слов. Лексика языка означает совокупность слов и фраз на языке. Лексический анализ делит весь текст на параграфы, предложения и слова.

  • Синтаксический анализ (синтаксический анализ) - включает в себя анализ слов в предложении для грамматики и упорядочение слов таким образом, чтобы показать связь между словами. Предложение типа «Школа идет мальчику» отвергается английским синтаксическим анализатором.

НЛП Шаги
  • Семантический анализ - он черпает точное значение словарного значения из текста. Текст проверен на осмысленность. Это делается путем отображения синтаксических структур и объектов в области задач. Семантический анализатор игнорирует такие предложения, как «горячее мороженое».

  • Интеграция в дискурс . Значение любого предложения зависит от значения предложения непосредственно перед ним. Кроме того, это также приводит к значению сразу следующего предложения.

  • Прагматический анализ - во время этого сказанное переосмысливается на самом деле. Это включает в себя получение тех аспектов языка, которые требуют знания реального мира.

Аспекты реализации синтаксического анализа

Исследователи разработали ряд алгоритмов синтаксического анализа, но мы рассмотрим только следующие простые методы:

  • Контекстная грамматика
  • Парсер сверху вниз

Давайте посмотрим на них подробно -

Контекстная грамматика

Это грамматика, которая состоит из правил с одним символом в левой части правил перезаписи. Давайте создадим грамматику для разбора предложения -

«Птица клюет зерна»

Статьи (DET) - a | |

Существительные - птица | птицы | зерно | зерна

Фраза Существительное (NP) - Статья + Существительное | Статья + Прилагательное + Существительное

= DET N | DET ADJ N

Глаголы - клевки | клевать | клевать

Глагольная фраза (VP) - NP V | V NP

Прилагательные (ADJ) - красивые | маленький | стрекотание

Дерево разбора разбивает предложение на структурированные части, чтобы компьютер мог легко понять и обработать его. Чтобы алгоритм синтаксического анализа мог построить это дерево синтаксического анализа, необходимо создать набор правил перезаписи, которые описывают, какие древовидные структуры являются допустимыми.

Эти правила говорят, что определенный символ может быть расширен в дереве последовательностью других символов. Согласно правилу логики первого порядка, если есть две строки Noun Phrase (NP) и Verb Phrase (VP), то строка, объединенная NP, за которой следует VP, является предложением. Правила переписывания предложения следующие:

S → НП ВП

NP → DET N | DET ADJ N

VP → V NP

Lexocon -

DET → a |

ADJ → красивая | усаживаться

N → птица | птицы | зерно | зерна

V → клевать | клюет | клевание

Дерево разбора может быть создано как показано -

НЛП Шаги

Теперь рассмотрим приведенные выше правила переписывания. Поскольку V может быть заменено как «клюет» или «клюет», предложения, такие как «Птица клюют зерна», могут быть ошибочно допущены. то есть ошибка соглашения предметного глагола подтверждается как правильная.

Заслуга - самый простой стиль грамматики, поэтому широко используется.

Недостатки -

  • Они не очень точны. Например, «Зерна клюют птицу», синтаксически правильно, согласно парсеру, но даже если это не имеет смысла, парсер принимает это как правильное предложение.

  • Чтобы добиться высокой точности, необходимо подготовить несколько наборов грамматики. Это может потребовать совершенно разных наборов правил для разбора вариаций единственного и множественного числа, пассивных предложений и т. Д., Что может привести к созданию огромного набора правил, которые неуправляемы.

Парсер сверху вниз

Здесь синтаксический анализатор начинается с символа S и пытается переписать его в последовательность терминальных символов, которая соответствует классам слов во входном предложении, пока он полностью не состоит из терминальных символов.

Затем они проверяются с помощью входного предложения, чтобы увидеть, соответствует ли оно. Если нет, процесс начинается заново с другим набором правил. Это повторяется до тех пор, пока не будет найдено конкретное правило, которое описывает структуру предложения.

Заслуга - это просто реализовать.

Недостатки -

  • Это неэффективно, так как процесс поиска должен повторяться в случае возникновения ошибки.
  • Медленная скорость работы.