Статьи

Обращение проституток к папе: текстовая аналитика НЛП для поиска

Вот кое-что, чем я хотел поделиться некоторое время. Первоначально контент был написан в виде примечаний в дополнение к моему уроку по NLP + IR , но я подумал, что было бы полезно пригласить более широкую аудиторию. В какой-то момент я обновлю его, добавив в него раздел «Анализ настроений» (а кто нет?) А пока, я надеюсь, вы найдете его полезным — не стесняйтесь предлагать дополнения или улучшения здесь или в автономном режиме.

1. Введение

Область текстовой аналитики насыщена жаргоном и аббревиатурами, поэтому, прежде чем мы продолжим, давайте уточним несколько терминов.

Анализ текста описывает набор лингвистических, аналитических и прогностических методов, с помощью которых структура и значение могут быть автоматически извлечены из неструктурированных документов. Анализ текста (TA) предоставляет возможность кластеризовать, классифицировать и классифицировать неструктурированные данные, поддерживая как интерактивное исследование, так и автоматическую обработку документов. Таким образом, процессы TA могут использоваться для повышения точности поисковых систем и для преобразования опыта пользователя поиска путем улучшения представления результатов и облегчения интерактивной навигации и исследования.

Термин « добыча текста» имеет историю, по крайней мере, десятилетие или более и хорошо понятен практиками и исследовательскими сообществами. Термин « анализ текста », возможно, имеет немного более короткую историю, чем анализ текста, но быстро растет в популярности как метка для применения методов НЛП в практических, коммерчески ориентированных контекстах.

Некоторые авторы рассматривают ТМ и ТП как синонимы, но это упускает тонкое, но важное различие: ТМ берет свое начало в автоматизированной автономной обработке, характеризуемой «данными в» и «структурой вне». В первую очередь это связано с выявлением и выводом совокупных шаблонов и представлений о коллекциях документов. В отличие от этого, TA является более общим термином, который часто ассоциируется с интерактивными аналитическими приложениями и фокусируется на анализе отдельных документов.

1.1 Проблема текстовой аналитики

На первый взгляд, проблема, которую ТА пытается решить, кажется тривиальной. В конце концов, как люди, мы без усилий создаем и интерпретируем как устную, так и письменную речь, и редко приходится применять сознательное мышление к процессу. Но это во многих отношениях является частью проблемы: если история искусственного интеллекта учит нас чему-либо, то это то, что так много способностей, которыми мы обладаем как люди, не открыты для самоанализа и поэтому общеизвестно трудны для анализа и кодирования алгоритмически , Но это не значит, что задача менее сложная: далеко не так. Естественный язык изобилует двусмысленностью, и только потому, что мы развили высоко распараллеленные лингвистические процессы, которые работают на нескольких уровнях, мы можем понять его вообще.

Рассмотрим следующие газетные заголовки, которые кажутся оригинальному автору однозначными:

  • Пьяный получает девять лет в случае скрипки
  • ПРОСТИТУТЫ ОБРАЩАЮТСЯ К ПАПЕ
  • Украденная живопись, найденная деревом
  • Красная лента удерживает новый мост
  • Олень убивает 300 000
  • РЕЗИДЕНТЫ МОГУТ БЫТЬ ОТКЛЮЧЕНЫ
  • ВКЛЮЧАЙТЕ ДЕТЕЙ, ПРИ ПЕЧЕНИИ ПЕЧЕНЬЯ
  • Шахтеры отказываются работать после смерти

Хотя они и юмористичны, они иллюстрируют большую часть неоднозначности в естественном языке и то, насколько прагматические и лингвистические знания должны использоваться инструментами НЛП для правильного функционирования.

1.2 Возможности текстовой аналитики

Было подсчитано, что до 80% всей потенциально полезной бизнес-информации происходит в неструктурированной форме , например:

  • Электронная почта, новости и статьи в блогах; публикации на форуме; и другие социальные сети;
  • Заметки и стенограммы контакт-центра;
  • Опросы, формы обратной связи и гарантийные претензии;
  • Различные виды корпоративных документов и др.

Более того, скорость, с которой растут мировые хранилища цифровых данных, создает еще одну проблему: по данным International Data Corporation, в 2006 году мир произвел 161 миллиард гигабайт цифровой информации и, как ожидается, к 2010 году вырастет примерно до 988 эксабайт (Ingersoll & Morton). 2009). И даже если большая часть этой даты представлена ​​в форме аудио, видео, изображений и т. Д., Наши нынешние подходы к обеспечению возможности поиска этих данных по-прежнему связаны с предоставлением ручных сводок, подписей и тегов ключевых слов. Другими словами, мы производим еще больше текста, который необходимо проанализировать и обработать.

В дополнение к росту социальных сетей мы видим все больше сайтов электронной коммерции, использующих пользовательский контент в форме обзоров продуктов и мнений для поддержки процесса покупки и стимулирования роста продаж. Чтобы максимизировать ценность этого контента, эти организации также должны использовать аналитические инструменты, чтобы сделать его доступным для поиска и навигации.

2. Основы

В приведенном выше разделе мы упоминали о высокой степени параллелизации характера обработки человеческого языка, а также о том, что понимание языка требует применения лингвистических и прагматических знаний на нескольких уровнях. Аналитика текста ничем не отличается — все, кроме самых тривиальных систем, применяют лингвистический анализ на нескольких уровнях, часто каскадным образом, где выходные данные простых процессов более низкого уровня переходят в более сложные, более высокого уровня. В этом разделе мы рассмотрим основные приемы.

2.1 Базовая обработка: лексический и синтаксический анализ

На самом базовом уровне рассматривается обработка кодировок символов, таких как ASCII, UNICODE, UTF-8 и так далее. Хотя традиционно это не считается активной областью для исследований НЛП, эти процессы, тем не менее, оказывают непосредственное влияние на представление регистра (верхний и нижний), пунктуацию, ударения и т. Д., Которые, в свою очередь, имеют значение на лексическом уровне (см. Ниже). ).

На уровне выше символов мы имеем дело с терминами и их вариантами, то есть словами, аббревиатурами, сокращениями, соединениями и так далее. На этом уровне, известном как лексический анализ , мы имеем дело с токенизацией , то есть распознаванием границ слов. Этот процесс относительно прост для языков, которые используют пробелы в качестве разделителя, таких как английский, но сложнее для языков, таких как китайский и японский. На лексическом уровне мы также имеем дело с морфологией , то есть процессом, посредством которого формируются слова. Морфологический анализ позволяет нам идентифицировать инфлективные варианты, такие как «беги» и «беги», которые являются настоящим и прошедшим временами общего ствола. Кроме того, мы также можем применить деривационную морфологию признать, что «бегущий» — это еще один вариант «беги» и «беги», хотя и в другой синтаксической категории (т.е. в данном случае существительное).

Обратите внимание, что можно написать достаточно точный автоматический родословный для английского языка, который сопоставит наборы связанных терминов с общим корнем. Популярным примером одного такого инструмента является стеммер Портер .

Наконец, мы используем результаты этих процессов для выполнения синтаксического анализа , то есть интерпретации грамматической структуры фрагмента текста. Популярным примером роли грамматики в английском языке является рассмотрение фраз «венецианский слепой» и «слепой венецианский» — они содержат общие слова, но имеют совершенно другое значение. Самой элементарной формой синтаксического анализа является применение тегера части речи (PoS) , который прикрепляет тег к каждому слову, чтобы указать, используется ли он как существительное, глагол, прилагательное, определитель и т. Д. Набор тегов, используемых конкретным PoS-тэгером, может использоваться для выделения определенных грамматических различий. Например, набор тегов Penn Treebank (Маркус и др., 1993), который обычно используется тегами PoS, имеет четыре отдельных тега для существительного:

  • NN (единственное существительное или массовое существительное)
  • NNP (существительное единственного числа)
  • NNS (множественное число нарицательное)
  • NNPS (существительное во множественном числе)

Часть речевого тегирования была исследована с 1950-х годов (Voutilainen 2003), и в настоящее время легко доступны несколько систем мечения. Эти системы используют ряд различных стратегий, включая рукописные правила (Karlsson 1990), скрытые марковские модели (Cutting et al . 1992) и n-граммы, извлеченные из текста, снабженного аннотацией части речевой информации (Church 1998).

Вокруг синтаксического уровня работают различные другие аналитические процессы, такие как:

  • Обнаружение границы предложения , которое звучит тривиально, но обманчиво сложно. Общедоступный разделитель предложений доступен из CPAN
  • Обнаружение фраз , то есть распознавание имен существительных и других синтаксических соединений.
  • Обобщение , т. Е. Возможность создания абстрактного или тематического резюме из произвольного текстового документа. Это звучит сложно, но становится намного более восприимчивым к полуструктурированному тексту, такому как контент HTML. Общедоступный сумматор для текста HTML доступен в CPAN
  • Разбор , то есть анализ последовательности токенов для определения их синтаксической структуры по отношению к конкретной грамматике. На практике это часто означает анализ текста с тегами PoS для идентификации субъекта — глагола-объекта и других отношений для получения лингвистического анализа более высокого уровня в тексте.

2.2 Признание именованного субъекта

Распознавание именованных объектов (NER) — это процесс, с помощью которого ключевые понятия, такие как имена людей,

места и организации определены в документе. Некоторые коммерчески доступные системы также включают в себя возможность идентификации других типов объектов, таких как почтовые индексы, номера телефонов и так далее. Кроме того, некоторые системы были созданы для выявления более эзотерических элементов, таких как названия белков. NER лучше всего иллюстрируется на примере, таком как следующий отрывок из новостной статьи:

«Мексика пытается провести восстановление с начала этого года, и она всегда опережала себя в плане основ», — сказал Мэтью Хикман из Lehman Brothers в Нью-Йорке ».

Именованные сущности, которые мы могли бы извлечь из этого предложения:

Persons:          Matthew Hickman
Organisations:    Lehman Brothers
Cities:           New York
Countries:        Mexico

Точная идентификация таких объектов дает ряд преимуществ. Во-первых, идентифицируя такие концепции в документе, можно индексировать документы на более детальном уровне, что, в свою очередь, позволяет осуществлять более точный поиск. Например, слово «Буш» может относиться либо к заводу, либо к экс-президенту США. Различая такие слова (известные как омонимы ), мы можем максимизировать точность поиска , т.е. вероятность того, что лица, ищущие информацию, получат только те документы, которые имеют отношение к их запросу.

Во-вторых, идентифицируя имена в документе, мы можем предоставить ссылки на другие связанные ресурсы. Некоторые поставщики контента уже используют эту технику, чтобы выделить имена ключевых людей, упомянутых в новостях, и предоставить ссылки на их биографии. Точно так же можно создавать более точные фильтры на основе этих именованных объектов, что позволяет персонализировать доставку контента отдельным пользователям. Например, служба новостей может предоставить подробную информацию о предстоящих событиях в «Нью-Йорке», а не «новых» событиях в городе «Йорк».

В-третьих, вывод NER добавляет ценную структуру к документу и, таким образом, облегчает последующее

преобразования после обработки, такие как машинный перевод (например, перевод документов с одного естественного языка на другой) или вывод текста в речь (например, предоставление устных версий котировок акций для доступа по телефону).

2.3 Извлечение информации

Извлечение информации — это процесс, при котором структурированная информация автоматически извлекается из неструктурированных документов. Примеры типов информации, которые могут быть извлечены, включают перемещения руководителей компаний, жертв террористических атак, информацию о слияниях и поглощениях и взаимодействиях между генами и белками в научных статьях. Когда соответствующая информация была идентифицирована, она затем сохраняется в высоко структурированном формате, известном как шаблон.

Конференции по пониманию сообщений (MUC) (Grishman и Sundheim 1996) были международной оценочной работой, в ходе которой системы извлечения информации были проверены друг против друга с использованием общих документов и систем оценки. На шестой конференции MUC перед участниками системы стояла задача выявить факты о перемещениях руководителей между компаниями. Следующий абзац показывает типичный пример, который описывает событие, в котором «Джон Дж. Дунер младший» становится председателем компании «МакКанн-Эриксон»:

«Теперь г-н Джеймс готовится плыть на закате, а г-н Дунер готов запустить двигатели, чтобы вести Макканн-Эриксон из Межпубличной группы в 21-й век. Вчера Макканн обнародовал то, что ожидалось: 57-летний Джеймс уходит в отставку с поста генерального директора 1 июля и покинет пост председателя в конце года. Его сменит 45-летний мистер Дунер.

Этот факт закодирован в следующей структуре шаблона:

<SUCCESSION EVENT-2> :=

SUCCESSION ORG:

<ORGANIZATION-1>

POST: "chairman"

IN AND OUT: <IN AND OUT-4>

VACANCY REASON: DEPART WORKFORCE

<IN AND OUT-4> :=

IO PERSON: <PERSON-1>

NEW STATUS: IN

ON THE JOB: NO

OTHER ORG: <ORGANIZATION-1>

REL OTHER ORG: SAME ORG

<ORGANIZATION-1> :=

ORG NAME: "McCann-Erickson"

ORG ALIAS: "McCann"

ORG TYPE: COMPANY

<PERSON-1> :=

PER NAME: "John J. Dooner Jr."

PER ALIAS: "John Dooner" "Dooner"

Эти структуры шаблона содержат большое количество информации, которая позволяет выполнять сложные запросы к извлеченным данным. Например, пользователь может запросить список всех событий, когда финансовый сотрудник покинул компанию, чтобы занять должность генерального директора в другой компании. После того как шаблоны были извлечены для набора документов, их можно использовать для заполнения базы знаний, полученной из корпуса, или использовать в качестве метаданных документа для повышения точности поиска.

Однако извлечение информации из всех, кроме самых простых документов, является несовершенным процессом. Одна из основных причин заключается в том, что описание события часто разбросано по нескольким предложениям или даже по отдельным абзацам. Например, рассмотрим следующую пару предложений, которая содержит информацию о событиях преемственности управления:

«Pace American Group Inc. заявила, что уведомила двух высших руководителей о своем намерении уволить, потому что внутреннее расследование выявило признаки« самообслуживания »и« нераскрытых финансовых отношений ». Руководителями являются Дон Х. Пейс, соучредитель, президент и главный исполнительный директор; и Грег С. Каплан, старший вице-президент и финансовый директор ».

Название организации и факт ухода двух руководителей содержатся в первом предложении. Имена двух конкретных руководителей и их должности перечислены во втором предложении, но в нем не упоминается тот факт, что руководители покидают эти должности. Следовательно, событие правопреемства может быть полностью понято только через комбинацию информации, содержащейся в обоих предложениях. Объединение такой информации в предложениях нетривиально, так как в приведенном выше примере необходимо определить фразы, которые относятся к общим сущностям, то есть «двум высшим руководителям» и «руководителям». Процесс, с помощью которого ссылки между экземплярами одного выражения и другого известен как разрешение анафоры .

Еще одной проблемой является распознавание случаев, когда на данный объект могут ссылаться различные поверхностные формы. Например, «International Business Machines Ltd» может называться аббревиатурой (IBM), псевдонимом («Big Blue») или контекстным анафорическим выражением, таким как «оно» или «компания». Подобные проблемы являются основными причинами, по которым оказалось трудно создать надежные системы извлечения информации. Оценки для задачи заполнения шаблона в оценках MUC обычно находились в диапазоне F-мер 50–60%, что в то время было недостаточно для большинства коммерческих применений.

Промежуточным процессом, который находится где-то между извлечением именованной сущности и полным заполнением шаблона, является извлечение отношений . Эта задача проще, чем полное заполнение шаблона, поскольку: (а) она направлена ​​на выявление только отношений между именованными объектами (которые считаются двоичными); и (б) рассматриваются только те отношения, которые встречаются в одном предложении. Эти упрощения означают, что задача более достижима, чем полное заполнение шаблона.

2.4 Смысл слова

В этом разделе мы рассмотрим некоторые проблемы, возникающие в результате полисемии : феномен, при котором данный термин может иметь разные значения или значения . Например, слово «летучая мышь» может означать «спортивный инвентарь» (как в «крикетной бите») или «ночное млекопитающее» (как в «фруктовой летучей мыши») и т. Д. Следовательно, если нам не предоставляют никакой дополнительной информации, оно невозможно сказать, относится ли запрос, содержащий слово «летучая мышь», к области спорта или животных. Это явление характерно для многих естественных языков и представляет собой серьезную проблему для точности поиска. Процесс, с помощью которого идентифицируются значения данного слова, известен как неоднозначность смысла слова (WSD).

Одним из основных факторов, определяющих смысл слова, является синтаксическая роль, то есть слова могут иметь различное значение в зависимости от их использования в качестве существительного, глагола, прилагательного и т. Д. Например, два из возможных значений «легкий» являются «не тяжелыми» (как в «Магний легкий металл» и «освещение» (как в «Свет на кухне довольно тусклый»). Первый смысл применяется только в том случае, если в качестве прилагательного используется «свет», а второй — только в качестве существительного. Следовательно, точная идентификация части слова в речи может быть ценным фактором, определяющим его значение.

Уилкс и Стивенсон (1998) показали, что двусмысленность смысла слова может быть эффективно выполнена с использованием части речевого тегера, когда рассматриваются только широкие различия между разными значениями слов. Например, эту технику можно использовать для различения смысла глагола «банк» (как в «плоскости резко накренились») и смысла существительного (как в «финансовом учреждении»), но нельзя различить более тесно связанные значения, такие как различные существительные значения, используемые в слове «машина врезалась в банк» или «банк дал мне хорошую ставку по ипотеке».

У НЛП долгая история исследований WSD, в течение которых изучалось большое разнообразие методов. Ранние подходы, такие как Wilks (1975) и Hirst (1987), применяли методы из искусственного интеллекта, которые основывались на источниках знаний ручной работы, содержащих подробную семантическую информацию. Однако эти подходы были ограничены тем фактом, что информация, на которую они опирались, должна была создаваться вручную. Крупные машиночитаемые лексические ресурсы, такие как WordNet , стали доступны в 1980-х годах и быстро использовались для WSD. Их преимущество заключается в предоставлении списка возможных значений для каждого слова и информации, которая может быть использована для определения правильного значения, такого как иерархия гиперных слов в WordNet.

Были некоторые разногласия по поводу полезности WSD для IR. Некоторые утверждают, что выгоды, которые могут быть получены от устранения неоднозначности, ограничены. Krovetz and Croft (1992; см. Также Krovetz 1997) вручную устраняли неоднозначность стандартного тестового корпуса и обнаружили, что совершенный механизм WSD улучшит производительность поиска только на 2%. Сандерсон (1994) выполнил аналогичные эксперименты, в которых двусмысленность была искусственно введена в набор тестов путем автоматического создания «псевдослов». Он обнаружил, что 20–30% ошибок в устранении неоднозначности приводят к извлечению текста, который находится на том же уровне или, возможно, хуже, чем если бы неопределенность оставалась нерешенной. Сандерсон также обнаружил, что запросы, содержащие менее пяти терминов, были менее чувствительны к ошибкам в устранении неоднозначности.Он пришел к выводу, что WSD был полезен только в том случае, если он был очень точным или запросы были короткими.

Другие продемонстрировали, что WSD можно использовать для улучшения характеристик ИК. Шутце и Педерсен (1995) показали, что устранение неоднозначности может существенно улучшить производительность поиска текста; демонстрируя улучшение от 7 до 14% в среднем. Jing и Tzoukermann (1999) также сообщили об улучшении эффективности поиска на 8,6%. Их алгоритм устранения неоднозначности вычисляет сходство смысла слова в локальном контексте запроса, сходство информации о лексическом происхождении в корпусе и морфологические отношения между словами.

2.5 Ответы на вопросы

В традиционной стандартной парадигме поиска информации пользователю предоставляется ранжированный список документов, по которым он должен искать, чтобы найти информацию, которую он ищет. Альтернативный подход к удовлетворению потребности пользователя в информации более целенаправленным образом заключается в предоставлении конкретных ответов на конкретные вопросы.

Исследования по ответам на вопросы имеют долгую историю (Green et al . 1961; Woods 1973) и были представлены в качестве задачи в оценках IR конференции по поиску текста (TREC) в 1999 году (Voorhees 1999). В рамках TREC ответ на вопрос можно рассматривать как специализацию стандартной проблемы поиска документов, в которой запросы выражаются в виде вопросов на естественном языке, и ожидается, что система идентифицирует часть документа, в которой можно найти ответ. Как и при поиске документов, ответы на вопросы часто выполняются в отношении четко определенного набора документов, которые могут соответствовать или не соответствовать потребностям пользователя в информации.

Вопросы могут быть заданы различными способами, которые должны быть направлены на автоматические системы ответа на вопросы. Примеры возможных форматов вопросов включают в себя:

  • Yes/no questions ‘Is George W. Bush the current president of the USA?’ ‘Is the Sea of Tranquillity deep?’
  • ‘Who’ questions ‘Who was the British Prime Minister before Margaret Thatcher?’ ‘When was the Battle of Hastings?’
  • List questions ‘Which football teams have won the Champions League this decade?’ ‘Which roads lead to Rome?’
  • Instruction-based questions ‘How do I cook lasagne?’ ‘What is the best way to build a bridge?’
  • Explanation questions ‘Why did World War I start?’ ‘How does a computer process floating point numbers?’
  • Commands ‘Tell me the height of the Eiffel Tower.’ ‘Name all the Kings of England.’

The standard method for tackling question answering is to approach the problem in three separate stages:

  1. question analysis
  2. document retrieval
  3. answer extraction

The aim of the first stage is to predict the type of answer expected (for example, the expected answer for ‘When was Mozart born?’ is a date) and create a query which can then be passed to an IR system. Since the questions are expressed in natural language it is not surprising that text analysis techniques have been found helpful for this stage. For example, Greenwood et al. (2002) parse the question to produce a logical representation from which the expected answer type can be extracted. The problem of generating a query from the question has not exploited TA techniques to the same extent although some approaches, for example synonym expansion (Harabagiu et al. 2000; Hovy et al. 2000), have been explored.

The second stage of processing passes the query to an IR engine with the aim of retrieving documents which contain the answer to the question. The final stage of processing, answer extraction, aims to extract the answer(s) from these documents, using the expected answer type information determined in the first stage. Various approaches have been applied to this problem and make use of a variety of TA techniques. Straightforward methods include simple regular expressions which match the text (Ravichandran and Hovy 2002; Soubbotin and Soubbotin 2001). More complex methods make use of deep linguistic processing. For example, Harabagiu et al. (2001) and Scott and Gaizauskas (2000) carry out detailed syntactic and semantic analysis of the retrieved documents which is then queried to identify specific answers to the question. Named entity recognition is often used to identify the items in the text which are of the same type as the expected answer and are therefore possible answers to the question.

The nature of the question answering task, which includes the interpretation of natural language questions and identification of specific concepts and structures within documents, makes the standard document retrieval approach inadequate: TA techniques are required to provide the extra linguistic analysis.

3. Evaluation

The most common approach to evaluation within text analytics is to compare machine output with human judgement. For example, part of speech taggers are normally evaluated by manually annotating a test corpus and then applying the tagger to the same data. Performance is then calculated by comparing the two sets of annotations. However, this process is often complicated by two factors: first, difficulties in obtaining consensus on the ‘correct’ manual annotation, and second, issues in determining exactly how annotations should be compared and scored.

The first challenge is caused by the fact that people often disagree on the correct annotation for a particular fragment of text – for example, they may interpret the same sentence differently. Various steps are taken to maximise consensus between the annotators, but agreement is rarely unanimous and as a result the maximal level of human agreement represents something of a ceiling on the performance of any automated process measured using this technique.

The second challenge is due to the complexity of analysis that is generated, since it can be difficult to determine how partial matches should be scored. For example, consider the sentence ‘Bill Gates is CEO of Microsoft’. If a NER system suggests ‘Gates’ is the name of a person (rather than ‘Bill Gates’) what credit, if any, should this, partially correct answer be assigned? Proposing ‘Gates’ as the name of a person, while not ideal, is certainly better than suggesting ‘Microsoft’ as a person.

Once the systems have been scored, the performance is typically measured in terms of precision and recall, where precision is defined as the number of number of entities correctly tagged divided by the total number of entities tagged, and recall is defined as the number of entities correctly tagged divided by the total number of entities which should have been tagged.

Attempts to maximize one measure will typically compromise the other (all other factors being equal), so in practice a suitable trade-off must be found. For this reason, these measures are rarely considered in isolation, and are instead usually combined into a single value, e.g. the F-measure (which is defined as the weighted harmonic mean of precision and recall).

There are significant differences between the typical performances of TA techniques. Part of speech tagging and named entity recognition can typically be performed with >90% accuracy on business news, while accuracy for the information extraction from biomedical documents is typically below 70%. TA applications often combine together several component technologies, for example part of speech tagging and named entity recognition. There are often dependencies between these components; for example the named entity recogniser may rely on output from the part of speech tagger. Inaccurate output from one component can propagate through to subsequent processes that rely on them.

However, it should be noted that measures such as precision and recall are fairly blunt instruments, and take no account of the user experience as a determinant of performance or success. For example, Elworthy et al. (2001) demonstrate the application of TA technology to the retrieval of captioned images, and in so doing also provide a novel method of results presentation and unique user experience that could not have been achieved without the use of text analytics. The value of such a capability cannot be expressed by measuring retrieval accuracy alone.

4. Conclusions

In this post we have outlined some of the fundamental techniques in text analytics and explored the ways in which they can be applied to search and information retrieval. In an upcoming post, we’ll complement this with a look at text analytics applied to social media, in particular sentiment analysis and opinion mining.

5. References

  1. E. Brill, “Transformation based error driven parsing”, In Proceedings of the Third International Workshop on Parsing Technologies, Tilburg, The Netherlands, 1993.Church, K. (1998) A Stochastic Parts Program and Noun Phrase Tagger for Unrestricted Text. Proceedings of the 2nd Conference on Applied Natural Language Processing, Austin TX, pp 136–143.
  2. Cutting, D., Kupiec, J., Pedersen, J. and Sibum, P. (1992) A Practical Part-of-Speech Tagger. Proceedings of the 3rd Conference on Applied Natural Language Processing.
  3. Elworthy, D., Rose, T. G., Clare, A. and Kotcheff, A. (2001) A Natural Language System for the Retrieval of Captioned Images. Journal of Natural Language Engineering, Cambridge University Press, 2001.
  4. Green, B., Wolf, A., Chomsky, C. and Laughery, K. (1961) BASEBALL: An Automatic Question Answerer. Proceedings of the Western Joint Computer Conference, 19 219–224.
  5. Greenwood, M., Roberts, I. and Gaizauskas, R. (2002) The University of Sheffield TREC 2002 Q&A System Proceedings of the 11th Text Retrieval Conference.
  6. Grishman, R. and Sundheim, B. (1996) Message Understanding Conference – 6: A Brief History. Proceedings of the 16th International Conference on Computational Linguistics (COLING-96) Copenhagen, Denmark, pp 466–470.
  7. Harabagiu, S., Moldovan, D., Pasca, M. Surdeanu, M., Bunescu, R., Girju, R., Rus, V. and Morarescu, P. (2000) FALCON: Boosting Knowledge for Answer Engines. Proceedings of the 9th Text Retrieval Conference.
  8. Hirst, G. (1987) Semantic Interpretation and the Resolution of Ambiguity Cambridge University Press, Cambridge, England.
  9. Hovy, E. Gerber, L., Hermjakob, U., Junk, M. and Lin, C. (2000) Question Answering in Webclopedia. Proceedings of the 9th Text Retrieval Conference.
  10. Ingersoll, G.S. and Morton, T.S. (2009) Taming Text. Manning Publications
  11. Jing, H. and Tzoukermann, E. (1999) Information retrieval based on context distance and morphology. Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99).
  12. Karlsson, F. (1990) Constraint Grammar as a Framework for Parsing English Running Text. Proceedings of the 13th International Conference on Computational Linguistics.Krovetz, R. (1997) Homonymy and Polysemy in Information Retrieval. Proceedings of the 35th Meeting of the Association for Computational Linguistics and the 8th Meeting of the European Chapter of the Association for Computational Linguistics (ACL/EACL-97).
  13. Krovetz, R. and Croft, B. (1992) Lexical ambiguity and information retrieval. ACM Transactions on Information Systems 10(2) 115–141.
  14. Marcus, M., Santorini, B. and Marcinkiewicz, M. (1993) Building a Large Annotated Corpus of English: The Penn Tree Bank. Computational Linguistics 19(2) 313–330.
  15. Ravichandran, D. and Hovy, E. (2002) Learning Surface Text Patterns for a Question Answering System. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp 41–47.
  16. Sanderson, M. (1994) Word sense disambiguation and information retrieval. Proceedings of the 17th ACM SIGIR Conference.
  17. Schutze, H. and Pedersen, J. (1995) Information Retrieval Based on Word Senses. In Symposium on Document Analysis and Information Retrieval (SDAIR), Las Vegas, NV, pp 161–175.
  18. Scott, S. and Gaizauskas, R. (2000) University of Sheffield TREC-9 Q & A System. Proceedings of the 9th Text Retrieval Conference.
  19. Soubbotin, M. and Soubbotin, S. (2001) Patterns of Potential Answer Expressions as Clues to the Right Answers, Proceedings of the 10th Text Retrieval Conference.
  20. Voutilainen, A. (2003) Part of speech Tagging. In The Oxford Handbook of Computational Linguistics Mitkov, R. (ed.) pp 219–232 Oxford University Press.
  21. Wilks, Y. (1975) A Preferential, Pattern Seeking, Semantics for Natural Language Inference. Artificial Intelligence 6.
  22. Wilks, Y. and Stevenson, M. (1998) The Grammar of Sense: Using part-of-speech tags as a first step in semantic disambiguation. Natural Language Engineering 4(3).
  23. Woods, W. (1973) Progress in Natural Language Understanding – An Application to Lunar Geology. AFIPS Conference Proceedings, vol. 42, pp 441–450.

6. Glossary

Anaphora resolution: the process by references between separate expressions are identified and resolved.

Artificial intelligence: the intelligence of machines and the branch of computer science which aims to create it.

Categorization: the process by which ideas and objects are recognized, differentiated and understood.

Classification: the process by which an electronic document is assigned to one or more predetermined categories, based on its contents. This contrasts with document categorization, in which the categories must typically be discovered as part of the process.

Clustering: the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense.

Derivational morphology: the process by which word meaning is changed through the application of derivations, e.g. the suffix “ee” changes the verb employ into the noun employee.

F-measure: a measure of a test’s accuracy. It considers both precision and recall.

Homonym: one of a group of words that share the same spelling and the same pronunciation but have different meanings.

Hypernym: is a word or phrase whose semantic range subsumes that of a set of other words.

Inflection: the process by which language expresses grammatical relations and relational categories such as tense, mood, voice, aspect, person, number, gender and case.

Information Extraction: the process by which structured information is extracted from unstructured textual data.

Lexical analysis: the process of converting a sequence of characters into a sequence of tokens.

Morphology: the study of the structure and content of word forms.

Named entity recognition: a subtask of information extraction that seeks to locate and classify atomic elements in text into predefined categories such as the names of persons, organizations, locations, etc.

Natural language processing: a field of computer science and linguistics concerned with the interactions between computers and human (natural) languages.

Parsing: see syntactic analysis

Part of speech: a linguistic category of words which is generally defined by the syntactic or morphological behaviour of the word in question

Part of Speech Tagging: the process of marking up the words in a text as corresponding to a particular part of speech

Phrase detection: the recognition of groups of words functioning as a single unit in the syntax of a sentence.

Polysemy: the capacity for a word or phrase to have multiple meanings.

Precision: the number of relevant documents retrieved by a search divided by the total number of documents retrieved by that search.

Question answering: the task of automatically answering a question posed in natural language.

Recall: the number of relevant documents retrieved by a search divided by the total number of existing relevant documents.

Relation extraction: the process by which relations between named entities within a single sentence are identified.

Relevance: the extent to which a topic of a search result matches the topic of the query or information need.

Sentence boundary detection: the problem in natural language processing of determining where sentences begin and end.

Sentiment analysis: the process by which the attitude of a speaker or a writer with respect to a given topic is identified. It is usually classified as positive, negative or neutral.

Stemming: the process by which inflected (or derived) words are reduced to their root form.

Summarisation: the ability to create an abstract or topical summary from a free text document.

Syntactic analysis: the process of analyzing a text to determine its structure with respect to a grammar

Text analytics: a set of linguistic, analytical and predictive techniques by which structure and meaning can be extracted from textual data. Similar to text mining, but with a broader focus on interactive applications and a greater emphasis on user experience.

Text mining: the process by which meaning, structure and patterns can be derived from textual data.

Tokenisation: see lexical analysis

Wordnet: a lexical database for the English language. It groups English words into sets of synonyms, provides short, general definitions, and records the various semantic relations between these synonym sets.

Word sense disambiguation: the process of identifying which sense of a word is used in any given sentence, when the word has a number of distinct senses.