Запитання у відповідь система дозволяє вирішувати. Анотації природною мовою

Питання-відповіді системи

Анатолій Нікітін, Павло Райков

1. Введення. 2

1.1 Проблеми.

2. QA-система Start 4

2.1 Тернарні вирази. 5

2.2 S-правила. 6

2.3 Лексікон. 6

2.6 Інструкції природною мовою. 8

2.7 Висновок. 9

3. Статистичні техніки для аналізу природної мови. 10

3.1 Запровадження. 10

3.2 Визначення частин мови для слів у реченнях. 11

3.3 Створення дерев розбору із пропозицій. 14

3.4 Створення своїх правил аналізу з урахуванням PCFG. Treebank grammars. "Markov grammars" 16

3.5 Лексичні парсери. 16

1. Введення

У зв'язку з бурхливим розвитком інформаційних технологій і безперервним збільшенням обсягів інформації, доступної в глобальній мережі Інтернет, все більшої актуальності набувають питання ефективного пошуку та доступу до даних. Найчастіше стандартний пошук з використанням ключових слів не дає бажаного результату у зв'язку з тим, що такий підхід не враховує мовні та смислові взаємозв'язки між словами запиту. Тому зараз активно розвиваються технології обробки природних мов (Natural Language Processing, NLP) і засновані на них питання-відповідальні системи (Question-Answering Systems, QAS).

Питання-відповідь система - це інформаційна система, що є гібридом пошукових, довідкових і інтелектуальних систем, яка використовує природно-мовний інтерфейс. На вхід такій системі подається запит, сформульований природною мовою, після чого він обробляється з використанням методів NLP, і генерується природно-мовна відповідь. Як базовий підхід до завдання пошуку відповіді питання зазвичай застосовується така схема: спочатку система тим чи іншим чином (наприклад, пошуком за ключовими словами) відбирає документи, містять інформацію, пов'язані з поставленим питанням, потім фільтрує їх, виділяючи окремі текстові фрагменти, потенційно містять відповідь, після чого з відібраних фрагментів генеруючий модуль синтезує відповідь на запитання.

Як джерело інформації QA-система використовує або локальне сховище, або глобальну мережу, або те й інше одночасно. Незважаючи на явні переваги використання Інтернету, такі як доступ до величезних, постійно зростаючих інформаційних ресурсів, з цим підходом пов'язана суттєва проблема – інформація в Інтернеті неструктурована і для її коректного вилучення необхідно створення так званих обгорток (wrapper), тобто підпрограм, які забезпечують уніфікований доступ до різних інформаційних ресурсів.

Сучасні QA-системи поділяють на загальні (open-domain) та спеціалізовані (closed-domain). Загальні системи, тобто системи, орієнтовані на обробку довільних питань, мають досить складну архітектуру, проте на практиці дають досить слабкі результати та невисоку точність відповідей. Але, як правило, для таких систем важливішим виявляється ступінь покриття знань, ніж точність відповідей. У спеціалізованих системах, відповідальних питання, пов'язані з конкретної предметної областю, навпаки, точність відповідей найчастіше виявляється критичним показником (краще взагалі дати відповіді питання, ніж дати неправильну відповідь).

1.1 Проблеми

У 2002 році група дослідників написала план досліджень в галузі питанням-відповідей систем. Пропонувалося розглянути такі питання:

Типи питань. Різні питання потребують різних методів пошуку відповідей. Тому потрібно скласти чи покращити методичні списки типів можливих питань. Обробка питань.Одну й ту інформацію можна запросити різними способами. Потрібно створити ефективні методи розуміння та опрацювання семантики (сенсу) пропозиції. Важливо, щоб програма розпізнавала еквівалентні за змістом питання, незалежно від стилю, слів, синтаксичних взаємозв'язків та ідіом, що використовуються. Хотілося б, щоб QA-система розділяла складні питання на кілька простих, і правильно трактувала контекстно-залежні фрази, можливо, уточнюючи їх у користувача діалогу. Контекстні питання.Запитання ставлять у певному контексті. Контекст може уточнити запит, усунути двозначність або стежити за перебігом думок користувача щодо серії питань. Джерела знань для системи QA.Перед тим як відповідати на запитання, непогано було б дізнатися про доступні бази текстів. Які б способи обробки текстів не застосовувалися, ми не знайдемо правильної відповіді, якщо її немає в базах. Виділення відповідей.Правильне виконання цієї процедури залежить від складності питання, його типу, контексту, якості доступних текстів, методу пошуку та ін - величезної кількості факторів. Тому підходити до вивчення методів обробки тексту потрібно з усією обережністю, і ця проблема заслуговує на особливу увагу. Формулювання відповіді.Відповідь має бути якомога природнішою. У деяких випадках достатньо і простого виділенняйого з тексту. Наприклад, якщо потрібна найменування (ім'я людини, назва приладу, хвороби), величина (грошовий курс, довжина, розмір) чи дата («Коли народився Іван Грозний?») - прямої відповіді достатньо. Але іноді доводиться мати справу зі складними запитами, і тут потрібні спеціальні алгоритми. злиття відповідейіз різних документів. Відповіді на запитання у реальному часі.Потрібно створити систему, яка б знаходила відповіді в сховищах за кілька секунд, незалежно від складності та двозначності питання, розміру та обширності документної бази. Багатомовні запити.Розробка систем для роботи та пошуку іншими мовами (у тому числі автоматичний переклад). Інтерактивність.Найчастіше інформація, пропонована QA-системою як відповідь, неповна. Можливо, система неправильно визначила тип питання або неправильно зрозуміла його. У цьому випадку користувач може захотіти не лише переформулювати свій запит, а й «порозумітися» з програмою за допомогою діалогу. Механізм міркувань (висновку).Деякі користувачі хотіли б отримати відповідь, яка виходить за межі доступних текстів. Для цього в QA-систему потрібно додати знання, загальні більшості областей, і навіть засоби автоматичного виведення нових знань. Профілі користувачів QA-систем.Відомості про користувача, такі як область інтересів, манера його промови та міркування, які маються за умовчанням факти, могли б істотно збільшити продуктивність системи.

2. QA-система Start

QA-система Start є прикладом загальної питання-відповідної системи, що відповідає на довільні запити, сформульовані англійською мовою. Вона розробляється у MIT Artificial Intelligence Laboratory під керівництвом Boris Katz. В Інтернеті ця система вперше з'явилася в 1993 році і зараз вона доступна за адресою http://start. csail. mit. edu. При пошуку відповіді питання система використовує як локальну базу знань, і ряд інформаційних ресурсів у мережі Інтернет.

Система вміє відповідати різні види питань, які умовно можна розділити такі категорії:

Питання про визначення (What is a fractal?)

Фактографічні питання (Who invented the telegraph?)

Питання про відносини (What country is bigger, Russia or USA?)

Список запитів (Show me some poems by Alexander Pushkin)

Ядром системи є База Знань. Існують 2 модулі: Парсер і Генератор, які вміють, відповідно, перетворювати тексти англійською у спеціальну форму (T-вирази), у якій зберігаються у Базі Знань, і, навпаки, за набором T-виразів генерувати англомовні тексти.

2.1 Тернарні вирази

Тернарний вираз (T-вираз) – це вираз виду<объект отношение субъект>. При цьому як об'єкти/суб'єкти одних T-виразів можуть виступати інші T-вирази. Прикметники, присвійні займенники, прийменники та інші частини речення використовуються для створення додаткових T-виразів. Інші атрибути речення (артиклі, часи дієслів, прислівники, допоміжні дієслова, розділові знаки і т. д.) зберігаються в спеціальній структурі History, пов'язаної з T-виразом.

Наприклад, пропозиція “ BillsurprisedHillarywithhisanswer”після проходження через Парсер буде перетворено на 2 тернарні вирази: << BillsurpriseHillary>withanswer>і < answerrelated-toBill>.Інформація про час дієслова surprise буде збережена у структурі History.

Нехай системі, в базі знань якої знаходяться 2 описаних вище Т-вирази, було поставлено питання: “ WhomdidBillsurprisewithhisanswer?”.Обробка питання відбуватиметься у такому порядку:

1. Аналізатор питань перетворює питання до виду шаблону, звернувши інверсію, яка використовується при формулюванні питань в англійській мові: “ Billsurprisedwhom withhisanswer?”.

2. Парсер перекладає пропозицію у 2 T-вирази: <whom> with answer>і

3. Отриманий шаблон звіряється з Т-виразами, що у Базі Знань. Знайдено збіг при Whom = Hillary

4. Генератор перетворює Т-вирази <> with answer>і у пропозицію та видає його як відповідь.

Аналогічним чином виконується пошук відповіді питання виду “Did Bill surprise with his answer?”. Тільки в даному випадку здійснюватиметься пошук точного збігу з виразами у Базі, а не пошук за шаблоном.

Таким чином, Т-вирази певною мірою зберігають інформацію про семантичні зв'язки між словами. У 2002 році було проведено низку експериментів з метою оцінки ефективності організації пошуку на основі Т-виразів у порівнянні з пошуком за ключовими словами. Після обробки Парсером Енциклопедії з описами різних видів тварин системі було поставлено питання: “What do frogs eat?” («Що їдять жаби?»). Описаний вище метод пошуку видав 6 відповідей, у тому числі 3 були правильними. Пошук на основі ключових слів за вихідними документами видав 33 результати, серед яких були ті ж 3 правильні відповіді, але, крім того, зустрічалися випадкові збіги слів frogsі eat(Наприклад, відповіді на запитання “Хто їсть жаб?”). Таким чином, пошук на основі T-виразів видав у 10 разів менше невірних відповідей.

2.2 S-правила

Крім T-виражень, у Базі Знань також зберігається список S-правил. Це правила переведення T-виразів у еквівалентні форми. Справа в тому, що ту саму ідею в природній мові можна висловити різними способами. Наприклад, пропозиції "Bill's answer surprised Hillary"і “Bill surprised Hillary with his answer”еквівалентні. Але Т-вирази, одержувані під час проходу цих пропозицій через Парсер різні: , і <with answer>, . Тому вводиться S-правило Surprise :

<<n1 surprise n2> with n3>, <n3 related-to n1> = <n3 surprise n2>, <n3 related-to n1>,

Whereni € Nouns

За допомогою таких правил можна описати так звані лінгвістичні варіації, тобто еквівалентні трансформації мовних конструкцій:

Лексичні (синоніми)

Морфологічні (однокорені слова)

Синтаксичні (інверсії, активна/пасивна застава, …)

З іншого боку, S-правила можуть описувати логічні імплікації. Наприклад:

<<A sell B > to C > = <<C buy B > from A>

2.3 Лексикон

Багато S-правил застосовні до груп слів. Наприклад, описане раніше S-правило Surprise виконується не тільки для дієслова surprise, але також для будь-якого дієслова з так званої групи емоційно-реакційних дієслів. Для того, щоб не плодити S-правила, був створений Лексикон, в якому зберігаються всі слова англійської мови. З кожним словом пов'язаний список груп, яких воно належить. Тепер S-правило Surprise можна зробити ще абстрактнішим:

<<n1 v n2> with n3>, <n3 related-to n1> = <n3 v n2>, <n3 related-to n1>,

Where ni € Nouns, v € emotional-reaction-verbs

2.4 WordNet

Крім Лексикону , в якому зберігаються згруповані за різними синтаксичними та семантичними ознаками слова, система Start використовує ще один потужний інструмент обробки семантики слів – словник WordNet . Як базова одиниця у цьому словнику використовується поняття синсета. Синсет – це певний зміст, значення. Різні слова можуть мати те саме значення (синоніми), тому ставитися до одного синсету, і, навпаки, одне слово може мати кілька значень, тобто належати кільком синсетам. Крім того, у словнику WordNet введені стосунки між синсетами. Наприклад, між іменниками існують такі відносини:

- Гіпероніми : Y – гіперонім X, якщо X- Різновид Y(фрукт– гіперонім персика)

- Гіпоніми : Y – гіпонім X, якщо Y- Різновид X(персик- Гіпонім фрукта)

- Рівні за рангом : Xі Y рівні за рангомякщо у них загальний гіперонім ( персикі яблуко– рівні за рангом)

- Голоніми : Y – голонім X, якщо X- Частина Y(персик- Голонім кісточки)

- Мероніми : Y – меронім X, якщо Y- Частина X ( шкірка– меронім персика)

Таким чином, у словнику WordNet описані відносини між смислами виду загальне-приватне та частина.

WordNet використовується при пошуку збігів у базі знань. Наприклад, якщо у Базі зберігається Т-вираз < birdcanfly>та у словнику WordNet визначено, що canary – гіпонім bird. Нехай було поставлено питання “ Cancanaryfly?”. Парсер перетворює це питання на вираз < canarycanfly>. Не знайшовши збігів у Базі, Start застосує WordNet і спробує знайти відповідь більш загальне питання: “ Canbirdfly?”.На це запитання буде знайдено відповідь Yes,з чого, враховуючи, що canary- Різновид bird Start зробить висновок про те, що “ canarycanfly”.

2.5 Omnibase

Для пошуку відповідей на фактографічні питання типу “When did Beethoven die?” або “What is the capital of England?” Start використовує базу Omnibase. У цій основі використовується інша модель зберігання інформації: «об'єкт-властивість-значення». Наприклад, інформація "Federico Fellini є директором La Strada" збережеться в базі Omnibaseу вигляді La Strada – director – Federico Fellini . Тут LaStrada- Об'єкт, director– властивість, а FedericoFellini- Значення цієї властивості. За такої моделі даних пошук необхідної інформації відбувається досить швидко та ефективно.

Для пошуку інформації Omnibaseвикористовує велику кількість зовнішніх джерел даних з мережі Інтернет: Wikipedia, Google, Internet Movie Database і т.д. -Властивість». Для визначення джерела, в якому зберігається інформація про той чи інший об'єкт, Omnibaseвикористовує Каталог об'єктів, у якому кожному об'єкту зіставлено джерело даних. Наприклад, об'єкту LaStradaвідповідає база imdb-movie(Internat Movie Database). Визначивши базу, у якій слід шукати, Omnibaseпосилає запит до обгортки цієї бази: ( LaStrada, director) і отримує відповідь FredericoFellini.

2.6 Анотації природною мовою

Проблема машинного аналізу природного мовлення дуже складна. Тому розробники питання-відповідей пропонують вирішувати цю проблему з двох сторін: з одного боку, покращувати методи обробки природних мов, навчаючи комп'ютер «розуміти» мову, але, з іншого боку, постаратися зробити текст більш зрозумілим комп'ютерам. А саме, пропонується до інформаційних ресурсів складати інструкції природними мовами.

У такому випадку можливо ефективно організувати пошук не тільки текстової, а й різної мультимедіа інформації: зображень, відео та аудіозаписів. У системі Start інструкції застосовуються так: при додаванні інформації в Базу Знань Парсер обробляє лише її інструкцію, і до згенерованих Т-виразів прикріплює посилання на вихідний ресурс.

Використання анотацій відбувається через RDF-описи (Resource Description Framework), які прикріплюються до кожного ресурсу. Мова RDF базується на форматі XML. Опис цієї мови досить об'ємно, тому ми лише обмежимося прикладом RDF-опису деякої бази, де зберігається географічна інформація. До цієї бази прикріплюються параметризовані інструкції " Manyлюдейlivein ? s " і " populationof ? s " , і шаблон відповіді: "The population of ?s is ?o" , де ? oпозначає звернення до бази та отримання якості populationбіля об'єкта ? s. При обробці такої анотації Парсер збереже 2 шаблони запитання та посилання на шаблон відповіді. Якщо при виконанні запиту користувача Start знайде збіг у Базі Знань із шаблоном питання, то звернеться до зовнішнього ресурсу, з якого була взята анотація, і буде згенеровано відповідну відповідь.

Крім того, використовуючи параметризовані інструкції, можна описувати схему пошуку відповіді на цілий клас питань. Наприклад, питання виду “What is the country in Africa with the largest area?” або “What country in Europe has the lowest infant mortality rate?” потрапляють під один шаблон: “What country in $region has the largest $attribute ”. Далі, в інструкції описується загальний алгоритм пошуку відповіді такі питання.

Деякі питання є композицією кількох питань. Наприклад, для відповіді на питання "Is Canada's coastline longer than Russia's coastline?" необхідно, по-перше, обчислити довжину берегової лінії Канади та Росії, а по-друге, порівняти отримані значення та згенерувати відповідь. Тому для таких питань можна описати план пошуку відповіді, в якому будуть задаватися допоміжні питання.

2.7 Висновок

Питання-відповідь система Start використовує диференційований підхід до пошуку відповідей залежно від виду питання. Це дає відносно добрий результат для великої кількості загальних питань.

Використовувані як основа База Знань та тернарні вирази є вдалою моделлю подання інформації, яка, з одного боку, певною мірою зберігає семантичні зв'язки між словами, а з іншого боку, є досить простою для ефективної реалізації пошуку та редагування Бази.

За допомогою анотацій можна організувати програмний доступ до інформаційних ресурсів Інтернету з використанням універсального природно-мовного інтерфейсу. А використання додаткових структур, таких як Omnibase дозволяє підвищити ефективність пошуку відповідей на деякі специфічні види питань.

І, нарешті, різні словники та лінгвістичні модулі до певної міри моделювати семантичні особливості природної мови та обробляти складніші запити. Завдання складання таких словників, як і інші проблеми, пов'язані з розробкою запитально-відповідних систем, неминуче вимагає залучення як фахівців у галузі computer science, а й лінгвістів і філологів.

3. Статистичні техніки для аналізу природної мови

3.1 Вступ

Розглянемо процес аналізу речень. Нашим завданням буде складання для кожної пропозиції дерева розбору. Зважаючи на відносну складність російської мови та відсутність для неї літератури та наукових праць з даного предмета, далі будуть розглянуті приклади з англійської мови. Нижче наведено приклад такого аналізу.

Дерево розбору для фрази "The dog ate"

На рис.1 вершини (det, noun, np і т. д.) є логічні об'єднання частин пропозиції. Наприклад, np - noun phrase, означає, що цей вузол дерева відповідає за частину пропозиції, що має сенс іменника. Зауважимо, що для будь-якої, навіть такої простої фрази може існувати кілька дерев розбору, які відрізнятимуться тим, що одній і тій самій фразі надаватиме різного значення. Наприклад, можна сказати: "I ate meat with dogs". З такої пропозиції можна отримати 2 зовсім різні дерева розбору. В одному вийшло, що я їв м'ясо разом із собаками, а в іншому, що я їв якесь м'ясо розбавлене собачими нутрощами. Найдивовижніше, що такі "чудові" приклади повсюдно зустрічаються в англійській літературі, так що доведеться задовольнятися ними. Щоб уникнути подібних безглуздостей, слід використовувати окремий синтаксичний аналізатор, який, в міру своїх сил, допомагатиме нашому парсеру. У цій роботі ми будуватимемо парсер, який сам по собі враховуватиме синтаксичні зв'язки при побудові дерева розбору.

3.2 Визначення частин мови для слів у реченнях

Англійською мовою завдання цієї частини звучить як Part-Of-Speech tagging і є одним із численних підзадач такого розділу сучасної науки як NLP (Natural Language Processing). Взагалі, NLP має на меті можливість розуміння комп'ютером текстів природною мовою. Ці завдання зараз широко трапляються та його ефективні рішення сильно затребувані. Було б, звісно, чудово, якби програма, “прочитавши” підручник з фізики, самостійно відповідала питання типу: “Що причина нагрівання напівпровідника у такому-то досвіді?”. Тут відразу ж видно й чергову трудність – навіть прочитавши підручник, програма має ще розуміти питання користувача, а ще, бажано, вміти генерувати свої питання (мрія деяких лінивих викладачів).

Повернемося до поставленого питання: “Як визначити частину промови слова у реченні?”.

Антоніми "антонімів і т. д. Так як ми розглядаємо статистичний підхід, то для кожного слова ми розглянемо ймовірність того, що воно буде іменником, прикметником і т.д. д. Побудувати таку таблицю ймовірностей ми зможемо на основі тестових текстів, які вже вручну проаналізовані. в більшості випадків і є модальним дієсловом, але іноді він може бути іменником. правильно 90% слів. Формалізуючи отримані результати, напишемо твір, який треба максимізувати в ході даного алгоритму:

Тут введені такі позначення:

t – таг (det, noun, …) w – слово у тексті (can, will…) p(t | w) – ймовірність те, що таг t відповідає слову w

Враховуючи недоліки попередньої моделі, була створена нова, яка бере до уваги такий факт, що, наприклад, за статистикою, після прикметника йде інше прикметник або іменник. Варто зазначити, що ця, як і решта статистики отримані з якогось прикладу, а випадок, коли початкової статистики немає, розглядатися не буде. На основі цієї пропозиції було виведено таку формулу:

p(w | t) – ймовірність того, що слово w відповідає тагу t p(t1 | t2) – ймовірність того, що t1 йде після t2

Як видно із запропонованої формули, ми намагаємося підібрати таги так, щоб слово підходило тагу, таг підходив попередньому тагу. Даний метод показує кращі результати, ніж попередній, що цілком природно, так, наприклад, він розпізнає "can", як іменник, а не як модальне дієслово.

Побудована модель для обчислення ймовірності того, що набір того відповідатиме пропозиції, як виявилося, може бути інтерпретована як "прихована модель Маркова" (Hidden Markov Model).

Отримуємо щось на кшталт кінцевого автомата. Тепер опишемо, як його одержати. Вершини – частини мови. Пара (слово, ймовірність) у вершині показує, яка ймовірність того, що слово, віднесене до даної частини промови буде саме цим, наприклад, для вершини "det" і слова "a" це буде ймовірність того, що взятий навмання артикль з тестового тексту буде "а". Переходи показують, з якою ймовірністю після однієї частини промови слідуватиме інша. Наприклад, ймовірність того, що поспіль будуть йти 2 артиклі, за умови, що зустрівся артикль, дорівнюватиме 0.0016.

Наше завдання буде полягати в тому, щоб знайти шлях у такій моделі, так щоб добуток чисел на ребрах і у вершинах був би максимальним. Вирішення такої задачі існує, але ми не будемо зупинятися на ньому, оскільки це питання виходить за рамки цієї роботи. Скажімо лише, що існують алгоритми, що вирішують це завдання за лінійне за кількістю вершин час. Додамо, що з існуючої класифікації ми отримали “канонічний статичний розстановник того” (canonical statistical tagger).

Розглянемо тепер інший підхід до визначення того. Він називається трансформаційною схемою (transformational scheme). Вона у тому, що, працюючи над тестовими пропозиціями, спочатку застосовується тривіальний алгоритм, та був система розглядає всі правила виду: “Змінити в слова таг X на таг Y, якщо таг попереднього слова – Z”. Усього таких правил буде кількість тегів у кубі, що порівняно мало. Тому на кожному кроці намагаємося застосувати таке правило, і якщо після цього кількість правильно визначених частин мови зросте, то правило стане кандидатом на звання кращого правила на першому кроці. Далі вибирається найкраще правило і записується до списку "хороших" правил. Так робимо кілька разів. Отримуємо N правил, які “добре” покращують ймовірність системи того для пропозицій із тестової системи. Далі при розборі довільної пропозиції, після застосування тривіального алгоритму, використовуємо вже заготовлені правила. Для даного алгоритму можна відзначити один із його основних плюсів – швидкість. Вона дорівнює 11,000 слів/сек, тоді як алгоритм, що використовує HMM, має 1,200 слів/сек.

На закінчення хотілося б додати, що ми припускали наявність об'ємної початкової бази. Якщо ж такої немає, то тренування HMM не призводить до суттєвих покращень (ефективність становить 90%). У той час, як TS (transformational scheme) дозволяє досягти 97%. Нагадаємо, що ефективність міряється, як кількість правильно визначених тестів на тестових текстах.

3.3 Створення дерев розбору із пропозицій

Рис.4 Розбір пропозиції “The stranger ate doughnut with a fork.”

Завданням даного розділу буде побудова дерев аналізу аналогічних наведеному на рис. 4. Відразу зазначимо, що в Інтернеті є багата колекція вже створених дерев для відповідних пропозицій із початкової бази. Про цю систему можна дізнатись докладніше, відвідавши сайт . Відразу обговоримо питання перевірки парсерів. Ми просто подаємо їм на вхід пропозиції з та перевіряємо отримані дерева на збіги. Це можна зробити декількома способами, але в даній роботі ми скористаємося одним із запропонованих у . На просторі дерев ми запровадимо дві метрики: точність (precision) та пам'ять (recall). Точність буде визначатися як кількість правильно визначених нетермінальних вершин, поділена на їх загальну кількість. Пам'ять дорівнюватиме кількості правильно знайдених вершин, поділена на кількість нетерміналів тієї ж пропозиції в основі. У стверджується, що, якщо застосувати найпростіший підхід до побудови дерева, то відразу вийде ефективність за обома метриками 75%. Однак, сучасні парсери можуть досягати ефективності 87-88% (скрізь і далі, якщо не буде спеціально зазначено, ефективність матиметься на увазі по обох метриках).

Розіб'ємо наше завдання на 3 головні етапи:

Знаходження правил для застосування Призначення ймовірностей правилам Знаходження найвірогіднішого правила

Один із найпростіших механізмів, що дозволяють вирішити це завдання, є “Вірогіднісні контекстно-вільні граматики” (PCFG). Розглянемо приклад такої граматики, який дозволить легше розібратися у цьому понятті:

sp → np vp (1.0) vp → verb np (0.8) vp → verb np np (0.2) np → det noun (0.5) np → noun (0.3) np → det noun noun (0.15) np → np np (0.05)

Тут написані правила для аналізу відповідних вершин, при цьому для кожного правила існує ймовірність його застосування. Таким чином, ми можемо порахувати ймовірність відповідності дерева "π" своїм пропозицією "s":

margin-top:0cm" type="disc"> s – початкова пропозиція π – отримане нами дерево с – пробігає внутрішні вершини дерева r(c) – ймовірність застосування r для с

Ми не наводитимемо точних алгоритмів, скажімо лише, що перебір всіх дерев розбору довжини N, використовуючи PCFG, займе N у кубі часу. На жаль, можна відзначити, що PCFG самі по собі не виводять "хороших" статистичних парсерів, тому вони і не набувають великого поширення.

3.4 Створення своїх правил аналізу з урахуванням PCFG. Treebank grammars. "Markov grammars"

Розглянемо основні завдання, які потрібно вирішити у тому, щоб розібрати пропозицію:

Побудова своєї граматики у формі PCFG (бажано було б, щоб наша пропозиція мала хоча б один висновок у цій граматиці). Парсер, який би застосовував задані правила до пропозиції та отримував якісь або всі можливі дерева розбору. Можливість знаходити оптимальні дерева для рівняння (1).

Огляд останніх 2 проблем було дано в попередній частині, тому зараз зупинимося

першому пункті. Спершу запропонуємо простий варіант його вирішення. Припустимо, у нас вже є готова колекція дерев розбору. Тоді, обробляючи кожне з таких дерев, ми з кожної нетермінальної вершини зробимо правило, виходячи з того, як вона розкрита в конкретному дереві. Після цього якщо таке правило вже є, то збільшуємо його статистичний параметр на 1, а якщо його немає, тоді додаємо в нашу граматику нове правило з цим параметром рівним 1. Після обробки всіх тестових дерев, зробимо нормування, щоб ймовірність застосування кожного правила була ≤ 1. Ефективність таких моделей становить 75%. Такі моделі отримали назву “Treebank grammars”.

Тепер трохи поговоримо про підхід, який дозволяє винаходити нові правила на льоту. І тому основі тестових дерев ми побудуємо статистику для наступної величини – p(t1 | f, t2). Вона означає можливість, що таг “t1” зустрінеться після тага “t2” при розкритті форми “f”. Наприклад, p(adj | np, det) означає, ймовірність того, що після прикметника стоятиме артикль, за умови, що ми розкриваємо “іменник” (вільний переклад np) і зустріли артикль. На основі цього для ймовірності правильного застосування будь-якого правила до якоїсь вершини можна скласти формулу:

3.5 Лексичні парсери

Головною ідеєю даної частини буде зміна структури дерева для покращення ефективності нашої моделі. Тепер ми не просто будуватимемо дерево розбору, як було представлено вище, а додатково кожній вершині приписуватимемо слово, яке найкраще характеризуватиме її, як лексичну одиницю. Для вершини “c” такий рядок позначимо, як head(c). Head(c) визначатиметься, як застосування певної функції до дітей “c” і правилу, яким було “розкрито” “c”. Загалом, виходить, що при побудові цього head ми враховуємо, що деякі слова часто зустрічаються один з одним, тому, маючи таку статистику, ми зможемо покращити ймовірність правдивості розбору для деяких пропозицій. Наприклад, у пропозиції “the August merchandise trade deficit” поспіль йдуть 4 іменників, отже, якщо використати попередні моделі, ми отримаємо дуже малу ймовірність для коректного розбору цієї пропозиції. Але факт того, що "deficit" є головною частиною цієї "np" і того, що в тестових текстах нам зустрічалися вирази, в яких одночасно були "deficit" та інші слова, допоможе нам правильно скласти дерево розбору. Тепер формалізуємо сказане вище за допомогою формули:

p(r | h) – ймовірність того, що буде застосовано правило r для вузла із заданим h. p(h | m, t) - ймовірність того, що такий h є дитиною вершини з head = m і того t.

Наведемо таблицю, з якої має стати зрозумілішим вид формули, наведеної вище.




h(c) = "deficit"

Тут активно використовують поняття умовної ймовірності. Просто ймовірність того, що слово у вершині дерева "c" - "August", як виявляється вище, якщо припустити, що head(c) = "deficit". Фактично ми хочемо конкретизувати наші випадки так, щоб дуже рідкісні правила на кшталт “rule = np → det propernoun noun noun noun” могли отримати досить хорошу ймовірність, і тоді ми могли б обробляти дуже складні тексти. При цьому нам не має значення, що правило, яке ми хотіли б застосувати, могло не зустрічатися в початковій колекції правил.

3.6 Висновок

Статистичний підхід дозволяє вирішити багато завдань NLP і є одним з досить нових напрямків, що швидко розвиваються в математичній лінгвістиці. У цій роботі було розглянуто лише базові поняття та терміни, що залишає читачеві свободу вибору під час читання специфічних досліджень на цю тему. На жаль російськомовних читачів, варто відзначити, що кількість досліджень та робіт на цю тему в Росії мало і весь матеріал доводилося брати з англійських джерел. Можливо, ви та сама людина, яка зможе змінити ситуацію і підхопить починання двох російських проектів. Один із них некомерційний і розробляється на ПМ-ПУ СПбДУ. Інший - комерційний продукт фірми RCO, охочі можуть прочитати наукові праці цієї компанії на їхньому сайті. Всі приклади та картинки, які використовувалися в цій статті, були взяті з .

4. Посилання

CLEF. http://clef-qa. itc. it/WordNet. http://wordnet. Princeton. edu/Pen treebank. http://www. cis. upenn. edu/~treebank/ Start. http://start. csail. mit. edu/TREC. http://trec. nist. gov/ Eugene Charniak , “Статистичні технології для природничої літератури Parsing” Gary C. Borchardt , “Додаткова реконструкція” Boris Katz, Beth Levin “Exploiting Lexical Regularities in Designing Natural Language Systems” SEMLP. http:/// RCO. http://www. *****/

Незабаром після появи в обчислювальних науках методу обробки списків була написана (для ілюстрації того, як можна застосувати нові методи в питаннях-відповідях) програма BASEBALL (Грін, Вулф, Хомський, Лафрі, 1961; Грін, 1963). Ця програма призначалася для відповіді на питання про ігри 1959 в американській бейсбольній лізі - звідси і її назва. Хоча соціальна цінність такого застосування програми є сумнівною, вона дає хороший апарат для перевірки принципів програмування, які знайшли відтоді широке застосування. Повідомлення програмі складалися на простому підмножині англійської мови, якою ми практично не будемо зупинятися. Набагато цікавіша використана тут структура даних.

Ці програми BASEBALL були впорядковані в ієрархічну систему. Цю структуру даних можна було б еквівалентним чином подати у вигляді дерева. Найвищим рівнем був РІК (використовувалися дані лише за 1959 р., але в програмі передбачалися можливості і для кількох років), за ним, у порядку черговості, МІСЯЦЬ і МІСЦЕ. Після того, як визначалися РІК, МІСЯЦЬ і МІСЦЕ, послідовно вказувалися номер гри, день та рахунок (очків, виграних командою).

Загалом формат структури даних мав вигляд

Зрозуміло, що ця форма структури даних придатна не тільки для бейсболу, і під час написання підпрограм обробки даних у програмі BASEBALL мала на увазі робота з будь-якими ієрархічними структурами даних незалежно від інтерпретації різних рівнів та розгалужень.

Роботу програми BASEBALL можна зрозуміти, розглянувши два поняття: шлях даних та список специфікацій.

Шлях даних - це послідовність гілок, яку треба пройти, щоб отримати інформацію про конкретну гру.

Наприклад, визначає і в ході справи встановлює деякі відомості про цю гру. З кожною грою пов'язаний єдиний шлях даних, причому входження до нього визначають, як показано у прикладі, ознаки гри. Для створення всіх можливих шляхів даних можна скористатися будь-яким простим алгоритмом пошуку на дереві, оскільки дерево даних, очевидно, звичайно.

Список специфікацій - це список ознак, якими повинен мати шлях даних, щоб бути припустимою відповіддю на запитання. Наприклад, списком специфікацій питання

Де (у яких місцях) грала у липні команда „Редсокс“? (1) буде

Припустимо, що мовний процесор сформував перелік специфікацій питання. Ієрархічний процесор даних сприймає список специфікацій і систематично породжує всі шляхи даних, що узгоджуються з ним. Шлях узгоджується зі списком специфікацій, якщо

(а) пара ознака - значення (наприклад, міститься і в списку специфікацій, і на шляху, або

(б) пара ознака - значення списку специфікацій має значення (наприклад, у разі відповідне значення шляху даних реєструється як можливе (у прикладі (1) список значень буде відповіддю).

Якщо пара ознака - значення у списку специфікацій має значення, вона узгоджується зі значенням будь-якої ознаки на шляху даних. Тип погодження не реєструється.

Як мовилося раніше, процес породження шляхів даних та узгодження їх зі списком специфікацій немає нічого характерного для бейсбольної тематики. Похідні пари ознака - значення можуть бути узгодженими, але у разі вони залежить від докладання. Наприклад, розглянемо питання:

Скільки ігор у липні виграно командами на своїх полях? (2)

Для відповіді на нього програма повинна знайти всі шляхи даних, що визначають ігри, для яких значення збігається зі значенням та ім'я якої збігається зі значенням має найкращий рахунок. Зрозуміло, що підпрограма, яка складає відповідний перелік специфікацій, спирається на знання гри у бейсбол.

Коли шляхи даних, які відповідають спискам специфікацій, знайдені, вони об'єднуються в основний список. Він також представляється як дерева. Наприклад, шляхи, відповідальні питання (1), можна підсумовувати так:

Відповідь на запитання складається через перегляд основного списку. У випадку (1) відповідь отримана простим перерахуванням значень МІСЦЯ в основному списку.

Мал. 14.1. (див. скан) Етапи відповіді на запитання у програмі BASEBALL.

Відповідь на дещо складніше питання

У скільки місць грала команда «Редсокс» у липні? (3)

можна отримати, перерахувавши значення в основному списку.

Схема цієї процедури відповіді питання зображено на рис. 14.1. Аналізатор підмножини природної мови

сприймає питання природною мовою, розпізнає тип заданого питання і складає список специфікацій. Ця частина програми BASEBALL за потребою пов'язана з сферою застосування у двох відносинах. Очевидно, вона повинна мати доступ до лексикон цієї гри. Менш очевидно, що вона має містити підпрограми, що перетворюють такі вирази природної мови, як „скільки" або „у якій", у відповідні списки специфікацій. Таким чином, хоча Грін та ін. не обмежували користувача у завданні „індексованих” питань, як робиться в бібліотеках, вони заздалегідь визначали типи питань, які система могла отримати.

На кроці (Б) програма породжує основний список даних зі списку специфікацій. Як зазначалося, великі ділянки Б не залежать від додатків, хоча окремі підпрограми можуть потребувати похідних перевірочних ознаках. На останньому кроці відповідь виводиться з основного списку (блоки і Тут програміст знову повинен передбачити тип питань і ввести в систему відповідну підпрограму породження основного списку для кожного типу питань.

Як видно із блоків на рис. 14.1, програма BASEBALL не обмежена питаннями, на які можна відповісти, проходячи через дані лише один раз. Розглянемо питання:

Скільки команд грали у 8 місцях у липні? (4)

Вихідний список специфікацій такий:

На питання, визначене цим списком специфікацій, не можна одразу відповісти. Натомість процесор повинен досліджувати

і на не можна відповісти відразу, тому потрібне допоміжне питання:

Також не можна відразу відповісти, тому він запам'ятовується і породжується питання

На можна відповісти за допомогою питального процесора, що дає основний список

Специфікація означає перегляд усіх списків виду Порахувавши назви місць, можна отримати відповідь на його можна перетворити на список і отримати відповідь

Розвиток програми BASEBALL не пішов далі за рамки початкового проекту - звичайна доля систем штучного інтелекту. Ідея ієрархічної структури даних, здається, зникла з програмування для машинного розуміння. Це трохи дивує, бо ієрархічні структури дозволяють здійснити ефективне управління даними, особливо якщо великий обсяг інформації необхідно тримати частково в первинній пам'яті і частково відносно повільно працюючих, недорогих пристроях пам'яті (подробиці див. в статті Сассенгута, 1963). Крім того, ієрархічні структури можна реалізувати методами управління даними, сумісними з традиційнішими системами обробки інформації (Хант і Кілдалл, 1971; Лефковіц, 1969). Без сумніву, коли збираєшся користуватися програмами, що розуміють, треба на якомусь етапі поставити неминучі практичні питання вартості та системної сумісності. Можливо, у майбутньому варто було б повернутися до принципів, реалізованих у цій досить старій програмі.

Нові інформаційні технології

Лекція №2.2. Основні класи природно-мовних систем. Інтелектуальні питання-відповіді системи

Нові інформаційні технології (3)

1.1. Основні класи природно-мовних систем

Функціональні компоненти природно-мовних систем

Порівняльна характеристика основних класів ЕЯ-систем

Інтелектуальні питання-відповіді системи
1. Інформаційно-пошукові системи
  Системи спілкування з базами даних
  Експертні системи
  Діалогові системи вирішення завдань
  Інтелектуальні сховища та цифрові бібліотеки

Системи розпізнавання мови

Системи розпізнавання ізольованих команд
Системи розпізнавання ключових слів у потоці злитого мовлення
Системи розпізнавання злитого мовлення
Підхід «аналіз-через-синтез»
Системи читання по губах

Системи обробки зв'язкових текстів

Системи реферування текстів
Системи порівняння та класифікації текстів
Системи кластеризації текстів

Системи синтезу

Системи синтезу мови
Системи синтезу відеоряду за текстом

Системи машинного переказу. Системи розуміння мови (текстів)

Системи фразового перекладу
Системи контекстного перекладу
Системи розуміння мови (текстів)

Онтології та тезауруси

Мовні та текстові бази

Компоненти інтелектуальних систем

Порівняльна характеристика природно-мовних систем

Інтелектуальні питання-відповіді системи

В даний час найбільш масовим продуктом, що підпадає під категорію інтелектуальних запитально-відповідних систем, є (57) інформаційно-пошукові системи.

2.2.1.1. Інформаційно-пошукові системи

Найбільш відомі інформаційно-пошукові системи GOOGLE, Yandex, Rambler, мають приблизно однакові можливості та функціональність. Єдине (58) відмінність системиGOOGLEвід іншихносить швидше технічний характер: ця система реалізована як паралельна розподілена система з використанням великої кількості процесорів із пам'яттю власного виробництва. Можливо, саме ця відмінність відіграла вирішальну роль у безперечній перевагі цієї системи перед рештою, хоча й мають більш інтелектуальні функції. (59) Обробка природної мови в цій та інших інформаційно-пошукових системах відіграє не дуже велику роль, зате обсяг їх використання в системах людино-машинного спілкування дуже великий.

Мал. 2.2. Типова інформаційно-пошукова система.

(60) Основні функції інформаційно-пошукової системи зводяться до парсингу джерел, індексування текстів, вилучених із джерел, обробці запиту користувача, порівнянню проіндексованих текстів бази із запитом користувача, видачі результатів. Нещодавно у системі GOOGLE з'явився мовленнєве введення, що дозволяє вводити до системи обмежений за обсягом запит голосом. Ще однією функцією, яка використовується в інформаційно-пошукових системах, є функція представлення структури моделі світу системи, що є засобом навігації ресурсами системи.

Таким чином, стандартна (61) інформаційно-пошукова система містить сім основних компонентів (див. рис. 2.2): блок введення інформації, блок парсингу, блок індексування джерел, блок обробки запитів користувача, блок порівняння текстів джерел із запитом користувача, представленим на природному мовою, блок виведення результатів, та блок структурування предметних областей та навігації.

Основним завданням реалізації введення є представлення вихідної множини текстів та запиту користувача у вигляді, зручному комп'ютеру. Справа в тому, що в силу великого обсягу інформації, що обробляється інформаційно-пошуковими системами (62) тексти оброблюваних документів зазвичай не зберігаються в системі.Зберігаються лише їхні уявлення. Тексти беруться зі сховища (сховищ) і обробляються, іноді (зазвичай циклічно).

(63) Таким поданням тексту може бути, наприклад, список ключових слів, витягнутих з тексту (представлений векторно-просторовою, або n-грамною моделями), але може бути і мережа спільної зустрічальності слів у фрагментах тексту.

Основна ідея (64) векторно-просторової моделіпроста: текст описується лексичним векторомв евклідовому просторі, кожному компоненту вектора відповідає деякий об'єкт, що міститься в тексті(слово, словосполучення, назви фірм, посади, імена тощо), що називається термом. кожномувикористовуваному в текстетерму ставиться у відповідність його вага (значимість), який визначається на основі статистичної інформації про його зустрічальність в окремому тексті. Розмірність вектора – це кількість термів, що зустрічаються у текстах..

(65) У поліграмної моделі текст представляється вектором, де елементи вектора – всі комбінації символів довжини n з алфавітуM (для російської мови M = 33 ). Кожному елементу вектора ставиться у відповідність частота відповідності відповідноїn -грами у тексті.Розмірність вектора довільного тексту жорстко фіксована і становить 33 3 = 35937 елемента. Проте, як показує практика, у реальних текстах реалізується трохи більше 25-30 відсотків n-грам від загального допустимого їх числа, тобто. для російської їх не більше 7000.

(66) Мережа спільної слів у фрагментах тексту. Текст представляється безліччю понять у тому взаємозв'язках. І поняття та зв'язки оцінюються їхньою вагою.

(67) Запит користувача, представлений природною мовою, обробляється способом, аналогічним обробці інформації при індексації текстів джерел, щоб спростити порівняння цих природно-мовних текстів. На етапі порівняння, власне, і реалізуються стратегії пошуку

Таким чином, окрім способів внутрішнього подання тексту, в інформаційно-пошукових системах істотну роль відіграє спосіб класифікації (порівняння) текстів. (68) В даний час практичне застосування отримали класифікатори наступних типів.:

(69) Статистичні класифікаторина основі імовірнісних методів. Найбільш відомим у цій групі є сімейство Байєсових класифікаторів. Їх загальною рисою є.

Класичний метод класифікації текстів робить дуже сильні припущення про незалежність подій, що беруть участь (появи слів у документах), але практика показує, що наївний байєсовський класифікатор виявляється дуже ефективним.

2. (70) Класифікатори, засновані на функціях подібності. Найбільш характерними для таких класифікаторів є використання лексичних векторів моделі терм-документ, які також застосовуються і в нейронних класифікаторах. В якості міри подоби зазвичай береться косинус кута між векторами, що обчислюється через скалярний твір.

У світлі вище описаного (72) у системах інформаційного пошуку використовуються такі стратегії.

1. (73) На основі ключових слів. Ключові слова зазвичай мають вагові характеристики, які визначають вагу слова в тексті. В основі числової характеристики лежить частота народження слів у тексті. Однак смислова вага слова відрізняється від частоти його появи у тексті.

2. Дуже важлива (74) інформація пропорядок проходження ключових слів у фрагментах тексту. Для підвищення ефективності пошуку у разі замість ключових понять використовуютьсяn-грами ключових понять.

3. Під час пошуку використовується також частота спільної зустрічальності ключових слів у фрагментах тексту. Внутрішня структура тексту (75) у термінах ключових слів у їх взаємозв'язках – смисловий портрет тексту- є основою подання тексту в інформаційно-пошукових системах. Смисловий портрет тексту дозволяє виявити логічну структурутексту (і логічну структуру всього корпусу текстів), які покращують якість пошуку та прискорюють його.

4. Останнім часом під час пошуку почали використовувати так зване (76) нечітке порівняння.

Для покращення результатів пошуку користувач може змінити запит. І тому існує зворотний зв'язок. (77) Обробка інформації в інформаційно-пошуковій системі включає структуризацію інформації з метою подальшої навігації, у тому числі її кластеризацію.

Під (76) висновком результатів треба розуміти посилання на вихідний текст (тексти), які система видає користувачеві. Це може бути система цитат, номери документів, що зберігають аналізовані тексти.

(77) Пошук потрібної інформації у мережі за допомогою пошукової системи зазвичай здійснюється наступним чином. Користувач вводить у діалогове вікно пошукової системи один або декілька пошукових термінів. Пошукова система повертає результати пошуку, які відповідають цим пошуковим термінам. Наприклад, пошукова система може повернути список адрес у мережі (URL-адрес), які вказують документи, що містять один або більше пошукових слів запиту.

Питання-відповіді системи

Питання-відповідь(англ. Question-answering system) - це особливий тип інформаційних систем, що є гібридом пошукових, довідкових та інтелектуальних систем (часто вони розглядаються як інтелектуальні пошукові системи). QA-система повинна бути здатна приймати питання природною мовою, тобто це система з природно-мовним інтерфейсом. Інформація надається на основі документів з Інтернету або з локального сховища. Сучасні розробки QA-систем дозволяють обробляти безліч варіантів запитів фактів, списків, визначень, питань типу Як, Чому, гіпотетичних, складних та міжмовних.

Вузькоспеціалізовані QA-системи працюють у конкретних областях (наприклад, медицина чи обслуговування автомобілів). Побудова таких систем – порівняно легке завдання.
Загальні QA-системи працюють з інформацією з усіх областей знань, таким чином з'являється можливість вести пошук у суміжних областях.

Архітектура

Перші QA-системи були розроблені в 1960-х роках і були природно-мовними оболонками для експертних систем, орієнтованих на конкретні галузі. Сучасні системи призначаються для пошуку відповідей на запитанняу документах з використанням технологій обробки природних мов (NLP).

Сучасні QA-системи зазвичай включають особливий модуль - класифікатор питань, Який визначає тип питання та, відповідно, очікуваної відповіді. Після цього аналізу система поступово застосовує до наданих документів більш складні та тонкі методи NLP, відкидаючи непотрібну інформацію. Найбільш грубий метод - пошук у документах- передбачає використання системи пошуку інформації для відбору частин тексту, які потенційно містять відповідь. Потім фільтрвиділяє фрази, схожі на очікувану відповідь (наприклад, питання «Хто …» фільтр поверне шматочки тексту, містять імена людей). І, нарешті, модуль виділення відповідейзнайде серед цих фраз правильну відповідь.

Схема роботи

Продуктивність питання-відповіді залежить від якості текстової бази - якщо в ній немає відповідей на питання, QA-система мало що зможе знайти. Чим більша база – тим краще, але тільки якщо вона міститьпотрібну інформацію. Великі сховища (такі як Інтернет) містять багато надмірної інформації. Це веде до двох позитивних моментів:

Оскільки інформація представлена у різних формах, QA-системі швидше знайде відповідь. Не доведеться вдаватися до складних методів обробки текстів.
Правильна інформація частіше повторюється, тому помилки у документах відсіваються.

Поверхневий пошук

Найбільш поширений метод пошуку - за ключовими словами. Знайдені таким способом фрази фільтруються відповідно до типу питання, а потім ранжуються за синтаксичними ознаками, наприклад, за порядком слів.

Розширений пошук

Проблеми

У 2002 році група дослідників написала план досліджень в галузі питанням-відповідей систем. Пропонувалося розглянути такі питання.

Типи питань Різні питання потребують різних методів пошуку відповідей. Тому потрібно скласти чи покращити методичні списки типів можливих питань. виділенняйого з тексту. Наприклад, якщо потрібна найменування (ім'я людини, назва приладу, хвороби), величина (грошовий курс, довжина, розмір) чи дата («Коли народився Іван Грозний?») - прямої відповіді достатньо. Але іноді доводиться мати справу зі складними запитами, і тут потрібні спеціальні алгоритми. злиття відповідейіз різних документів.

Відповіді на питання в реальному часі Потрібно створити систему, яка б знаходила відповіді в сховищах за кілька секунд, незалежно від складності та двозначності питання, розміру та обширності документної бази.

Багатомовні запити Розробка систем для роботи та пошуку іншими мовами (у тому числі автоматичний переклад).
Інтерактивність Найчастіше інформація, запропонована QA-системою як відповідь, неповна. Можливо, система неправильно визначила тип питання або неправильно зрозуміла його. У цьому випадку користувач може захотіти не лише переформулювати свій запит, а й «порозумітися» з програмою за допомогою діалогу.

Механізм міркувань (висновку) Деякі користувачі хотіли б отримати відповідь, що виходить за межі доступних текстів. Для цього в QA-систему потрібно додати знання, загальні більшості областей (див. Загальні онтології в інформатиці), і навіть засоби автоматичного виведення нових знань.

Профілі користувачів QA-систем Відомості про користувача, такі як область інтересів, манера його промови та міркування, які маються за умовчанням факти, могли б істотно збільшити продуктивність системи.

Посилання

Dialogus - пошукова машина, що автоматично підбирає відповіді на запитання користувачів.

Ответы@Mail.Ru: Людський пошук відповіді будь-які питання.

Wikimedia Foundation.

2010 .

Подання знань питання, що виникає в когнітології (науці про мислення), в інформатиці та дослідженнях штучного інтелекту. У когнітології він пов'язаний з тим, як люди зберігають та обробляють інформацію. В інформатиці з … Вікіпедія

Подання знань питання, що виникає в когнітології (науці про мислення), в інформатиці та штучному інтелекті. У когнітології він пов'язаний з тим, як люди зберігають та обробляють інформацію. В інформатиці основна мета підбір … Вікіпедія

Призначена для отримання користувачем максимально точної (релевантної) інформації по темі, що його цікавить (і обмеженою базою статей). Зазвичай вибір статті відбувається за ієрархією розділів довідки. Довідкові системи часто комбінуються з ... Вікіпедія

- (Natural Language Processing, NLP) загальний напрямок штучного інтелекту та математичної лінгвістики. Воно вивчає проблеми комп'ютерного аналізу та синтезу природних мов. Щодо штучного інтелекту аналіз означає … Вікіпедія

Wolfram|Alpha Головна сторінка сайту … Вікіпедія