Поисковая машина FactSpotter открывает новые возможности поиска в текстовых документах. Разработка лаборатории семантического анализа компании Xerox пытается понять смысл документа путем исследования грамматических характеристик текста. Однако специалисты считают, что до русскоязычного воплощения этого сервиса очень далеко, причина тому – сложная грамматика.
Анализ грамматики позволяет программе FactSpotter понимать назначение слова или фразы. В частности, разработчики говорят, что система отличает ссылки «Билл Гейтс говорит» и «друг Билла Гейтса говорит» – программа понимает, что здесь речь идет о разных субъектах. Хотя применяемые сегодня алгоритмы поиска не делают различия между этими фразами и выдают нерелевантные результаты.
Ожидается, что FactSpotter позволит существенно улучшить качество отбора информации из большого объема текстов. В основу работы программы положен специальный метаязык, учитывающий особенности грамматики разных языков – уже созданы описания грамматик голландского, английского, французского, немецкого, итальянского, португальского и испанского.
«Семантический анализ – это научная область, в которой еще нет точных моделей и правил, – говорит технический директор компании «Комтеко» Владимир Башкатов. – Для каждого языка выделяются свои особенности, которые приходится учитывать. Возможно, новый специальный метаязык, описывающий грамматику, позволит поисковой машине FactSpotter «понимать» и связывать слова, но реальную эффективность системы еще предстоит оценить».
Доцент кафедры ЭВМ Южно-Уральского государственного университета Павел Цытович считает, что распознавание грамматики действительно поможет решить проблему релевантности поиска. «Английский язык с его строгой грамматикой относительно несложно распознать, посмотрим, как Xerox разберется с русским», – добавляет он.
Отметим, что основная программа написана на языке С, но разработчики уже готовят дополнительные модули на Java и Python, благодаря которым FactSpotter сможет взаимодействовать с различными приложениями. В частности, представители Xerox заявляют, что их поисковая машина может быть интегрирована с программами распознавания речи для организации поиска в архивах радио и телевидения. Кстати, одним из первых пользователей FactSpotter станет служба претензий Xerox.
«Система очень удобна для анализа писем, поступивших в support, особенно для крупных компаний с большой клиентской базой, и для анализа большого числа комментариев и отзывов, где есть необходимость только в получении общей картины, – считает аудитор системы менеджмента качества интернет-агентства «Дэкстра» Анатолий Миленко. – Однако не думаю, что подобную систему можно без опаски применять в судебных спорах кроме как для сбора статистики. Ведь особенности письма людей могут различаться, к тому же нельзя забывать о грамматических и стилистических ошибках, а также наречиях и особенностях произношения в случае применения FactSpotter для голосового распознавания».