Бизнес Выучит ли Xerox русский?

Выучит ли Xerox русский?

Поисковая машина FactSpotter открывает новые возможности поиска в текстовых документах. Разработка лаборатории семантического анализа компании Xerox пытается понять смысл документа путем исследования грамматических характеристик текста...

" src=

Поисковая машина FactSpotter открывает новые возможности поиска в текстовых документах. Разработка лаборатории семантического анализа компании Xerox пытается понять смысл документа путем исследования грамматических характеристик текста. Однако специалисты считают, что до русскоязычного воплощения этого сервиса очень далеко, причина тому – сложная грамматика.

Анализ грамматики позволяет программе FactSpotter понимать назначение слова или фразы. В частности, разработчики говорят, что система отличает ссылки «Билл Гейтс говорит» и «друг Билла Гейтса говорит» – программа понимает, что здесь речь идет о разных субъектах. Хотя применяемые сегодня алгоритмы поиска не делают различия между этими фразами и выдают нерелевантные результаты.

Ожидается, что FactSpotter позволит существенно улучшить качество отбора информации из большого объема текстов. В основу работы программы положен специальный метаязык, учитывающий особенности грамматики разных языков – уже созданы описания грамматик голландского, английского, французского, немецкого, итальянского, португальского и испанского.

«Семантический анализ – это научная область, в которой еще нет точных моделей и правил, – говорит технический директор компании «Комтеко» Владимир Башкатов. – Для каждого языка выделяются свои особенности, которые приходится учитывать. Возможно, новый специальный метаязык, описывающий грамматику, позволит поисковой машине FactSpotter «понимать» и связывать слова, но реальную эффективность системы еще предстоит оценить».

Доцент кафедры ЭВМ Южно-Уральского государственного университета Павел Цытович считает, что распознавание грамматики действительно поможет решить проблему релевантности поиска. «Английский язык с его строгой грамматикой относительно несложно распознать, посмотрим, как Xerox разберется с русским», – добавляет он.

Отметим, что основная программа написана на языке С, но разработчики уже готовят дополнительные модули на Java и Python, благодаря которым FactSpotter сможет взаимодействовать с различными приложениями. В частности, представители Xerox заявляют, что их поисковая машина может быть интегрирована с программами распознавания речи для организации поиска в архивах радио и телевидения. Кстати, одним из первых пользователей FactSpotter станет служба претензий Xerox.

«Система очень удобна для анализа писем, поступивших в support, особенно для крупных компаний с большой клиентской базой, и для анализа большого числа комментариев и отзывов, где есть необходимость только в получении общей картины, – считает аудитор системы менеджмента качества интернет-агентства «Дэкстра» Анатолий Миленко. – Однако не думаю, что подобную систему можно без опаски применять в судебных спорах кроме как для сбора статистики. Ведь особенности письма людей могут различаться, к тому же нельзя забывать о грамматических и стилистических ошибках, а также наречиях и особенностях произношения в случае применения FactSpotter для голосового распознавания».

ПО ТЕМЕ
Лайк
LIKE0
Смех
HAPPY0
Удивление
SURPRISED0
Гнев
ANGRY0
Печаль
SAD0
Увидели опечатку? Выделите фрагмент и нажмите Ctrl+Enter
ТОП 5
Рекомендуем
Объявления