Программа поставляется в виде базы 1С с начальными данными (словарем). Запуск функционала производится из встроенной обработки. Задается исходный текст, на выходе получается список документов с номерами и датами, которые получилось извлечь из исходного текста.
Применение анализа текста
Анализ (разбор) текста можно использовать в любой программе, где из текстового поля (строки) нужно получить определенные данные в нужном формате. Примеры, где можно использовать анализ текста:
- Назначения платежей в платежных поручениях (в назначении платежа часто указывают номер/дату счета или акта, по которому произведен платеж),
- Электронные письма и сообщения пользователей (в рабочей переписке можно встретить много номеров/дат документов, контактов и т.д.),
- Комментарии в документах.
Анализ текста не является тривиальной задачей, особенно если нет жестких правил написания исходного текста. Выявление в тексте нужных слов и конструкций можно считать элементами искусственного интеллекта. Проблема заключается в том, что один и тот же фрагмент текста может быть по-разному интерпретирован. Для анализа текста могут применяться различные методы в зависимости от специфики области, универсального решения данной задачи нет, но частные решения с определенными ограничениями есть.
Авторская разработка
Предлагается авторская разработка на базе 1С для анализа произвольного текста с заранее определенным словарем слов. Программа достаточно гибкая, прошла тестирование на реальных данных (назначения платежей в платежных поручениях).
Возможности программы:
распознавание слов и их сокращений,
распознавание кортежей слов (конструкции из нескольких слов),
распознавание параметров у элементов, у которых определены параметры,
распознавание групп в параметрах (например «по Счетам №444,446,447»),
корректное распознавание интервалов чисел в группах (например «100-110,132,134-136»).
Поставка
Программа поставляется в виде базы 1С с начальными данными (словарем). Запуск функционала производится из встроенной обработки. Задается исходный текст, на выходе получается список документов с номерами и датами, которые получилось извлечь из исходного текста.
Функционал данной разработки можно внести в любую конфигурацию 1С (если есть возможность изменения конфигурации) для последующего использования. Данный продукт представляет собой полноценную демо-базу, на которой можно протестировать работу алгоритма и из которой можно перенести функционал на рабочую базу. Данная услуга предоставляется автором, продукт называется "Встраивание функционала анализа текста в произвольную конфигурацию заказчика".
Алгоритм
Вначале работы алгоритма данной программы создается схема с первичным разбиением групп символов на типы данных (текст, число, дата, знаки препинания, скобки, особые символы).
В общих чертах сам алгоритм представляет собой цикл, который состоит из 5 этапов преобразования построенной схемы. Цикл продолжается до тех пор, пока в одном из этапов произошло изменение. При работе обработки есть возможность указать уровень трассировки для просмотра схемы на каждом шаге цикла (0 – без трассировки, 1 – краткая трассировка, 2 – подробная трассировка).
Этапы (по названиям функций):
РаспознатьСлова (слова из словаря, возможно с сокращениями, например «Счет»)
РаспознатьКортежи (например «Счет на оплату»)
РаспознатьЧисла (например «5 045 898.03», выполняется 1 раз)
РаспознатьГруппы (разбор конструкций, разделенных «,» и «;», выполняется если 1-3 этапы прошли без изменений)
РаспознатьПараметры (извлечение номеров и дат документов, например номер счета, выполняется если 1-3 этапы прошли без изменений)
Этапы введены для того, чтобы правильно распознавать группы и параметры из текста. Без этапов не получилось найти общий алгоритм, который за 1 проход правильно распознал документы и их параметры (номер и дату) по платежным поручениям 1 предприятия.
Дополнительная информация
Код конфигурации полностью открыт, возможна доработка собственными силами после покупки. Обновления программы не требуется.
Отзывов от покупателей не поступало.