ЮрФак: изучение права онлайн

Модели поиска информации в информационно-правовых системах

Автор: Радиванович Н.Н.

Развитие информационных технологий приводит к изменениям во всех сферах деятельности. Естественным процессом стало использование информационно-коммуникационных технологий в правовой сфере и в сфере государственного управления. При этом использование информационно-правовых систем существенно повышает производительность работы юристов, бухгалтеров, аудиторов, руководителей организаций при решении правовых вопросов.

В Республике Беларусь информационно-правовые ресурсы в электронном виде (базы данных по законодательству) используются с середины 90-х годов. Так, в соответствии с Постановлением Совета Министров Республики Беларусь от 1 февраля 1994 г. N 50 "О мерах по формированию республиканского эталонного банка данных правовой информации" было начато формирование единого эталонного банка данных правовой информации на бумажных и электронных (магнитных) носителях, включающего в себя законодательные акты Республики Беларусь, а также ведомственные нормативные акты [1].

Для работы с банками данных правовой информации используются специально разработанные системы. В соответствии с определением, данным ресурсом "Википедия", справочно-правовые системы (информационно-правовые системы) — это класс компьютерных баз данных, содержащих тексты указов, постановлений и решений различных государственных органов. Подкрепленные нормативными документами, они также содержат консультации специалистов по праву, бухгалтерскому и налоговому учету, судебные решения, типовые формы деловых документов и др. [2].

Производителями таких систем используются различные наименования, например, информационно-правовая система, справочная правовая система, профессиональная справочная система, информационно-поисковая система. В рамках данного материала будем использовать термин "информационно-правовая система" (далее — система, ИПС).

Чаще всего пользователи систем не относятся к профессионалам в ИТ-сфере, поэтому разработчики стараются сделать работу с системами простой и удобной. Одним из важнейших конкурентных преимуществ ИПС является удобство поиска документов по базе данных. Поэтому производители в рамках систем стремятся обеспечить широкие возможности по поиску и работе с нужными документами и материалами.

Стандартный подход к организации поиска, который использовался всеми производителями систем, включал реализацию поиска по реквизитным данным (полям) и тексту документа.

Под реквизитами правового акта понимаются элементы правового акта, предназначенные для отражения юридических свойств и идентификации правового акта. Они не входят в состав содержательной части правового акта и не содержат регулятивных положений. В соответствии с Законом Республики Беларусь от 10 января 2000 г. "О нормативных правовых актах Республики Беларусь" обязательными реквизитами нормативных правовых актов являются вид акта, название, дата, место принятия (издания) акта и его регистрационный номер, подписи лиц, уполномоченных подписывать соответствующие нормативные правовые акты [3].

Наряду с обязательными реквизитами в структуре информационно-правовых ресурсов используются и другие реквизиты, формирование которых также осуществляется специалистами при включении правового акта в банк данных. Причем ряд из них носит справочный характер. Например, реквизиты опубликования позволяют пользователю получить информацию об источниках опубликования: наименование источника, дата опубликования и др. К справочным реквизитам также относятся (или могут относиться) дата и номер регистрации в соответствующих реестрах (регистрах) (в Беларуси — в Национальном реестре правовых актов Республики Беларусь), дата ввода в действие и дата ограничения действия, признак нормативности, язык документа.

При формировании информационно-правовых ресурсов также используются специально разработанные (искусственные) информационно-поисковые языки (далее — ИПЯ), составляющие семантическую основу информационно-правовой системы [5]. ИПЯ, являясь неотъемлемой частью информационных систем, представляют собой формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. ИПЯ строится на базе естественного языка [4, с. 198].

В ИПС могут использоваться ИПЯ классификационного типа, предназначенные для индексирования документов (частей документов) и информационных запросов с помощью понятий и кодов какой-либо классификационной системы. Примером такого ИПЯ выступает Единый правовой классификатор Республики Беларусь.

В рамках лингвистического обеспечения ИПС могут использоваться дескрипторные информационно-поисковые языки, являющиеся семантически более развитыми языковыми средствами, так как в них выражены парадигматические (логические) отношения лексических единиц. Дескрипторные ИПЯ предназначены для координатного индексирования документов и информационных запросов посредством дескрипторов и (или) ключевых слов [5]. Примером ИПЯ является информационно-поисковый тезаурус в эталонном банке данных правовой информации Республики Беларусь (в информационно-поисковой системе "ЭТАЛОН" реализован в рамках функции "Поисковый навигатор").

Таким образом, при ведении информационно-правовых ресурсов в электронном виде формируется регистрационная карта правового акта, которая включает следующие группы: обязательные реквизиты, справочные реквизиты, реквизиты, необходимые для использования в ИПС ИПЯ.

Если данные группы реквизитов рассматривать с точки зрения поиска, то реквизиты, необходимые для использования в ИПС ИПЯ, при их наличии в ИПС обязательно используются при организации поиска. Часть из обязательных реквизитов также используется при организации поиска, а применение справочных реквизитов является достаточно редким.

На практике при использовании реквизитных данных при поиске можно выделить следующие подходы для ввода поисковых запросов:

— ручной ввод текста;

— выбор из предложенного списка;

— выбор из предложенного списка с организацией фильтра выбираемых значений на основе введенного текста. При этом может использоваться механизм фильтрации (отсекания лишних значений) на основе совпадения введенного текста с предлагаемыми значениями в режиме "начинается" или "содержит";

— ручной ввод даты или диапазона дат;

— ввод даты или диапазона дат с использованием функции "Календарь";

— использование древовидного механизма выбора значений;

— использование древовидного механизма выбора значений с организацией фильтра выбираемых значений на основе введенного текста.

Как правило, при заполнении поисковых полей определенными реквизитами реализуется возможность задавать несколько значений.

Изначально при проектировании ИПС практически все разработчики закладывали механизмы объединения введенных (выбранных) значений реквизита внутри поискового поля логическими операциями ("И", "ИЛИ", "НЕ"). Также предлагался механизм использования логических операций между поисковыми полями. Но в процессе совершенствования иных поисковых возможностей, а также с учетом упрощения поискового интерфейса большинство производителей систем отказались от использования данных механизмов (особенно второго) и объединяют поисковые поля логической операцией "И". Также в последнее время все меньше в ИПС используются и ИПЯ.

Но все же основным видом поиска является поиск по тексту документа (или контекстный поиск), который заключается в нахождении документов, в текстах которых встречаются определенные слова, включенные в поисковый запрос. Поиск может проводиться по одному слову или нескольким словам, соединенным логическими операциями или находящимся на определенном расстоянии друг от друга, а также по конкретному словосочетанию (фразе) [4, с. 85].

В связи с тем, что слова в названиях и текстах правовых актов встречаются в различных лингвистических формах (в зависимости от рода, числа и падежа), а пользователь может и не знать (и не должен знать), в каких конкретно формах они находятся, для получения результатов контекстного поиска изначально производители систем использовали довольно простой прием, призванный устранить данную проблему. Вместо окончаний (или, точнее, конечной части) слов в поисковом запросе пользователи указывали специальный символ, который означал и заменял собой любое количество любых символов (системы соответственно реагировали на него). Чаще всего таким символом выступал "*".

По мере развития ИПС при организации контекстного поиска начали применяться подходы с использованием лексических и морфологических алгоритмов.

С технической стороны основными составляющими любой системы, реализующей поиск, являются: хранилище информации (база данных, содержащая реквизитные данные и тексты документов); индексатор (специальный программный модуль, который анализирует текст документа, применяя собственные лексические и морфологические алгоритмы, и создает индексную базу данных для использования в последующих запросах) и модуль поиска (принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска).

Если рассматривать системы поиска в целом (для поиска не только правовой информации), то наибольшее развитие получили системы поиска в сети Интернет (google.com, yandex.ru и др.). Они постоянно развиваются, а конкуренция между ними привела к существенному сокращению количества таких систем, и практически прекратились попытки разработки новых систем.

Производители правовых систем изначально самостоятельно создавали и развивали свои системы поиска в рамках ИПС. В то же время с учетом появления и развития универсальных систем поиска наблюдается тенденция их использования в качестве платформы для создания ИПС. Такой подход позволяет использовать преимущества универсальных систем поиска, среди которых PostgreSQL, Sphinx, Solr, Xapian и др. При их сравнении учитывают такие характеристики, как скорость поиска и индексации, размер индекса, способ реализации (система управления базами данных (СУБД), библиотека программ, сервер), возможные операторы поиска (логические операции), использование при поиске (подключение) синонимов, стоп-слов, поддержка многопотоковой работы и другие.

С учетом вышеизложенного, а также непосредственного ознакомления с рядом ИПС можно выделить следующие тенденции (подходы) при организации поиска в ИПС:

1. Ориентация на создание ИПС, функционирующих в сети Интернет или корпоративных сетях. Это позволяет решить вопросы ограничений по размеру баз данных и индексов, а также скорости обновления информационных массивов и непосредственно выполнения поисковых запросов (на локальных компьютерах имеются ограничения как по объему внешней памяти, так и по производительности).

2. Использование в качестве хранилища информации готовой системы управления базами данных (СУБД), которая представляет собой совокупность программных и лингвистических средств общего или специального назначения, обеспечивающих управление созданием и использованием баз данных. Как правило, используются клиент-серверные СУБД, которые обычно располагаются на сервере, и все клиентские запросы на обработку данных обрабатываются централизованно.

3. Использование готовых систем поиска, как правило, бесплатных (например, Sphinx, Solr и др.), адаптированных для работы с правовой информацией.

4. Упрощение пользовательского интерфейса ИПС или создание интерфейса для различных категорий пользователей (обычный пользователь, юрист).

5. Организация и реализация механизма всевозможных "подсказок" непосредственно при вводе пользователем своих запросов.

6. Проведение анализа поисковых запросов пользователя и результатов поиска в целях использования механизмов управления релевантностью (соответствием поискового намерения, заложенного в запросе, результатам этого запроса, выданным системой поиска).

7. Использование классификаторов и словарей при организации поиска по реквизитам.

8. Анализ поискового запроса непосредственно после его ввода, выделение из него реквизитов, используемых (сформированных) в базе данных, сокращений различных слов и аббревиатур, их использование при поиске.

9. Использование в рамках поиска автоматического машинного переводчика запросов с одного языка на другой (например, с русского на белорусский) при хранении в базе данных разных документов на разных языках.

Указанный перечень направлений организации и развития поисковых возможностей ИПС не является исчерпывающим, а только отражает рассуждения автора публикации по данной проблеме.

Литература

1. "О мерах по формированию республиканского эталонного банка данных правовой информации": Постановление Совета Министров Респ. Беларусь от 1 февр. 1994 г. N 50 // ЭТАЛОН. Законодательство Республики Беларусь / Нац. центр правовой информ. Респ. Беларусь. Минск, 2018.

2. Википедия — свободная энциклопедия. URL: https://ru.wikipedia.org/wiki (дата обращения: 15.05.2018).

3. "О нормативных правовых актах Республики Беларусь": Закон Респ. Беларусь от 10 янв. 2000 г. N 361-З // ЭТАЛОН. Законодательство Республики Беларусь / Нац. центр правовой информ. Респ. Беларусь. Минск, 2018.

4. Радиванович Н.Н. и др. Правовая информатизация Республики Беларусь: становление и перспективы развития / Под общ. ред. Н.Н. Радивановича. Минск: Нац. центр правовой информ. Респ. Беларусь, 2007. 400 с.

5. Информационно-поисковые языки. Термины и определения: ГОСТ 7.74-96 СИБИД. Минск: Госстандарт, 1997. 34 с.


Рекомендуется Вам: