Основным предназначением автоматизированных информационно-поисковых систем (АИПС) является ввод, обработка, хранение и поиск семантической информации. Поиск семантической информации осуществляется путем сравнения смыслового содержания запроса со смысловым содержанием документов, хранящихся в АИПС. Подобная операция может быть выполнена только в случае, если существует некоторый язык представления информации, позволяющий давать однозначную трактовку смысловому содержанию документов и запросов.
Многозначность и высокая сложность естественного языка не позволяет использовать его для этой цели, поэтому используют специально разрабатываемые информационно-поисковые языки (ИПЯ). В случае наличия ИПЯ работа АИПС может быть описана следующим образом:
Выделяют несколько различных декомпозиций АИПС, описывающих систему с различной степенью детализации. Наиболее часто рассматривают следующие декомпозиции:
Подсистема информационного обеспечения – совокупность методов и средств сбора, обработки, хранения и выдачи информации (в том числе о пользователе АИПС), обеспечивает формирование, ведение (обновление, актуализацию) и использование информационной базы АИПС.
Подсистема лингвистического обеспечения – совокупность словарей, положений, справочников и инструкций машинной и предмашинной обработки, а также поиска информации.
Подсистема математического и программного обеспечения – совокупность методов, алгоритмов и программ ввода, обработки, поиска и выдачи информации.
Подсистема технического обеспечения – комплекс ЭВМ, технических средств сбора, ввода, передачи, отображения, хранения, диспетчеризации, телекоммуникации, поиска и выдачи информации.
Подсистема организационного обеспечения – совокупность методов и средств, регламентирующих взаимодействие работников с техническими средствами и между собой в процессе разработки и эксплуатации информационной системы.
В последние годы создается множество разнообразных искусственных языков, ориентированных на решение определенных задач. Это информационно-поисковые языки, языки описания данных, языки манипулирования данными, языки управления заданиями, моделирования, автоматизации проектирования и т.д. Среди всех классов искусственных языков остановимся подробнее на информационно-поисковых языках (ИПЯ). Основными элементами, составляющими ИПЯ, являются: алфавит, словарный состав и грамматика.
Алфавит ИПЯ – система знаков, используемых в языке для записи отдельных слов и выражений. Это могут быть буквы естественного языка, знаки препинания, иные символы, в том числе цифры.
Словарный состав или лексика ИПЯ – совокупность слов, слово-сочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лексических единиц ИПЯ используются:
Существуют разные способы формирования словарного состава ИПЯ:
Первый способ задания лексики не поддается автоматизации и не требует больших интеллектуальных усилий. Лексика ИПЯ в большинстве случаев не позволяет достаточно точно выразить смысловое содержание текстов и оказывается жестко фиксированной.
Второй способ может быть полностью автоматизирован, но требует больших интеллектуальных затрат на определение правил формирования лексики. Однако научный подход к формированию словарного состава делает его более совершенным, обеспечивает единообразие и уменьшает субъективизм при построении лексики.
Третий способ занимает промежуточное положение и в отношении интеллектуальных усилий, и в отношении автоматизации процессов.
Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология – совокупность средств и способов построения и изменения слов. Синтаксис – совокупность средств и способов соединения слов в выражения и фразы.
Требования к ИПЯ:
Дескрипторные ИПЯ строятся на основе принципа координатного индексирования, предполагающего выражение основного смыслового содержания документа списком ключевых слов.
Дескрипторные ИПЯ состоят из следующих элементов:
Различают две группы словарей ЛЕ: а) основные лексические словари, формирующие основную лексику ИПЯ; б) морфологические словари, позволяющие осуществлять морфологический анализ и проводить нормализацию слов.
Основу ЛЕ основных словарей составляют ключевые слова, устойчивые словосочетания и дескрипторы. Соответственно словари, содержащие эти элементы, называются: "Словарь ключевых слов", "Словарь словосочетаний" и "Словарь дескрипторов".
Ключевым словом (КС) называют полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС.
Словосочетание – последовательность нескольких слов (обычно 2 – 5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Часто словосочетание используется как ключевое слово. Как правило, словарь КС включает как отдельные слова, так и словосочетания. Однако по сравнению с количеством отдельных слов в словаре количество словосочетаний мало.
Дескриптор – группа тождественных или близких по смыслу КС, используемых как имя класса синонимов. Дескрипторами могут быть код, слово или словосочетание.
Словарь дескрипторов с установленными парадигматическими связями между его элементами называется тезаурусом. Тезаурус – основной тип словаря в современных ИПС.
Информационно-поисковый тезаурус (ИПТ) – нормативный словарь-справочник, фиксирующий определенную область знаний человечества в данной предметной области. Между элементами ИПТ устанавливаются парадигматические отношения.
В качестве наиболее значимых парадигматических отношений ИПТ выступают отношения вида:
Парадигматические отношения выражаются в ИПТ следующими способами:
Системы индексирования. Индексирование – процесс перевода на ИПЯ текстов естественного языка. Индексирование основывается на совокупности подробных инструкций, описывающих процесс индексирования, включающих и правила использования ИПЯ.
Система индексирования (СИ) – совокупность средств и методов перевода текстов на ИПЯ с естественного языка с помощью заданного набора словарей ЛЕ и правил применения ИПЯ. Кроме этого, система индексирования включает большое разнообразие инструкций, правил, определяющих различные этапы процесса индексирования.
Типы систем индексирования. Различают следующие типы систем индексирования:
Основным назначением лексикографического контроля является:
В системах с полным контролем реализуются обе функции лексикографического контроля. В СИ с промежуточным контролем эти функции реализуются частично.
В то же время существуют и системы индексирования без морфологического анализа. Приведем несколько примеров систем индексирования.
В системах свободного индексирования индексатор выбирает слова или словосочетания, отражающие наиболее точно содержание текста. При этом могут использоваться важные для выражения смысла, но отсутствующие слова. Таким образом формируется поисковый образ текста. Так работают СИ с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексикографического контроля и морфологического анализа.
В системах полусвободного индексирования процедура индексирования выполняется аналогичным образом, но сформированный список слов сравнивается со словарем, и слова, не присутствующие в словаре, отбрасываются и не участвуют в формировании ПОД.
Системы жесткого индексирования используются только слова, присутствующие в тексте, которые затем включаются в ПОД. Перед этим проводится морфологическая нормализация слов из основных лексических словарей.
И, наконец, в системах статистического автокодирования в соответствии с заданными статистическими процедурами выбираются слова из текста, после чего проводится их статистическое кодирование за счет усечения слов по заданным алгоритмам позиционной статистики.
Цель научной деятельности – переработка информации для создания новой научной информации. Частью научной деятельности является информационная деятельность, представляющая собой совокупность различных операций с информацией, начиная от восприятия и заканчивая выдачей, в рамках системы научных коммуникаций. Эти операции не отделимы от научного творчества специалистов.
Информационное обслуживание – область информационной деятельности профессионального характера, направленная на удовлетворение информационных потребностей различных групп населения. Все операции по информационному обслуживанию (оформление, сбор, аналитико-синтетическая переработка, хранение, поиск и распространение информации) выполняются профессионалами в информационной сфере для повышения эффективности творческой деятельности научных и технических работников. Перечисленные операции в большинстве случаев могут быть отделены от творческой деятельности специалистов и в силу специализации более квалифицированно выполняться информационными работниками.
Информационное обслуживание по способу удовлетворения информационных потребностей делится на три вида:
Информационное обеспечение представляет собой комплекс средств и методов документального, фактографического и концептографического обслуживания, которые используются для удовлетворения потребностей в информации в каждой конкретной ситуации.
Анализ научный – метод исследования, суть которого состоит в том, что изучаемое явление или предмет разделяется на составные части, каждая из которых изучается в отдельности как часть целого. Анализ обычно выполняют в целях последующего соединения этих частей в единое целое с помощью синтеза с одновременным получением новых знаний.
Синтез научный – метод исследования, суть которого состоит в соединении частей предмета, выделенных в ходе анализа, в установлении связей между частями, в изучении предмета как единого целого. Таким образом, можно сделать вывод, что анализ выполняется в интересах синтеза, который немыслим без анализа.
Информационные анализ и синтез лежат в основе информационного обслуживания. Информационный анализ предполагает преобразование документа для извлечения из него наиболее важных, релевантных задаче анализа, компонентов текста – слов, фраз, фрагментов; а информационный синтез обобщает и объединяет эти сведения для получения вторичных документов различного функционала – библиографические описания, аннотации, обзоры, дайджесты и др.
Под свертыванием (развертыванием) информации понимается аналитико-синтетическая переработка текста или сообщения, изменяющая его физический объем и приводящая к уменьшению (или увеличению) его информативности. Наиболее распространенными видами свертывания (развертывания) являются: аннотирование, реферирование, конспектирование, фактографический анализ, рецензирование, обзорная деятельность и др. При этом к развертыванию относят операции, приводящие к увеличению физического объема текста внесением в текст необходимых уточнений и пояснений, обеспечивающих лучшее восприятие этого текста. Так же как и анализ и синтез, свертывание и развертывание – операции взаимозависимые и взаимопереходящие.
Термин "свертывание" находит широкое распространение в таких областях знания, как лингвистика, философия, библиографоведение, теория информации, информатика, физика и др. И хотя в этих областях этот термин часто имеет различное значение, он всегда обозначает уменьшение определенных объектов, выделение каких-то свойств, особенностей, признаков.
В науке в качестве "сверток" выступают законы, теоремы, аксиомы, постулаты, формулы и другие «концентрации» знаний, содержащие в себе наиболее важное, необходимое и являющиеся результатом обобщения огромного фактического материала. И наоборот, доказательство тех или иных теорем, выведение формул, интерпретация данных представляют собой процедуру развертывания информации.
Частным, но наиболее сложным случаем информационного свертывания/развертывания является автоматизированный процесс аналитико-синтетической переработки информации, т.е. компьютерное свертывание/развертывание. К компьютерному свертыванию/развертыванию относятся конспектирование, индексирование, реферирование, аннотирование, фрагментирование, перевод. Трудности здесь связаны со сложностью, а часто и невозможностью алгоритмизации и формализации мыслительных процессов, сопровождающих перечисленные разновидности анализа и синтеза.
Работы в направлении автоматизации семантических процессов ведутся многие десятилетия, начиная с появления первых ЭВМ.
Особо хочется отметить работы в области машинного перевода, но, столкнувшись с метафоричностью полисемичных языков, разработчики осознали всю сложность быстрого решения этой проблемы. И хотя системы машинного перевода пользуются большой популярностью, качество этих переводов еще пока далеко от качества интеллектуальных переводов. Тем не менее это значительное достижение, так как автоматизация семантических процессов избавляет от лишних временных и трудовых затрат.
Достигнуты значительные успехи и в области информационного поиска и индексирования. Время дескрипторных языков, на которые в свое время делались ставки как на семантически сильные ИПЯ, практически прошло. Созданные для обслуживания АИПС дескрипторные языки по мере развития средств вычислительной техники и обслуживающего программного обеспечения уступили лидерство языкам ключевых слов (практически естественным языкам), так как оказались неконкурентоспособны из-за своей плохой тематической совместимости. Однако неправильный учет в языке ключевых слов различных отношений, в том числе парадигматических, приводит в процессе поиска к значительному снижению качества работы АИПС.
Наконец, третье направление автоматизированного свертывания –автоматическое реферирование, занимающее промежуточное положение между наименьшим и наибольшим уровнями свертывания (переводом и индексированием соответственно). Однако это направление очень специфично, так как сводится к извлечению из текстов минимальных релевантных фрагментов, совокупность которых может образовывать широкий набор вторичных документов (аннотации, реферативные аннотации, рефераты, конспекты, самостоятельные фрагменты) и их синтезированных производных (дайджесты, реферативные указатели, реферативные обзоры, квазихрестоматии). Эти вторичные документы, получаемые в результате аналитико-синтетической переработки первичного документа, рассчитаны на удовлетворение информационных потребностей всех категорий специалистов науки, технологий, техники и производства.
Эффективность АИПС оценивается исходя из анализа затрат системы на информационное обеспечение основной деятельности и оценки эффекта, который получается за счет использования информации, предоставляемой АИПС. Однако, часто не существует возможности для количественной оценки "полезности" итогов основной деятельности, особенно если речь идет о юридических, психологических, моральных и т.п. результатах. Еще большие сложности вызывает оценка части эффекта основной деятельности, полученной за счет использования требуемой информации.
Поэтому, а также в связи с тем, что экономическую эффективность АИПС оценить в процессе анализа ее функционирования сложно, ограничиваются оценкой функциональной эффективности АИПС, под которой понимают меру соответствия системы своему целевому предназначению. При этом целью функционирования АИПС является информационное обеспечение пользователей системы и оперативный поиск необходимой пользователям информации.
Функциональная эффективность АИПС оценивается следующими основными показателями:
Оценка любого из этих показателей связана с определением неформальной релевантности информационному запросу выданной информации.
Различают формальную и действительную релевантности.
Формальная релевантность оценивает соответствие поискового образа документа поисковому образу запроса. Поскольку эти поисковые запросы представляются как формализованные структуры, то их оценку может дать только компьютер. Но для этого необходимо задание компьютеру формального выражения критерия релевантности.
Действительная релевантность оценивается только человеком и связана со смысловым соответствием документа тексту информационного запроса, выполненного на естественном языке. Критерий, которым пользуется человек при принятии решения о действительной релевантности, сформулировать невозможнo.
В процессе переводов информационных запросов в ПОЗ, информационного сообщения в ПОД, информационной потребности в информационный запрос возникают, как правило, определенные семантические искажения. Поэтому формальная и действительная релевантности весьма существенно отличаются. Документ, формально признанный системой релевантным, может не являться релевантным с точки зрения потребителя. Однако АИПС определяет только формальную релевантность. Релевантность же выданных документов информационному запросу может быть оценена только экспертами или потребителем информации.
Пусть оценка релевантности проведена и база данных АИПС разделилась условно на два подмножества по отношению к заданному информационному запросу:
Полнота поиска равна отношению числа выданных релевантных документов (Рв) к общему числу релевантных документов массива (Р = Рв + Рн): П = Рв / (Рв + Рн), где Рн – число невыданных релевантных документов.
Точность поиска – отношение числа выданных релевантных документов (Рв) к общему числу выданных документов (О = Рв + Нв): Т = Рв / (Рв + Нв), где Нв – число выданных нерелевантных документов.
Специфичность поиска – отношение числа невыданных нерелевантных документов (Нн) к общему числу нерелевантных документов (Н = Нн + Нв): С = Нн / (Нн + Нв).
Показатели полноты поиска и точности поиска обратно пропорциональны, и повышение полноты поиска в АИПС сопровождается уменьшением точности поиска и наоборот.
Существуют различные методы для определения релевантности документов в БД, позволяющие определить количество релевантных документов в БД АИПС, не делая анализа всей БД:
На заре развития компьютерных технологий и Интернета вопрос поиска нужной информации на сайтах не стоял так остро, так как сайтов в то время по отношению к сегодняшним дням было совсем немного. В те годы поиск осуществлялся по тематическим каталогам сайтов, и этого было достаточно. Первым таким каталогом в 1994 году стал Yahoo. Тогда этот ресурс еще не был поисковой машиной, а представлял собой каталог зарегистрированных на нем сайтов. Также стоит отметить, что Интернетом пользовались в основном сотрудники научных организаций и преподаватели университетов. Широкая аудитория во Всемирную паутину пока не попала.
Прорыв начался во второй половине 1990-х годов. В 1995 году появились первые полноценные поисковые системы – Lucos и Altavista. В 1997 году появились Google и Yandex – сегодняшние лидеры среди поисковых систем в России и в мире.
Далее – долгий путь совершенствования алгоритмов поиска, создание своих баз данных. В итоге оказалось, что успешно эти задачи могут решать лишь единицы – на сегодняшний день только три поисковых системы за рубежом обладают своими алгоритмами поиска и информационными базами - Google, Yahoo, MSN Search. В России это – Яндекс и Search.Mail.ru. Поисковая система состоит из следующих компонентов:
Российский рейтинг поисковых систем. В России наибольшей популярностью пользуются пять поисковых систем.
5-е место – Bing. Эта поисковая система занимает 5-ю ступеньку в рейтинге лучших поисковых систем. Ей принадлежит 0,6% российского рынка такого рода услуг. Поисковик был создан Microsoft в 2009 году. Особенности:
4-е место – Rambler. Rambler - эта поисковая система – на 4-м месте в рейтинге. Рамблер создан и запущен российскими учеными в 1997 году, ему принадлежит 0,8% российского поискового рынка. Особенности:
3-е место – Search.Mail.ru. Поисковый сервис от компании Mail.ru располагается на 3-м месте в рейтинге лучших поисковиков Рунета, занимая 8,3% рынка. Компания Mail.ru начинала свое существование как почтовый сервис, но сейчас она предоставляет, кроме него, еще 40 крупных сервисов, в том числе и поисковый. Особенности:
2-е место – Google. Этот гигант мирового уровня так и не захватил лидерство и находится на 2-м месте в рейтинге, занимая большую долю рынка – 35,1%. Google является крупнейшей поисковой системой в мире, поэтому комментарии здесь излишни. Особенности:
1-е место – Яндекс. Лидер Рунета – его доля в поисковом рынке – 54,1%. Компания быстро развивается, имеет свои алгоритмы поиска и показатель ранжирования сайтов – ТИЦ. Особенности:
Мировой рейтинг ИПС. В мире безусловным лидером среди поисковых систем является Google. Этой поисковой системой пользуется больше половины всего человечества. Примечательно, что в ТОП-5 на 4-м месте находится российская поисковая система Yandex.
5-е место – Bing. Эта поисковая система была разработана и запущена корпорацией Microsoft в 2009 году, она моложе своих конкурентов. Тем не менее она получила такую большую популярность благодаря тому, что интегрирована в большое количество программных продуктов Microsoft. Занимает 5-е место в рейтинге мировых лидеров поиска. Особенности:
4-е место – Яндекс. Удивительно – эта поисковая система, созданная россиянами Аркадием Воложем и Ильей Сегаловичем, лидирует не только на просторах Рунета, но и входит в число мировых лидеров, занимая 4-е место в мировом рейтинге поисковых систем. Особенности:
3-е место – Yahoo!. Этот американский поисковик создан научными сотрудниками Стэнфорда Джерри Янгом и Дэвидом Файло, он уже давно находится в мировом Интернете – с 1994 года. Было время, когда он был вторым после Google в мировом рейтинге, но китайцы его опередили. В итоге – 3-е место в рейтинге и 6% всего мирового рынка поисковых систем. Особенности:
2-е место – Baidu. Китайцы создали своего гиганта – поисковую машину Baidu. Сегодня она обслуживает около 18% всего поискового рынка и занимает заслуженное 2-е место в мировом рейтинге. Особенности:
1-е место – Google. Это американское детище Ларри Пейджа и Сергея Брина, на сегодня – самый крупный софтверный гигант в мире, уже давно обошедший Microsoft по многим показателям. И его основной стержень – поисковая система, обслуживающая 68% мирового рынка поисковых систем, совместно с приложением Adwords, приносящие компании огромные прибыли. В мире около двадцати стран, где доля Google в поиске составляет более 90% (например, во Франции, Германии). Особенности:
Благодаря внедрению новых языковых технологий поисковые системы стали гораздо лучше понимать пользователя. Поисковики могут искать как запрашиваемое слово, так и его словоформы. Это позволяет делать более точными результаты поиска. Конечно, страницы со словоформами не будут в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт необходимо учитывать при построении поисковых запросов.
Следует помнить о том, что поисковые системы при обработке запроса не учитывают положение регистра символов, знаки препинания, так как они игнорируются поисковыми серверами. Однако при построении расширенных запросов, дающих более точные результаты поиска, традиционные знаки препинания используются. Большинство поисковых систем может бороться с опечатками.
Основная задача пользователя при составлении поискового запроса — выделить ключевые слова, задача поискового сервера — наилучшим образом обработать введенный запрос. Вот несколько правил составления запросов: