Автоматизированные информационно-поисковые системы и основы информационного поиска

Основным предназначением автоматизированных информационно-поисковых систем (АИПС) является ввод, обработка, хранение и поиск семантической информации. Поиск семантической информации осуществляется путем сравнения смыслового содержания запроса со смысловым содержанием документов, хранящихся в АИПС. Подобная операция может быть выполнена только в случае, если существует некоторый язык представления информации, позволяющий давать однозначную трактовку смысловому содержанию документов и запросов.

Многозначность и высокая сложность естественного языка не позволяет использовать его для этой цели, поэтому используют специально разрабатываемые информационно-поисковые языки (ИПЯ). В случае наличия ИПЯ работа АИПС может быть описана следующим образом:

На первом этапе выполняется процедура индексирования текста, т.е. перевода на ИПЯ с естественного языка содержательной части документа (запроса). В результате индексирования первоначальный текст документа или запроса заменяется новой формой, кратко отражающей смысловое содержание исходного текста. Эта форма называется поисковым образом документа (ПОД) и/или поисковым образом запроса (ПОЗ), который иногда также называют поисковым предписанием (ПП).
Кодирование ПОД и ПОЗ – представление ПОД и ПОЗ в машинных кодах (часто первый и второй этапы выполняют вместе). На этом этапе формируются массивы ПОД и ПОЗ, которые затем обрабатываются и представляются в наиболее приспособленном для поиска виде.
Собственно поиск информации – выборка из ПОД документов, соответствующих по содержанию ПП. Данная операция выполняется в соответствии с так называемым критерием смыслового соответствия (КСС) ПОД ПОЗу (критерий выдачи).
Представление информации пользователю, соответствующей отобранным ПОД.
В случае необходимости корректировка запросов или ПП и повторение предыдущих шагов. Необходимость возникает в случае, если потребитель не удовлетворен работой поисковой системы, и может производиться или в диалоговом режиме, или в пакетном режиме.

Структура АИПС.

Выделяют несколько различных декомпозиций АИПС, описывающих систему с различной степенью детализации. Наиболее часто рассматривают следующие декомпозиции:

функциональная – выделение в АИПС функциональных подсистем. При таком подходе выделяют следующие подсистемы АИПС: отбора информации из внешней среды, предмашинной обработки и ввода информации, обработки и хранения информации, поиска и выдачи информации, информационного обслуживания потребителей информации;
покомпонентная – разбиение АИПС на информационные, программные, технические и трудовые компоненты. При таком делении в составе АИПС выделяют: информационную базу (базу данных, словари и т.д.), программные средства (СУБД/ПС, пользовательские программы – software АИПС), технические средства (hardware АИПС), организационные средства. Как правило, функции функциональной декомпозиции обеспечиваются соответствующими средствами покомпонентной декомпозиции;
методологическая – выделение в системе логико-семантических средств, позволяющих функционировать АИПС. Логико-семантический комплекс (ЛСК) – комплекс языковых логических и математических средств формализованного представления семантической информации с целью ее автоматизированной обработки и поиска. ЛСК является базой для создания и функционирования как отдельной составляющей всех декомпозиций АИПС, так и АИПС в целом;
организационная декомпозиция соответствует организационной структуре организации, в структуру которой входит АИПС. Среди элементов организационной декомпозиции выделяют структурные подразделения этой организации;
декомпозиция на обеспечивающие подсистемы – элементы, обеспечивающие реализацию необходимых функций АИПС. Обычно рассматривают следующие обеспечивающие подсистемы: информационного, лингвистического, математического, программного, технического, организационного обеспечений.

Подсистема информационного обеспечения – совокупность методов и средств сбора, обработки, хранения и выдачи информации (в том числе о пользователе АИПС), обеспечивает формирование, ведение (обновление, актуализацию) и использование информационной базы АИПС.

Подсистема лингвистического обеспечения – совокупность словарей, положений, справочников и инструкций машинной и предмашинной обработки, а также поиска информации.

Подсистема математического и программного обеспечения – совокупность методов, алгоритмов и программ ввода, обработки, поиска и выдачи информации.

Подсистема технического обеспечения – комплекс ЭВМ, технических средств сбора, ввода, передачи, отображения, хранения, диспетчеризации, телекоммуникации, поиска и выдачи информации.

Подсистема организационного обеспечения – совокупность методов и средств, регламентирующих взаимодействие работников с техническими средствами и между собой в процессе разработки и эксплуатации информационной системы.

Структура ИПЯ.

В последние годы создается множество разнообразных искусственных языков, ориентированных на решение определенных задач. Это информационно-поисковые языки, языки описания данных, языки манипулирования данными, языки управления заданиями, моделирования, автоматизации проектирования и т.д. Среди всех классов искусственных языков остановимся подробнее на информационно-поисковых языках (ИПЯ). Основными элементами, составляющими ИПЯ, являются: алфавит, словарный состав и грамматика.

Алфавит ИПЯ – система знаков, используемых в языке для записи отдельных слов и выражений. Это могут быть буквы естественного языка, знаки препинания, иные символы, в том числе цифры.

Словарный состав или лексика ИПЯ – совокупность слов, слово-сочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лексических единиц ИПЯ используются:

слова, фрагменты слов, словосочетания и выражения любого естественного языка;
коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, выступающие в роли имен соответствующих классов;
шифры и коды в сочетании со словами, словосочетаниями и выражениями.

Существуют разные способы формирования словарного состава ИПЯ:

Перечисление всех лексических единиц ИПЯ;
Перечисление части лексических единиц и задание правил формирования из них других лексических единиц;
Задание правил построения лексических единиц, слов и выражений естественного языка.

Первый способ задания лексики не поддается автоматизации и не требует больших интеллектуальных усилий. Лексика ИПЯ в большинстве случаев не позволяет достаточно точно выразить смысловое содержание текстов и оказывается жестко фиксированной.

Второй способ может быть полностью автоматизирован, но требует больших интеллектуальных затрат на определение правил формирования лексики. Однако научный подход к формированию словарного состава делает его более совершенным, обеспечивает единообразие и уменьшает субъективизм при построении лексики.

Третий способ занимает промежуточное положение и в отношении интеллектуальных усилий, и в отношении автоматизации процессов.

Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология – совокупность средств и способов построения и изменения слов. Синтаксис – совокупность средств и способов соединения слов в выражения и фразы.

Требования к ИПЯ:

ИПЯ должен располагать набором лексико-грамматических механизмов для однозначного толкования основного содержания документа.
ИПЯ должен быть не двусмысленным. Любое выражение ИПЯ должно восприниматься однозначно, что отличает его от естественного языка, для которого характерна многозначность.
ИПЯ должен быть удобным для алгоритмизации.

Дескрипторные ИПЯ строятся на основе принципа координатного индексирования, предполагающего выражение основного смыслового содержания документа списком ключевых слов.

Дескрипторные ИПЯ состоят из следующих элементов:

Лексические единицы (ЛЕ), обеспечивающие выделение определенных частей текста с последующей заменой их кодами лексических единиц;
Грамматика – правила применения ИПЯ, которые задают процедуру перевода на ИПЯ текстов на естественном языке в документах и запросах;
Словари и правила их применения – правила, определяющие процедуру изменения и совершенствования ИПЯ.

Различают две группы словарей ЛЕ: а) основные лексические словари, формирующие основную лексику ИПЯ; б) морфологические словари, позволяющие осуществлять морфологический анализ и проводить нормализацию слов.

Основу ЛЕ основных словарей составляют ключевые слова, устойчивые словосочетания и дескрипторы. Соответственно словари, содержащие эти элементы, называются: "Словарь ключевых слов", "Словарь словосочетаний" и "Словарь дескрипторов".

Ключевым словом (КС) называют полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС.

Словосочетание – последовательность нескольких слов (обычно 2 – 5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Часто словосочетание используется как ключевое слово. Как правило, словарь КС включает как отдельные слова, так и словосочетания. Однако по сравнению с количеством отдельных слов в словаре количество словосочетаний мало.

Дескриптор – группа тождественных или близких по смыслу КС, используемых как имя класса синонимов. Дескрипторами могут быть код, слово или словосочетание.

Словарь дескрипторов с установленными парадигматическими связями между его элементами называется тезаурусом. Тезаурус – основной тип словаря в современных ИПС.

Информационно-поисковый тезаурус (ИПТ) – нормативный словарь-справочник, фиксирующий определенную область знаний человечества в данной предметной области. Между элементами ИПТ устанавливаются парадигматические отношения.

В качестве наиболее значимых парадигматических отношений ИПТ выступают отношения вида:

часть–целое и целое–часть;
соподчинение;
вид–род;
функциональное сходство;
причина–следствие и следствие–причина.

Парадигматические отношения выражаются в ИПТ следующими способами:

лексикографически (с помощью ссылок);
аналитически (с помощью кодов);
таблично (с помощью связывающих слова таблиц);
графически (с помощью графов).

Системы индексирования. Индексирование – процесс перевода на ИПЯ текстов естественного языка. Индексирование основывается на совокупности подробных инструкций, описывающих процесс индексирования, включающих и правила использования ИПЯ.

Система индексирования (СИ) – совокупность средств и методов перевода текстов на ИПЯ с естественного языка с помощью заданного набора словарей ЛЕ и правил применения ИПЯ. Кроме этого, система индексирования включает большое разнообразие инструкций, правил, определяющих различные этапы процесса индексирования.

Типы систем индексирования. Различают следующие типы систем индексирования:

По степени автоматизации процедуры индексирования различают:

автоматизированного индексирования;
автоматического индексирования;
ручного индексирования.

По степени контролируемости СИ бывают:

со свободным словарем;
с жестким словарем;
без словаря (может быть факультативное использование словарей).

По виду алгоритма отбора слов текста СИ различают:

со статистическими процедурами выбора слов;
с эвристическими процедурами выбора слов;
с последовательным просмотром текста.

По типу лексикографического контроля различают системы:

с полным контролем;
без лексикографического контроля;
с промежуточным контролем.

Основным назначением лексикографического контроля является:

устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
приведение всех слов к нормальному виду на основе морфологических нормативных словарей.

В системах с полным контролем реализуются обе функции лексикографического контроля. В СИ с промежуточным контролем эти функции реализуются частично.

По виду морфологического анализа слов различают СИ с морфологическим анализом на основе:

сморфологического анализа с усечением слов;
основных лексических словарей;
морфологических словарей.

В то же время существуют и системы индексирования без морфологического анализа. Приведем несколько примеров систем индексирования.

В системах свободного индексирования индексатор выбирает слова или словосочетания, отражающие наиболее точно содержание текста. При этом могут использоваться важные для выражения смысла, но отсутствующие слова. Таким образом формируется поисковый образ текста. Так работают СИ с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексикографического контроля и морфологического анализа.

В системах полусвободного индексирования процедура индексирования выполняется аналогичным образом, но сформированный список слов сравнивается со словарем, и слова, не присутствующие в словаре, отбрасываются и не участвуют в формировании ПОД.

Системы жесткого индексирования используются только слова, присутствующие в тексте, которые затем включаются в ПОД. Перед этим проводится морфологическая нормализация слов из основных лексических словарей.

И, наконец, в системах статистического автокодирования в соответствии с заданными статистическими процедурами выбираются слова из текста, после чего проводится их статистическое кодирование за счет усечения слов по заданным алгоритмам позиционной статистики.

Информационный анализ/синтез.

Цель научной деятельности – переработка информации для создания новой научной информации. Частью научной деятельности является информационная деятельность, представляющая собой совокупность различных операций с информацией, начиная от восприятия и заканчивая выдачей, в рамках системы научных коммуникаций. Эти операции не отделимы от научного творчества специалистов.

Информационное обслуживание – область информационной деятельности профессионального характера, направленная на удовлетворение информационных потребностей различных групп населения. Все операции по информационному обслуживанию (оформление, сбор, аналитико-синтетическая переработка, хранение, поиск и распространение информации) выполняются профессионалами в информационной сфере для повышения эффективности творческой деятельности научных и технических работников. Перечисленные операции в большинстве случаев могут быть отделены от творческой деятельности специалистов и в силу специализации более квалифицированно выполняться информационными работниками.

Информационное обслуживание по способу удовлетворения информационных потребностей делится на три вида:

документальное, предполагающее предоставление первичных документов (необходимую выборку фактов из этих документов специалисты извлекают самостоятельно);

фактографическое, предусматривающее непосредственное предоставление имеющихся фактов и концепций, минуя первичные документы;

концептографическое – представление специалистам развернутой, а также интерпретированной информации.

Информационное обеспечение представляет собой комплекс средств и методов документального, фактографического и концептографического обслуживания, которые используются для удовлетворения потребностей в информации в каждой конкретной ситуации.

Анализ научный – метод исследования, суть которого состоит в том, что изучаемое явление или предмет разделяется на составные части, каждая из которых изучается в отдельности как часть целого. Анализ обычно выполняют в целях последующего соединения этих частей в единое целое с помощью синтеза с одновременным получением новых знаний.

Синтез научный – метод исследования, суть которого состоит в соединении частей предмета, выделенных в ходе анализа, в установлении связей между частями, в изучении предмета как единого целого. Таким образом, можно сделать вывод, что анализ выполняется в интересах синтеза, который немыслим без анализа.

Информационные анализ и синтез лежат в основе информационного обслуживания. Информационный анализ предполагает преобразование документа для извлечения из него наиболее важных, релевантных задаче анализа, компонентов текста – слов, фраз, фрагментов; а информационный синтез обобщает и объединяет эти сведения для получения вторичных документов различного функционала – библиографические описания, аннотации, обзоры, дайджесты и др.

Сущность и виды информационного свертывания.

Под свертыванием (развертыванием) информации понимается аналитико-синтетическая переработка текста или сообщения, изменяющая его физический объем и приводящая к уменьшению (или увеличению) его информативности. Наиболее распространенными видами свертывания (развертывания) являются: аннотирование, реферирование, конспектирование, фактографический анализ, рецензирование, обзорная деятельность и др. При этом к развертыванию относят операции, приводящие к увеличению физического объема текста внесением в текст необходимых уточнений и пояснений, обеспечивающих лучшее восприятие этого текста. Так же как и анализ и синтез, свертывание и развертывание – операции взаимозависимые и взаимопереходящие.

Термин "свертывание" находит широкое распространение в таких областях знания, как лингвистика, философия, библиографоведение, теория информации, информатика, физика и др. И хотя в этих областях этот термин часто имеет различное значение, он всегда обозначает уменьшение определенных объектов, выделение каких-то свойств, особенностей, признаков.

В науке в качестве "сверток" выступают законы, теоремы, аксиомы, постулаты, формулы и другие «концентрации» знаний, содержащие в себе наиболее важное, необходимое и являющиеся результатом обобщения огромного фактического материала. И наоборот, доказательство тех или иных теорем, выведение формул, интерпретация данных представляют собой процедуру развертывания информации.

Частным, но наиболее сложным случаем информационного свертывания/развертывания является автоматизированный процесс аналитико-синтетической переработки информации, т.е. компьютерное свертывание/развертывание. К компьютерному свертыванию/развертыванию относятся конспектирование, индексирование, реферирование, аннотирование, фрагментирование, перевод. Трудности здесь связаны со сложностью, а часто и невозможностью алгоритмизации и формализации мыслительных процессов, сопровождающих перечисленные разновидности анализа и синтеза.

Работы в направлении автоматизации семантических процессов ведутся многие десятилетия, начиная с появления первых ЭВМ.

Особо хочется отметить работы в области машинного перевода, но, столкнувшись с метафоричностью полисемичных языков, разработчики осознали всю сложность быстрого решения этой проблемы. И хотя системы машинного перевода пользуются большой популярностью, качество этих переводов еще пока далеко от качества интеллектуальных переводов. Тем не менее это значительное достижение, так как автоматизация семантических процессов избавляет от лишних временных и трудовых затрат.

Достигнуты значительные успехи и в области информационного поиска и индексирования. Время дескрипторных языков, на которые в свое время делались ставки как на семантически сильные ИПЯ, практически прошло. Созданные для обслуживания АИПС дескрипторные языки по мере развития средств вычислительной техники и обслуживающего программного обеспечения уступили лидерство языкам ключевых слов (практически естественным языкам), так как оказались неконкурентоспособны из-за своей плохой тематической совместимости. Однако неправильный учет в языке ключевых слов различных отношений, в том числе парадигматических, приводит в процессе поиска к значительному снижению качества работы АИПС.

Наконец, третье направление автоматизированного свертывания –автоматическое реферирование, занимающее промежуточное положение между наименьшим и наибольшим уровнями свертывания (переводом и индексированием соответственно). Однако это направление очень специфично, так как сводится к извлечению из текстов минимальных релевантных фрагментов, совокупность которых может образовывать широкий набор вторичных документов (аннотации, реферативные аннотации, рефераты, конспекты, самостоятельные фрагменты) и их синтезированных производных (дайджесты, реферативные указатели, реферативные обзоры, квазихрестоматии). Эти вторичные документы, получаемые в результате аналитико-синтетической переработки первичного документа, рассчитаны на удовлетворение информационных потребностей всех категорий специалистов науки, технологий, техники и производства.

Эффективность поиска в АИПС.

Эффективность АИПС оценивается исходя из анализа затрат системы на информационное обеспечение основной деятельности и оценки эффекта, который получается за счет использования информации, предоставляемой АИПС. Однако, часто не существует возможности для количественной оценки "полезности" итогов основной деятельности, особенно если речь идет о юридических, психологических, моральных и т.п. результатах. Еще большие сложности вызывает оценка части эффекта основной деятельности, полученной за счет использования требуемой информации.

Поэтому, а также в связи с тем, что экономическую эффективность АИПС оценить в процессе анализа ее функционирования сложно, ограничиваются оценкой функциональной эффективности АИПС, под которой понимают меру соответствия системы своему целевому предназначению. При этом целью функционирования АИПС является информационное обеспечение пользователей системы и оперативный поиск необходимой пользователям информации.

Функциональная эффективность АИПС оценивается следующими основными показателями:

полнота поиска;

специфичность поиска;

точность поиска;

оперативность поиска.

Оценка любого из этих показателей связана с определением неформальной релевантности информационному запросу выданной информации.

Различают формальную и действительную релевантности.

Формальная релевантность оценивает соответствие поискового образа документа поисковому образу запроса. Поскольку эти поисковые запросы представляются как формализованные структуры, то их оценку может дать только компьютер. Но для этого необходимо задание компьютеру формального выражения критерия релевантности.

Действительная релевантность оценивается только человеком и связана со смысловым соответствием документа тексту информационного запроса, выполненного на естественном языке. Критерий, которым пользуется человек при принятии решения о действительной релевантности, сформулировать невозможнo.

В процессе переводов информационных запросов в ПОЗ, информационного сообщения в ПОД, информационной потребности в информационный запрос возникают, как правило, определенные семантические искажения. Поэтому формальная и действительная релевантности весьма существенно отличаются. Документ, формально признанный системой релевантным, может не являться релевантным с точки зрения потребителя. Однако АИПС определяет только формальную релевантность. Релевантность же выданных документов информационному запросу может быть оценена только экспертами или потребителем информации.

Пусть оценка релевантности проведена и база данных АИПС разделилась условно на два подмножества по отношению к заданному информационному запросу:

подмножество формально нерелевантных документов;

подмножество формально релевантных документов.

Полнота поиска равна отношению числа выданных релевантных документов (Рв) к общему числу релевантных документов массива (Р = Рв + Рн): П = Рв / (Рв + Рн), где Рн – число невыданных релевантных документов.

Точность поиска – отношение числа выданных релевантных документов (Рв) к общему числу выданных документов (О = Рв + Нв): Т = Рв / (Рв + Нв), где Нв – число выданных нерелевантных документов.

Специфичность поиска – отношение числа невыданных нерелевантных документов (Нн) к общему числу нерелевантных документов (Н = Нн + Нв): С = Нн / (Нн + Нв).

Показатели полноты поиска и точности поиска обратно пропорциональны, и повышение полноты поиска в АИПС сопровождается уменьшением точности поиска и наоборот.

Существуют различные методы для определения релевантности документов в БД, позволяющие определить количество релевантных документов в БД АИПС, не делая анализа всей БД:

Использование запросов, нацеленных на поиск заранее заданных документов и последующее определение в выборке доли заданных документов. Так можно оценить и полноту поиска.

Случайная выборка части документов, определение доли релевантных документов в выборке и последующая аппроксимация полученных данных на всю БД.

Выполнение серии поисков с использованием последовательно модифицируемого запроса и определение накапливаемых в ходе модификации запроса релевантных документов.

Современные информационно-поисковые системы.

На заре развития компьютерных технологий и Интернета вопрос поиска нужной информации на сайтах не стоял так остро, так как сайтов в то время по отношению к сегодняшним дням было совсем немного. В те годы поиск осуществлялся по тематическим каталогам сайтов, и этого было достаточно. Первым таким каталогом в 1994 году стал Yahoo. Тогда этот ресурс еще не был поисковой машиной, а представлял собой каталог зарегистрированных на нем сайтов. Также стоит отметить, что Интернетом пользовались в основном сотрудники научных организаций и преподаватели университетов. Широкая аудитория во Всемирную паутину пока не попала.

Прорыв начался во второй половине 1990-х годов. В 1995 году появились первые полноценные поисковые системы – Lucos и Altavista. В 1997 году появились Google и Yandex – сегодняшние лидеры среди поисковых систем в России и в мире.

Далее – долгий путь совершенствования алгоритмов поиска, создание своих баз данных. В итоге оказалось, что успешно эти задачи могут решать лишь единицы – на сегодняшний день только три поисковых системы за рубежом обладают своими алгоритмами поиска и информационными базами - Google, Yahoo, MSN Search. В России это – Яндекс и Search.Mail.ru. Поисковая система состоит из следующих компонентов:

WEB-сервер: компьютер, в котором находится поисковая машина;

паук – программа, разработанная для сканирования и работающая с HTML-кодом страницы напрямую, скачивает ее в базу данных поисковой машины;

путешествующий паук – программа для анализа внешних ссылок страниц;

индексатор – анализирует HTML-код, т.е индексирует скачанные WEB-страницы;

база данных – здесь хранятся закаченные WEB-страницы;

поисковый движок, который выдает результаты, – именно эта программа решает порядок соответствия WEB-страниц запросам пользователей, т.е формирует выдачу.

Российский рейтинг поисковых систем. В России наибольшей популярностью пользуются пять поисковых систем.

5-е место – Bing. Эта поисковая система занимает 5-ю ступеньку в рейтинге лучших поисковых систем. Ей принадлежит 0,6% российского рынка такого рода услуг. Поисковик был создан Microsoft в 2009 году. Особенности:

Bing построен на движке Kumo, который плохо индексирует русскоязычные сайты;

результат выдачи выдается по категориям, на которые разбиты сайты;

этот поисковик хорошо работает с видео и Flash–анимацией;

есть возможность поиска по изображениям.

4-е место – Rambler. Rambler - эта поисковая система – на 4-м месте в рейтинге. Рамблер создан и запущен российскими учеными в 1997 году, ему принадлежит 0,8% российского поискового рынка. Особенности:

поисковый индекс обновляется ежедневно, поэтому легко найти самую свежую информацию;

с 2011 года, по соглашению с Яндексом, использует его поисковый алгоритм и уже не является самостоятельной поисковой системой.

3-е место – Search.Mail.ru. Поисковый сервис от компании Mail.ru располагается на 3-м месте в рейтинге лучших поисковиков Рунета, занимая 8,3% рынка. Компания Mail.ru начинала свое существование как почтовый сервис, но сейчас она предоставляет, кроме него, еще 40 крупных сервисов, в том числе и поисковый. Особенности:

поиск Mail.ru находится по адресу http://go.mail.ru;

поисковая система при поиске за рубежом работает на базе движка от Google, а для поиска в Рунете использует собственный – GoGo.ru;

для ранжирования сайтов используется порядка 250 факторов, включая поведенческий фактор;

есть возможность поиска по изображениям.

2-е место – Google. Этот гигант мирового уровня так и не захватил лидерство и находится на 2-м месте в рейтинге, занимая большую долю рынка – 35,1%. Google является крупнейшей поисковой системой в мире, поэтому комментарии здесь излишни. Особенности:

поисковая система имеет свой собственный движок и алгоритм поиска, собственные показатели ранжирования, которые все знают под аббревиатурой PR (PageRank);

Google имеет большое количество популярнейших сервисов, тесно интегрированных с поисковой системой, включая рекламные объявления сайтов – Adwords;

Google имеет более 100 региональных версий в разных странах мира.

1-е место – Яндекс. Лидер Рунета – его доля в поисковом рынке – 54,1%. Компания быстро развивается, имеет свои алгоритмы поиска и показатель ранжирования сайтов – ТИЦ. Особенности:

поисковик использует алгоритм персонализированного поиска и геозависимости запросов в зависимости от региона сайта и пользователя;

в Яндексе работает система подсказок, исправляются ошибки;

Яндекс имеет большое количество полезных приложений, в которые интегрирована поисковая система.

Мировой рейтинг ИПС. В мире безусловным лидером среди поисковых систем является Google. Этой поисковой системой пользуется больше половины всего человечества. Примечательно, что в ТОП-5 на 4-м месте находится российская поисковая система Yandex.

5-е место – Bing. Эта поисковая система была разработана и запущена корпорацией Microsoft в 2009 году, она моложе своих конкурентов. Тем не менее она получила такую большую популярность благодаря тому, что интегрирована в большое количество программных продуктов Microsoft. Занимает 5-е место в рейтинге мировых лидеров поиска. Особенности:

Bing имеет свой алгоритм ранжирования, похожий на Google;

система имеет качественный поиск по медиафайлам, который дает возможность хорошо отсортировать результат поиска;

у поисковика свое отношение к плотности ключевых слов – считается нормальной цифра 3%, в то время как у других систем – от 6 до 8%.

4-е место – Яндекс. Удивительно – эта поисковая система, созданная россиянами Аркадием Воложем и Ильей Сегаловичем, лидирует не только на просторах Рунета, но и входит в число мировых лидеров, занимая 4-е место в мировом рейтинге поисковых систем. Особенности:

программное обеспечение Яндекс базируется на собственной технологии Матрикснет – таким образом программы самообучаются, учитывая очень много факторов ранжирования;

кроме поиска, Яндекс имеет массу полезных приложений – например, его географические карты на территории СНГ гораздо подробнее, чем у Google;

у поисковика есть серьезный недостаток – низкая скорость обнаружения нового контента.

3-е место – Yahoo!. Этот американский поисковик создан научными сотрудниками Стэнфорда Джерри Янгом и Дэвидом Файло, он уже давно находится в мировом Интернете – с 1994 года. Было время, когда он был вторым после Google в мировом рейтинге, но китайцы его опередили. В итоге – 3-е место в рейтинге и 6% всего мирового рынка поисковых систем. Особенности:

Yahoo! использует для поиска свои собственные алгоритмы и программное обеспечение;

система интернациональна – ее локализации есть во многих странах мира;

для того чтобы сайт индексировался поисковой системой, его надо добавить в каталог Yahoo!

2-е место – Baidu. Китайцы создали своего гиганта – поисковую машину Baidu. Сегодня она обслуживает около 18% всего поискового рынка и занимает заслуженное 2-е место в мировом рейтинге. Особенности:

эта поисковая система используется только в Китае, других локализаций нет;

количество пользователей Интернета в Китае – более 600 миллионов, 1/4 часть мирового интернет-сообщества;

Baidu уделяет в поиске и ранжировании большое внимание внешним ссылкам.

1-е место – Google. Это американское детище Ларри Пейджа и Сергея Брина, на сегодня – самый крупный софтверный гигант в мире, уже давно обошедший Microsoft по многим показателям. И его основной стержень – поисковая система, обслуживающая 68% мирового рынка поисковых систем, совместно с приложением Adwords, приносящие компании огромные прибыли. В мире около двадцати стран, где доля Google в поиске составляет более 90% (например, во Франции, Германии). Особенности:

Google имеет свой фактор ранжирования сайтов – PageRank, свой алгоритм поиска и движок поисковой системы;

кроме поисковой системы, Google предоставляет пользователям более 50 полезных приложений;

интересный факт: Google является самым крупным в мире сборщиком компьютеров для своих нужд, в основном для дата-центров, количество которых в мире более миллиона;

поисковая база обновляется ежедневно по нескольку раз;

самая большая в мире база данных – более 3 миллиардов страниц;

поисковая система обладает наилучшим качеством поиска, система считается самой быстрой и надежной в мире.

Формулирование запросов в ИПС.

Благодаря внедрению новых языковых технологий поисковые системы стали гораздо лучше понимать пользователя. Поисковики могут искать как запрашиваемое слово, так и его словоформы. Это позволяет делать более точными результаты поиска. Конечно, страницы со словоформами не будут в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт необходимо учитывать при построении поисковых запросов.

Следует помнить о том, что поисковые системы при обработке запроса не учитывают положение регистра символов, знаки препинания, так как они игнорируются поисковыми серверами. Однако при построении расширенных запросов, дающих более точные результаты поиска, традиционные знаки препинания используются. Большинство поисковых систем может бороться с опечатками.

Основная задача пользователя при составлении поискового запроса — выделить ключевые слова, задача поискового сервера — наилучшим образом обработать введенный запрос. Вот несколько правил составления запросов:

выбирать необходимо только самые важные ключевые слова, касающиеся рассматриваемой темы;
количество слов должно быть оптимальным (не слишком много, но и не слишком мало);
при отрицательных результатах поиска, необходимо использовать более «мягкие» условия для последующего запроса или использовать альтернативную поисковую систему (так как механизмы работы поисковиков отличаются друг от друга, то и результаты также могут различаться);
для обеспечения более эффективного поиска необходимо использовать возможности расширенного поиска с указанием множества различных параметров, а также поиска с использованием языка запросов.

Следующая тема