Главная » Файлы » Для учня/студента » Інформатика [ Добавить материал ]

Пошук інформації в мережі Інтернет Матеріал
[ · Скачать удаленно (60 kb) ] 02.08.2010, 19:09
Взято з джерела:
Информатика. Базовый курс. 2-е издание / Под ред. С.В.Симоновича. – СПб.: Питер, 2005. – 640 с.

Пошук інформації в мережі Інтернет
План
1. Пошукові каталоги та індексні пошукові системи.
2. Нові пошукові технології.
3. Рекомендації з прийомів ефективного пошуку.
4. Рекомендації з використання пошукових систем.
5. Спеціальні можливості пошуку в програмі Internet Explorer.

Інтернет має три функції: комунікаційну, інформаційну і управлінську. Різні служби можуть забезпечувати різні функції. Хоча в рамках служби World Wide Web є сервіси, що виконують комунікаційні і управлінські функції, проте головне призначення цієї служби – інформаційне. Коли нам потрібно розшукати деякі відомості, ми звертаємося за даними в першу чергу в інформаційний простір Web.
Цей простір відрізняється гігантськими розмірами і містить декілька мільярдів веб-документів. Знайти серед них саме те, що потрібно, — це особлива, зовсім не проста задача. Зрозуміло, можна користуватися рекомендаціями знайомих, колег по роботі, адресами URL, опублікованими в засобах масової інформації, але службі WWW необхідно мати свої пошукові сервіси, і такі служби є.
Пошукова система є спеціалізованим веб-вузлом. Користувач повідомляє пошуковій системі дані про зміст шуканої веб-сторінки, а пошукова система видає список гіперпосилань на сторінки, на яких згадуються відповідні відомості. Існує декілька моделей, на яких заснована робота пошукових систем, але історично дві моделі набули найбільшої популярності — це пошукові каталоги і пошукові покажчики.
Пошукові каталоги
Пошукові каталоги побудовані за тим же принципом, що і тематичні каталоги великих бібліотек. Звернувшись до пошукового каталогу, ми знаходимо на його основній сторінці скорочений список великих тематичних категорій, наприклад таких, як Наука (Science), як показано на прикладі пошукового каталога Yahoo! (мал. 9.5).
Кожний запис в списку категорій — це гіперпосилання. Клацнувши на ньому відкривається наступна сторінка пошукового каталогу, на якому дана тема представлена докладніше, наприклад за предметами: Астрономія, Біологія, Географія, Математика, Фізика і багато інших. Клацання на назві теми (наприклад, Фізика) відкриває сторінку із списком розділів (Астрофізика, Атомна фізика, Гідродинаміка, Механіка і т. д.). Продовжуючи занурення в тему, можна дійти до списку конкретних Web-сторінок і вибрати собі той ресурс, який краще підходить для вирішення задачі.
Робота з пошуковими каталогами інтуїтивно проста. В них пошук інформації практично завжди завершується більш менш плідно. Проте за цією простотою ховається найвища складність створення і ведення каталогу. Пошукові каталоги створюються вручну, колективом висококваліфікованих редакторів. При цьому загальний об'єм каталогізованих веб-ресурсів невеликий, а ступінь обхвату загального об'єму ресурсів WWW безперервно зменшується.

Мал. 9.5. Основна сторінка пошукового каталогу Yahoo!

Не дивлячись на низький коефіцієнт обхвату, пошукові каталоги користуються величезною популярністю. Їх прийнято використовувати для первинного, реферативного пошуку інформації по заданій темі. Якщо для користувача тема є абсолютно новою і недослідженою, то йому, перш за все, потрібні покажчики на класичні, найзмістовніші ресурси, а саме це і забезпечують пошукові каталоги. Людський фактор, пов'язаний з тим, що над складанням каталогу працюють люди, а не програми, забезпечує якісний відбір найважливіших ресурсів по кожній темі.
Індексні пошукові системи
Автоматичну каталогізацію веб-ресурсів і задоволення запитів клієнтів виконують так звані індексні пошукові системи. З процесу наповнення бази даних пошукової системи виключається людський фактор. При цьому значно падає якість посилань, що надаються системою за результатами пошуку, але одночасно збільшується їх кількість.

Мал. 9.6. Пошук інформації за ключовими словами за допомогою пошукової системи Яндекс

Основний принцип роботи індексної системи полягає в пошуку веб-ресурсів за ключовими словами. Користувач описує шуканий ресурс за допомогою ключових слів, після чого дає завдання на пошук. Пошукова система аналізує дані, що зберігаються в своїй базі, і видає список веб-сторінок, відповідних запиту. Разом з гіперпосиланнями видаються короткі відомості про знайдені ресурси, на підставі яких користувач може вибрати потрібні йому ресурси (мал. 9.6).
Різні пошукові покажчики застосовують різні інформаційні технології для обробки запитів користувачів. Щоб ефективно виконувати пошук інформації в WWW, треба хоча б у загальних рисах розуміти принципи їх роботи.
Три етапи роботи індексної пошукової системи. Роботу цієї системи можна умовно розділити на три етапи. З них два етапи є підготовчими — вони непомітні для клієнта, і лише на третьому етапі відбувається взаємодія з користувачем, але від кожного з етапів залежать функціональні властивості пошукової системи і ефективність роботи з нею.
Збір первинної бази даних. На першому етапі пошукова система займається скануванням інформаційного простору World Wide Web. Для цього використовують спеціальні агентські програми — черв'яки. Не слід плутати агентів пошукових систем з різновидом мережних комп'ютерних вірусів, теж іменованих черв'яками. Черв'яки пошукових систем абсолютно нешкідливі для серверів і клієнтів WWW. По своїй суті це дуже ефективні невеликі (малооб’ємні) броузери. Їм не треба виконувати функції перегляду і відтворення вмісту — їх задача полягає тільки в тому, щоб автоматично розшукати веб-ресурси, слідуючи по гіперпосиланнях, далі їм необхідно виявити, чи відомий цей ресурс системі і якщо він не відомий, копіювати його в свою базу даних. Так само відбувається і оновлення раніше прийнятих документів, але змінених за час після попереднього копіювання.
Індексація бази даних. Зібрати базу даних мережних веб-ресурсів — ще не значить отримати функціонуючу пошукову систему. Пошук ключових слів, введених користувачем, в досить великій базі — це вельми тривала операція. Щоб не затримувати клієнта більш ніж на кілька секунд, зібрані бази даних проходять попередню обробку, так звану індексацію. На етапі індексації створюються спеціалізовані документи – пошукові індекси.
Рафінування результуючого списку. Це третій етап роботи, в ході якого здійснюється взаємодія з користувачем. На цьому етапі створюється список посилань, який буде переданий користувачу як результуючий. Уявлення користувача про якість роботи пошукової системи залежить від технологій, використаних на цьому етапі.
Рафінування полягає у фільтрації і ранжируванні результатів пошуку. Під фільтрацією розуміється відсів посилань, які недоцільно видавати користувачу. Перш за все, перевіряється наявність дублікатів. Якщо система в одному списку видає безліч посилань, що ведуть до одного і того ж веб-ресурсу, це говорить про те, що її засоби сумлінно відпрацювали два перші етапи, але нічого не зроблено на третьому етапі. Посилання, що дублюються, перенавантажують результуючий список і утруднюють вибір дійсно корисних ресурсів.
Ранжирування полягає в створенні спеціального порядку представлення результуючого списку, при якому «найкорисніші» (з погляду пошукової системи) посилання приводяться на початку списку, а менш корисні — в його кінці. Розуміння критерію «корисності» для клієнта того або іншого посилання може бути найрізноманітнішим. Саме тому різні пошукові системи, навіть працюючі з однаковими базами ресурсів, видають різні результати пошуку.

Нові пошукові технології
Автоматична каталогізація. Для пошукових каталогів питання невідповідності між розмірами дослідженого і недослідженого веб-простору стоїть особливо гостро. Перспективні напрями розвитку засновані на впровадженні так званих SMART-технологій автоматичної каталогізації.
Існує безліч теоретичних досліджень в області SMART-технологій, але найперспективнішою є модель векторного інформаційного простору. Уявімо собі експерта в якійсь області, наприклад у фізиці. Якщо йому поставити задачу, то, напевно, він зможе скласти словники, характерні для таких областей, як Механіка, Термодинаміка, Оптика і т.п. Проаналізувавши безліч документів, що відносяться до цих наукових областей, він зможе не тільки вказати характерні терміни і поняття, але і дати їм вагові оцінки. Так, наприклад, достатньо очевидно, що слово «переміщення» використовується більше в механіці, ніж в термодинаміці. Комбінуючи терміни і вагові коефіцієнти, можна будувати багатовимірні системи координат, в яких різні області знання описувалися б різними багатовимірними векторами.
Автоматично отримавши нову веб-сторінку, пошукова система може побудувати для неї математичний вектор, заснований на формальному аналізі змісту. Порівнюючи цей вектор з вже розрахованими векторами для різних галузей знаннь, система може без участі людини припустити, до якої категорії, теми і розділу відноситься той або інший документ.
При такому підході не обов'язково зберігати копії всіх відомих веб-сторінок і їх пошукові покажчики. Цілком достатньо для кожного веб-документа берегти лише його URL-адресу і число, відповідне вектору. В даний час конкретні алгоритми SMART-технологій не публікуються, але можна припустити, що вони вже працюють, наприклад в пошукових системах реального часу.
Пошукові системи реального часу. Цей новий напрям в технологіях пошуку. Для роботи з такою службою користувач повинен підключитися до її центрального серверу, отримати звідти і встановити на своєму комп'ютері клієнтську програму. Ця програма підключається до броузеру і працює як додаткова панель.
При кожному запуску броузера клієнтська програма встановлює з'єднання з своїм центральним сервером і далі працює з ним в парі. Вона передає серверу копії всіх веб-сторінок, які відвідує користувач, тобто виконує ті ж функції, що і автоматичний черв'як, що копіює веб-ресурси на сервер традиційної пошукової системи. Проте при цьому є дві істотні відмінності:
• по-перше, людина в ході навігації в WWW керується не тими принципами, що автоматична програма, тому сервер одержує копії не всіх веб-ресурсів, а тільки тих, що зацікавили когось з його клієнтів;
• по-друге, якщо поставкою веб-ресурсів займаються декілька мільйонів постійних клієнтів, індексація веб-простору відбувається набагато швидше.
У свою чергу, користувач теж має важливу перевагу. На якій би веб-сторінці він не знаходився, система завжди готова запропонувати йому список інших веб-сторінок, що мають близький за тематикою зміст. Вона готує цей список на підставі попереднього досвіду, отриманого в роботі з іншими людьми. Так можна отримати рекомендації, які б було дуже важко (а часто і неможливо) розшукати в WWW традиційними пошуковими засобами (мал. 9.7).

Рекомендації з прийомів ефективного пошуку
При проведенні первинного реферативного пошуку, коли тема задана досить широко, доцільно використовувати пошукові каталоги. Це дозволить швидко встановити місцеположення основних першоджерел. При ознайомленні з першоджерелами слід, перш за все, надавати увагу понятійній базі. Знання основних понять і термінів дозволить перейти до поглибленого пошуку в пошукових покажчиках з використанням ключових слів, які найбільш точно характеризують тему.

Мал. 9.7. При прогляданні Web-сторінки, присвяченої логічним помилкам в міркуваннях, система Alexa пропонує посилання на інші веб-сторінки аналогічної тематики

За наявності первинних відомостей з теми пошуку документи можна шукати в пошукових покажчиках. При цьому слід розрізняти прийоми простого, розширеного, контекстного і спеціального пошуку.
• Під простим пошуком розуміється пошук веб-ресурсів поодинці або за декількома ключовими словами. Недолік простого пошуку полягає в тому, що звичайно він видає дуже багато документів, серед яких важко вибрати найвідповідніші.
• При використанні розширеного пошуку ключові слова зв'язують між собою операторами логічних відносин. Розширений пошук застосовують в тих випадках, коли прийоми простого пошуку дають дуже багато результатів. За допомогою логічних відносин пошукове завдання формують так, щоб більш точно деталізувати завдання і обмежити область відбору, наприклад по даті публікації або по типу даних.
• Контекстний пошук — це пошук по точній фразі. Він зручний для реферативного пошуку інформації, але доступний далеко не у всіх пошукових системах. Перш за все, щоб забезпечувати таку можливість, система повинна працювати не тільки з індексованими файлами, але і з повноцінними веб-сторінками. Ця операція достатньо повільна, і її виконують лише небагато пошукових систем.
• Спеціальний пошук застосовують при розшуку веб-сторінок, що містять посилання на задані адреси URL, а також що містять введені дані в службових полях, наприклад в полі заголовку.

Рекомендації з використання пошукових систем
Для проведення наукових пошуків рекомендується користуватися пошуковою системою Northern Light (www.northernlight.com). Ця система має один з кращих коефіцієнтів охоплення веб-простору, і її адміністрація докладає спеціальні зусилля для підтримки актуальності своїх покажчиків. Крім того, система вдало поєднує властивості пошукового покажчика і каталогу. З найпопулярніших тем в ній можна знайти спеціальні розділи каталожного типу — вони називаються Special Editions і готуються вручну. Додатково система надає платні послуги з поставки актуальних наукових документів. Вони знаходяться в розділі Special Collection.
Найбільшим пошуковим покажчиком володіє пошукова система Fast Search (www.alltheweb.com).
В Росії в даний час найбільш ефективно використовувати пошукову систему Яндекс (www.yandex.ru), що забезпечує максимальне охоплення російського сектора WWW. Вона поєднує в собі можливості пошукового каталогу і пошукового покажчика. Особливо зручно використовувати її при формуванні складних пошукових завдань, оскільки вона володіє дуже гнучкою мовою для розширеного пошуку.

Спеціальні можл ивості пошуку в програмі Internet Explorer
Програма Internet Explorer 6.0 має спеціальні засоби організації пошуку без явного звернення до пошукових систем. Простіше всього дати завдання на пошук безпосередньо з панелі Адреса. Для цього треба ввести туди ключове слово gо, find або ? і ключову фразу або набір ключових слів. Пошук буде проведений за допомогою пошукової системи, заданої за замовчанням. Результати пошуку відображаються у вигляді списку посилань.
Інша можливість пошуку полягає в зверненні до міні-порталу, підтримуваного компанією Microsoft. Він організовує пошук за допомогою існуючих систем відповідно до уподобань користувача. Для такого пошуку слід відкрити в броузері додаткову панель Пошук, клацнувши на кнопці Пошук на панелі інструментів. Вміст панелі Пошук завантажується з веб-вузла компанії Microsoft. Ключові слова або ключова фраза вводяться в текстове поле на цій панелі.
При відкритті панелі Пошук з вікна папки вона відкривається в режимі пошуку файлів і папок на комп'ютері. В режимі перегляду веб-сторінок ця панель пропонує пошук в Інтернеті.
Пошук починається з вибору кнопки на панелі Пошук. Результати показуються на цій же панелі у вигляді спрощеної сторінки результатів, отриманих від реально використаної пошукової системи. Щоб з результатами було зручніше працювати, можна розширити панель Пошук, перетягнувши праву межу, або представити результати пошуку у вікні за допомогою команди контекстного меню Відкрити в окремому вікні.
Вибрати спосіб пошуку, що використовується, можна за допомогою кнопки Настройки на панелі Пошук. В діалоговому вікні, що відкрилося, кожна група елементів управління відповідає певному типу пошуку і дозволяє вказати, які пошукові системи повинні використовуватися.

Категория: Інформатика | Добавил: referatwm
Просмотров: 443 | Загрузок: 230 | Рейтинг: 0.0/0