Информационные технологии в лингвистике/Архитектура Web-пространства

Теория

Запустите презентацию Поиск информации в интернете. Введение, в то случае если презентация не запустится, смотрите информацию ниже (краткий конспект презентации И.М. Печищев) :

Введение

Объем информации в интернете увеличивается в геометрической прогрессии:

1998 г. – количество web-сайтов – около 1 миллиона
2004 г. - web-сайтов – 50 миллионов, web-страниц – 10 миллиардов
2006 г. - (июль) 88 166 395 сайтов.

Русскоязычный интернет

В поисковой системе Яндекс на июль 2006 года проиндексировано:

сайтов: 2 832 533,
web-страниц: 1 058 914 756,
объем проиндексированной информации: 24 778 ГБ.

Проблема:

Переизбыток информации
Пользователи тратят много времени на поиск нужной информации.

Для эффективного поиска информации нужно:

Иметь представление о структуре интернета.
Иметь представление о способах и методах поиска информации в интернете.
Уметь сформулировать запрос и выбрать ответ из результатов поиска.

Структура информационного пространства интернета

Источники информации

компании и организации,
физические лица,
журналисты и редакторы сетевых СМИ и информагентств,
сотрудники информационных и консалтинговых компаний, создающие специализированные базы данных

Модель web-пространства

Основой для построения модели web-пространства могут стать гиперссылки.

Проследив с помощью поискового механизма 200 млн. web-страниц и несколько миллиардов ссылок ученые пришли к выводу о неоднородной структуре интернета и создали топологическую модель, близкую к модели Bow Tie (галстук-бабочка) [1].

Данная модель включает:

центральное ядро ( ≈ 28% web-страниц);
«Отправные» web-страницы ( 22%);
«Конечные» web-страницы ( 22%);
«Отростки» ( 22%);
«Острова» (около 10%).

Топология и характеристики модели Bow Tie оказались примерно одинаковыми и для различных подмножеств web-пространства. Это позволило сделать вывод о том, что Web пространство обладает свойствами фрактала.

Скрытый Web

По оценке компании BrightPlanet сделанной еще в 2000 году число скрытых ресурсов в интернете в сотни раз больше, чем доступных через поисковые системы. Web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web», invisible («невидимый») Web, Глубокая паутина

К скрытому Web относятся следующие web-ресурсы:

Динамически генерируемые страницы
Информация из баз данных
Файлы нераспознаваемых форматов
Системы интерактивного взаимодействия с пользователем
Платные сайты, защищенные паролем
и др.

См. также

Викиучебник Поиск информации в Интернете
Поиск информации в интернете

Практика

На своей личной странице в модуле занятие, на основе информации, найденной самостоятельно в интернете, дайте ответы на следующие вопросы:

Количество сайтов или web-страниц в текущем году,
Количество сайтов или web-страниц в текущем году в Рунете,
Какие источники информации обладают наивысшей достоверностью.
Современные оценки (на текущий год) объема скрытого Web.

Теория

См. также

Практика

Навигация