Информационные технологии в лингвистике/Архитектура Web-пространства
Теория
[править]Запустите презентацию Поиск информации в интернете. Введение, в то случае если презентация не запустится, смотрите информацию ниже (краткий конспект презентации И.М. Печищев) :
Введение
Объем информации в интернете увеличивается в геометрической прогрессии:
- 1998 г. – количество web-сайтов – около 1 миллиона
- 2004 г. - web-сайтов – 50 миллионов, web-страниц – 10 миллиардов
- 2006 г. - (июль) 88 166 395 сайтов.
Русскоязычный интернет
В поисковой системе Яндекс на июль 2006 года проиндексировано:
- сайтов: 2 832 533,
- web-страниц: 1 058 914 756,
- объем проиндексированной информации: 24 778 ГБ.
Проблема:
- Переизбыток информации
- Пользователи тратят много времени на поиск нужной информации.
Для эффективного поиска информации нужно:
- Иметь представление о структуре интернета.
- Иметь представление о способах и методах поиска информации в интернете.
- Уметь сформулировать запрос и выбрать ответ из результатов поиска.
Структура информационного пространства интернета
Источники информации
- компании и организации,
- физические лица,
- журналисты и редакторы сетевых СМИ и информагентств,
- сотрудники информационных и консалтинговых компаний, создающие специализированные базы данных
Модель web-пространства
Основой для построения модели web-пространства могут стать гиперссылки.
Проследив с помощью поискового механизма 200 млн. web-страниц и несколько миллиардов ссылок ученые пришли к выводу о неоднородной структуре интернета и создали топологическую модель, близкую к модели Bow Tie (галстук-бабочка) [1].
Данная модель включает:
- центральное ядро ( ≈ 28% web-страниц);
- «Отправные» web-страницы ( 22%);
- «Конечные» web-страницы ( 22%);
- «Отростки» ( 22%);
- «Острова» (около 10%).
Топология и характеристики модели Bow Tie оказались примерно одинаковыми и для различных подмножеств web-пространства. Это позволило сделать вывод о том, что Web пространство обладает свойствами фрактала.
Скрытый Web
По оценке компании BrightPlanet сделанной еще в 2000 году число скрытых ресурсов в интернете в сотни раз больше, чем доступных через поисковые системы. Web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web», invisible («невидимый») Web, Глубокая паутина
К скрытому Web относятся следующие web-ресурсы:
- Динамически генерируемые страницы
- Информация из баз данных
- Файлы нераспознаваемых форматов
- Системы интерактивного взаимодействия с пользователем
- Платные сайты, защищенные паролем
- и др.
См. также
[править]Практика
[править]На своей личной странице в модуле занятие, на основе информации, найденной самостоятельно в интернете, дайте ответы на следующие вопросы:
- Количество сайтов или web-страниц в текущем году,
- Количество сайтов или web-страниц в текущем году в Рунете,
- Какие источники информации обладают наивысшей достоверностью.
- Современные оценки (на текущий год) объема скрытого Web.