Перейти к содержанию

Программирование Викиданных/Газеты

Материал из Викиверситета

Газета — это печатное периодическое издание. Статья посвящена исследованию объекта Викиданных "газета". С помощью SPARQL-запросов, вычисляемых на объектах типа "газета" Викиданных, решены следующие задачи: выведен список всех газет мира, получен перечень самых популярных жанров газет в виде пузырьковой диаграммы, определено, что в мире есть 106 газет с географической привязкой в Викиданных (свойств "coordinate location") и больше всего газет, обладающие данным свойством, имеют города в Европе и Америке. Так же был получен результат о самых многочисленных жанрах в газетах, а именно: сатира, информация, аналитика, научный журнал и всеведение.

Экземпляры объекта "Газеты"

[править]

Получим список газет во всем мире с помощью следующего скрипта:

SELECT ?newspaper ?newspaperLabel 
WHERE 
{
  ?newspaper wdt:P31 wd:Q11032.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}

SPARQL-запрос, 14949 записей.

Список газет, у которых есть метка (label) на русском и английском языках:

SELECT ?newspaper ?label_en ?label_ru WHERE {
  ?newspaper wdt:P31 wd:Q11032.
  ?newspaper rdfs:label ?label_en.
  ?newspaper rdfs:label ?label_ru.
  FILTER((LANG(?label_en)) = "en")
  FILTER((LANG(?label_ru)) = "ru")
}

SPARQL-запрос, 364 записи.

Во втором скрипте получилось меньше записей, чем у первого, так как не все газеты имеют метку (label) на русском и английском языках одновременно.

Наиболее полные и проработанные газеты на Викиданных:

Малоинформативными газетами на Викиданных были:

Полнота Викиданных

[править]

Проанализируем степень заполненности Викиданных.

По данным учебного пособия[1], к 2009 году в Российской Федерации было зарегистрировано более 50 тысяч печатных СМИ, в том числе 27425 газет и еженедельников и 20433 журнала.

По данным категории List of newspapers in Russia Английской Википедии есть 16 ежедневно выпускающихся газет в России, а так же 9 газет, которые издаются с периодичностью от одного до четырех выпусков в неделю, что составляет 0,09% от зарегистрированных газет, согласно учебному пособию [1].

По данным категории List of national newspapers Английской Википедии газета, именно в данной категории, рассматривается как национальная газета, то есть она должна распространяться по всей стране, в отличие от местной газеты, которая выходит в определённом городе или регионе. В данной категории насчитывается 87 национальных газет (0,3%), которые включают в себя столичные газеты.

По данным категории Газеты России Русской Википедии в стране насчитывается 115 газет (0,4%). Многие газеты имеют не только печатное издание, но и веб-сайт, например сайт газеты Russia Beyond the Headlines.

От общего числа зарегистрированных газет (27425) всего 0,8% газет являются заполненными, по данным всех вышеперечисленных категорий. Это говорит о низкой заполненности Викиданных.

Жанр газет

[править]

Газетные материалы должны обладать определённой направленностью — тщательным учётом всех специфических черт, свойственных аудитории той или иной страны или группы стран, для которых предназначается публикация[2].

Существует три основных жанра в газетах:

  1. информационный
  2. аналитический
  3. художественно-публицистический

К информационному жанру относятся: заметки, репортажи, интервью, отчёты. Непосредственно этот жанр передаёт аудитории все минувшие анонсы[3].

Аналитические жанры — корреспонденция, комментарий, статья, рецензия, обзор печати, письмо, обозрение — имеют более широкие временные границы, в них содержится изучение и анализ системы фактов, ситуаций, обобщения и выводы[4].

Художественно-публицистические жанры — очерк, фельетон, памфлет — имеют бóльшую эмоциональную силу, используют образно-выразительные средства[5].

Построим пузырьковую диаграмму распределения газет по жанрам.

#basic form of government ranking
#defaultView:BubbleChart
SELECT ?genre ?form (count(*) as ?count)
WHERE 
{
    ?newspaper wdt:P31 wd:Q11032. # instance of newspaper
    ?newspaper wdt:P136 ?genre .  # genre of newspaper
    OPTIONAL {
		?genre rdfs:label ?form
		filter (lang(?form) = "ru")
	}
}
GROUP BY ?genre ?form
ORDER BY DESC(?count) ASC(?form)

SPARQL-запрос, 19 результатов.

Рис. 1. Пузырьковая диаграмма распределения газет по жанрам (свойство "genre")


Из 19 жанров самыми многочисленными оказались такие: сатира, информация, аналитика, научный журнал, всеведение.

Газеты на карте

[править]

Свойство "coordinate location" подразумевает географические координаты города, в котором печатается газета. Выведем газеты, которые обладают свойством "coordinate location" на карте мира. Например, газета "Знамя" имеет в свойстве "coordinate location" следующие координаты: 54°30'34"N, 36°14'59"E, этими же географическими координатами обладает город Калуга. Это значит, что именно в Калуге печатается газета "Знамя".

#Newspapers on the world map 
#defaultView:Map
SELECT ?newspaper ?location ?newspaperLabel WHERE {
  ?newspaper wdt:P31 wd:Q11032.   # instance of newspaper
  ?newspaper wdt:P625 ?location.  # location of newspaper
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en".}
}

SPARQL-запрос, 95 результатов.

Рис. 2. Газеты со свойством "coordinate location" (географические координаты) на карте мира


С помощью данного скрипта можно заметить, что газеты со свойством "coordinate location" имеют географические координаты в большинстве случаев соответствующие городам в Европе и Америке.

Заполнение Викиданных

[править]

Свойство "genre" (жанр) подразумевает способ и форму передачи информации в газетах. Например, возьмём газету "Труд". В ней свойство "genre" (жанр) имеет значение "information" и это означает, что эта газета относится к информационному жанру.

Построим список газет без заполненного свойства genre (Q483394) и main subject (P921), чтобы узнать к каким газетам следует добавить свойство "genre" и "main subject".

SELECT ?newspaper 
WHERE
{
  ?newspaper wdt:P31 wd:Q11032.           # instance of newspaper
                                      
  { ?newspaper wdt:P17 wd:Q34266 } UNION  # Russian Empire
  { ?newspaper wdt:P17 wd:Q15180 } UNION  # Soviet Union
  { ?newspaper wdt:P17 wd:Q159 }          # Russia
 MINUS { ?newspaper wdt:P136 [] }. # newspaper without a genre
 MINUS { ?newspaper wdt:P921 [] }. # newspaper without a main subject
 SERVICE wikibase:label { bd:serviceParam wikibase:language "ru". }
}

SPARQL-запрос, 26 результатов.

В ходе работы были заполнены свойства genre и main subject в 100 газетах на Викиданных.

С помощью последнего скрипта удалось получить список из 26 газет, не имеющих свойств genre и main subject. Эти свойства у 26 газет были заполнены. Так же были рассмотрены 74 объекта в категории "Газеты России". У них были заполнены свойства genre и main subject.

Итого, заполнены свойства genre и main subject в 100 объектах (газеты).

Так как тем может быть много, а жанр у газеты один то, чтобы продемонстрировать заполнение Викиданных, строка нахождения свойства main subject закомментирована (Рис. 3). С помощью следующего скрипта построим список газет, которые имеют свойство genre (Q483394).

SELECT ?newspaper 
WHERE
{
  ?newspaper wdt:P31 wd:Q11032.           # instance of newspaper
                                         
  { ?newspaper wdt:P17 wd:Q34266 } UNION  # Russian Empire
  { ?newspaper wdt:P17 wd:Q15180 } UNION  # Soviet Union
  { ?newspaper wdt:P17 wd:Q159 }          # Russia
  { ?newspaper wdt:P136 [] }. # genre of newspaper
 # { ?newspaper wdt:P921 [] }. # main subject of newspaper
}

SPARQL-запрос, 101 результат.

Рис. 3. Газеты с жанром с Российской Империи, Советском Союзе и в России


Построим пузырьковую диаграмму по свойству "основная тема" по газетам всего мира на Викиданых:

#defaultView:BubbleChart
SELECT ?subject ?form (COUNT(*) AS ?count) WHERE {
  ?newspaper wdt:P31 wd:Q11032.      # instance of newspaper
  ?newspaper wdt:P921 ?subject.      # main subject of newspaper
  OPTIONAL {
    ?subject rdfs:label ?form.
    FILTER((LANG(?form)) = "ru")
  }
}
GROUP BY ?subject ?form
ORDER BY DESC(?count) ?form

SPARQL-запрос, 68 результатов.

Рис. 4. Пузырьковая диаграмма распределения газет со свойством "main subject" (основная тема) во всём мире


Данный скрипт показал, что наиболее популярными темами (свойство "main subject") в газетах являются:

  • новости (66 газет),
  • политика (50 газет),
  • экономическая наука (26 газет),
  • культура (21 газета),
  • спорт (21 газета).

Построим пузырьковую диаграмму по свойству "жанр" по газетам всего мира на Викиданых:

SPARQL-запрос, 20 результатов.

Рис. 5. Пузырьковая диаграмма распределения газет со свойством "genre" (жанр) во всем мире


Основными газетными жанрами являются:

  • информация (103),
  • сатира (18),
  • аналитика (5).

Жанров намного меньше, чем основных тем, так как газета может обладать только одним жанром, а тем может быть много.

Будущая работа

[править]
  1. Вывести 20 газет с тиражом, используя свойство quantity (Q41792217).
  2. Найти газету, которая дольше всех печатается в России с помощью свойства inception (P571).
  3. Создать диаграмму, на которой наглядно видно, в какой стране больше всего выпускается газет с политической и экономической тематикой. Используйте свойство main subject (P921).

Упражнения

[править]

1 Перечислены следующие названия газет: Новый взгляд, Приневский край, Частный корреспондент. А так же года их создания: 1919, 1992, 2008.
Соотнесите название газеты и дату её создания.

1919, 1992, 2008

2 Выберите газету(ы), которые печатались только в России.

Кыым
Наблюдатель
Гудок
Вестник Маньчжурии

3 Даны следующие газеты: Le Temps, Кыым, Павлово-Посадские известия, Крымская правда. Каждая из них имеет свой тираж. Тираж газеты Le Temps - 29,6 тыс., Кыым - 23 тыс., Павлово-Посадские известия - 4050, Крымская правда - 30 тыс. Газета Le Temps выходила в печать во Франции с численностью населения 66,6 млн. человек, Кыым, Павлово-Посадские известия и Крымская правда - российские газеты с численностью 146,8 млн. человек, газета Крымская правда выходила на Крымском полуострове с численностью 2,3 млн. человек. Необходимо подсчитать, сколько человек приходится на одну газету в стране и проставить ответы в порядке возрастания.

78.03, 2251.5, 6383, 36248
Le Temps
Кыым
Павлово-Посадские известия
Крымская правда


SPARQL-запросы с ответами:

Примечания

[править]

Литература

[править]

Ссылки

[править]