15.06.2016

Запущен уникальный проект — поиск по архивам «Живого Журнала» на базе поиска по блогам Яндекса, закрытого ранее

 Роман Иванов, руководитель Яндекс.Браузера, запустил частный открытый проект - сервис поиска по архивам «Живого Журнала», сохранившиеся в закрытом «Поиске по блогам» компании «Яндекс»

lj archive ЖЖ

По его словам, проект ljsear.ch предназначен для исследователей, которым будут интересны «культурные пласты нулевых годов», а также пользователей ЖЖ, желающих найти информацию тех лет (так сказать, «дневники человеческие до рождества Фейсбукова»). 

.

Роман Иванов на своей странице в Facebook сообщил о целях запуска данного проекта:

«Друзья, я и несколько добровольцев последние полгода работали над сервисом поиска по архивам ЖЖ, и сегодня запускаем его.
Важно: я тут выступаю как частное лицо, а не как сотрудник Яндекса.
Вы, может быть, знаете, что Яндекс прошлой осенью ограничил поиск в глубину одним месяцем. Это было сделано потому, что поиском в прошлое мало кто пользовался. Но ведь эти архивы совершенно уникальны. Часть журналов уже удалены авторами, часть стёрты спамерами или переведены под замок.
Я вообще считаю, что в ЖЖ нулевых годов произошла или как минимум нашла своё отражение вся русскоязычная культура нулевых годов. Это бесценный архив, особенно, если по нему можно искать.
Поэтому я попросил у Яндекса архивы ЖЖ, вспомнил основы PHP и, вместе с потрясающими добровольцами-помощниками (в частности, Nicholas Zayarny сделал дизайн), запилил поиск по ним. А прекрасные люди из servers.ru предоставили мощный сервер.
Проект исключительно мемориальный, новые записи не индексируются. Сохранённые копии недоступны на территории РФ, потому что fuck RKN. Ставьте Hola, TOR или ZenMate, они и для другого тоже пригодятся.
Пользуйтесь: https://ljsear.ch/
Сообщайте о багах, буду стараться чинить.
P.S. Сейчас ещё пытаюсь переиндексировать архивы, чтобы сделать возможным поиск по точной словоформе, а также комментариев пользователя А в журнале Б».

В сервисе собраны данные с 2000 года по осень 2015 года — 340 млн публикаций и 1 млрд комментариев, всего более терабайта информации.

.

В разговоре с vc.ru он сообщил, что это его личный некоммерческий проект, не связанный с поисковой системой:

«Я считаю, что в ЖЖ случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Культурное значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что этот архив должен быть сохранён для человечества. Ну и попросил у «Яндекса» архивы. А «Яндекс» внезапно согласился и дал их. Последние полгода я с несколькими другими волонтёрами программировал этот самый поиск и вроде бы довёл его до вменяемого состояния.

Поскольку новые записи не индексируются, то аудитория, на которую я рассчитываю — исследователи. Как в прямом смысле слова исследователи культурных пластов нулевых годов, так и просто настоящие или бывшие пользователи ЖЖ, которые хотят найти что-то, что было написано в те годы. Исходя из этого, например, я не стал ограничивать максимальное время выполнения поискового запроса — исследователь может подождать выполнения сложного запроса и минуту, и две. При этом, конечно, простые запросы выполняются быстро, а если сервис обнаруживает, что запросов сейчас задаётся много, он включает управляемую деградацию, в том числе, ограничивает таймаут запроса».

.

Разработкой сервиса занимался сам Иванов при поддержке волонтёров — в частности, дизайн сервиса создавал основатель закрытого сейчас сервиса Eviterra Николай Заярный. Поисковик расположен на хостинге Servers.ru, который предложил безвозмездную помощь Иванову.
Сейчас создатель сервиса планирует переиндексировать архив и добавить поиск по точным словоформам, а также дать возможность искать комментарий одного пользователя в журнале другого.

Чтобы предотвратить претензии со стороны правоохранительных органов, Иванов решил не показывать сохранённые копии уже удалённых записей пользователей с российских IP-адресов:

«Так сказать, заранее ограничил русских детей от возможной пропаганды суицида, гомосексуализма, наркотиков, шоплифтинга, неуплаты штрафов и перехода улицы в неположенном месте».

.

Администрация ЖЖ, к которой обратился Иванов с предложением сотрудничества, не проявила интереса к проекту.

Представитель «Яндекса» Ася Мелкумова не исключила того, что компания может дать архивы «Поиска по блогам» и другим пользователям, которые заинтересуются ими для своих сервисов.

«Яндекс» объявил о закрытии рейтинга блогеров в «Поиске по блогам» в апреле 2014 года — это произошло из-за инициативы о приравнивании блогов с посещаемостью свыше трёх тысяч пользователей в сутки к СМИ. C сентября 2015 года сервис ищет только по материалам, которые младше одного месяца. В компании объяснили это тем, что «подавляющее большинство наших пользователей ищут свежие записи, а к архивам обращаются достаточно редко». По словам Иванова, к проекту могут присоединиться в качестве волонтёров все желающие:

«…если хотите присоединиться к нам, стать волонтёром и запилить индексацию — пишите в форму на сайте, может быть, вместе мы сможем что-то изменить к лучшему.

Information wants to be free. Let’s help it!»

.

don but rks

.

Читайте также:

«Проблема есть, а слова нет» : Блогерам запретят писать о наркотиках
?
Российская национальная библиотека даёт добро на фотографирование книг и документов
?
Верховный суд России разрешил всем фотографировать, сканировать и копировать документы в госархивах

_____

rks-telegram2
Присоединяйтесь к нам в Telegram!