|
Доклад, посвященный ранжированию источников новостей, на семинаре "Поисковые технологии 2010"
26-28 февраля 2010 г. компания "Ашманов и Партнеры" собрала разработчиков поисковых систем на выездном семинаре "Поисковые технологии 2010″ в спортивно-развлекательном парке "Яхрома". Специалисты компаний ("Рамблер", "Яндекс", "Нигма", "Ашманов и Партнеры", Meta.ua, "Галактика", ElVisti и др.) обсудили проблемы релевантности и индексации, ситуацию с поисковым спамом и будущее поисковых систем.
Семинар был посвящен проблемам разработки и развития поисковых проектов и технологий и рассчитан на менеджеров и разработчиков поисковых систем и поисковых сервисов, прикладных лингвистов, специалистов по поиску, студентов и научных сотрудников профильных вузов и кафедр. Пресса и SEO- специалисты специально не приглашались.
На семинаре с совместным докладом от компаний "Галактика" и ElVisti по теме "Рейтинг онлайн-СМИ на основе дублирования новостей" выступил А. Антонов.
Ранжирование результатов выдачи поисковых систем, в частности новостных ресурсов, является одной из главных задач, стоящих перед современными поисковыми технологиями. В докладе были приведены методы создания рейтинга онлайн-СМИ для агрегирующего новостного ресурса www.webground.su.
Ранжирование источников основано на информации о группах найденных новостей-дубликатов и признаком времени публикации, приписанном новостям. На первом этапе алгоритм поиска дублирующихся сообщений разбивает множество новостных сообщений на непересекающиеся подмножества. После чего в каждом подмножестве сообщения ранжируются по времени публикации в убывающем порядке. Каждое из выделенных подмножеств представляется в виде направленного графа, вершинами которого являются сообщения, а ребрами - отношения в упорядочении внутри подмножества.
С целью сокращения вычислительной сложности алгоритма принято ограничение, при котором ребра могут соединять только соседние элементы упорядочения. Каждое из ребер направлено от более раннего к более позднему сообщению. К построенным графам применен алгоритм PageRank, с помощью которого каждой из вершин-сообщений на графе присваивается соответствующий вес. Использована версия алгоритма PageRank с ненормированными весами ребер. Для составления итогового рейтинга источника учитывается накопленная месячная статистика веса PageRank сообщений источника и среднее время запаздывания при публикации новостей.
Анализ результатов формирования рейтинга (пример: http://webground.su/sources.php?param=SourceList&Sort=2&Filter=0).
Презентация в формате PDF: http://dwl.visti.net/art/yahroma/yahroma.pdf
Контактное лицо: ElVisti Analitic Group (написать письмо автору)
Компания: Информационный центр "ЭЛВИСТИ" (все новости этой организации)
Добавлен: 23:47, 03.03.2010
Количество просмотров: 25
Напиши «Новую главу», Тольяттинский государственный университет, 02:03, 23.03.2022, Россия | |
Студенты Тольяттинского госуниверситета (ТГУ) разработали новую социальную сеть, которая может стать альтернативой Instagram и Facebook*. |
Бесплатный вебинар «Организация мероприятий от А до Я», Культурно-деловой центр Республики Коми в Москве, 11:10, 07.09.2017, Россия |
20 сентября 2017 года в 16:00 будет проходить бесплатный вебинар на тему «Организация мероприятий от А до Я».
Организатор вебинара ГАУ РК «Культурно-деловой центр Республики Коми в Москве». |
|
|