Linis Crowd – краудсорсинговый веб-ресурс для создания лингвистических инструментов, требующих массовой разметки слов и текстов.

Проект реализован в рамках гранта РГНФ № 14-04-12031 «Разработка общедоступной базы данных и краудсорсингового веб-ресурса для создания инструментов сентимент-анализа».

Публикации о проекте:

Koltsova O.Y., Alexeeva S.V., Kolcov S.N. An Opinion Word Lexicon and a Training Dataset for Russian Sentiment Analysis of Social Media // Компьютерная лингвистика и интеллектуальные технологии. 2016. С. 277–287. pdf

Алексеева С.В., Кольцова Е.Ю., Кольцов С.Н. Linis-crowd.org: лексический ресурс для анализа тональности социально-политических текстов на русском языке // Компьютерная лингвистика и вычислительные онтологии: сборник научных статей. Труды XVIII объединенной конференции «Интернет и современное общество» (IMS-2015), Санкт-Петербург, 23 – 25 июня 2015 г., СПб., 2015, С. 25-32

Задачи проекта Linis Crowd:

Задача №1
Создать краудсорсинговый веб-ресурс, позволяющий добровольцам размечать слова и тексты онлайн, а исследователям и практикам – использовать результаты разметки.
Задача №2
Разработать прототип тонального словаря на основе пользовательского интернет-контента социально-политической тематики и организовать его разметку.
Задача №3
Предоставить в свободный доступ размеченный тональный словарь и коллекцию размеченных социально-политических текстов из русскоязычных блогов.
Задача №4
Открыть исследователям возможность реализовывать похожие проекты по запросу к Лаборатории интернет-исследований.

Онлайн-сервис LINIS CROWD включает функции:

Загрузка словарей и текстов для онлайн-разметки.

Хранение данных на основе технологии клиент-сервер.

Визуализация словарей и текстов для разметки.

Предоставление полной статистики и результатов.

Результатом проекта является общедоступная коллекция размеченных пользовательских интернет-текстов общественно-политического содержания и общедоступный тональный словарь, созданный на основе коллекции с помощью технологии краудсорсинга и, таким образом, учитывающий восприятие слов широким кругом самих интернет-пользователей.

Такой словарь поможет осуществлять сентимент-анализ пользовательских интернет-текстов на русском языке и, таким образом, отслеживать общественное мнение в сети.

Размеченные коллекции могут стать стандартом, на котором различные исследовательские группы смогут тестировать свои инструменты, а программное обеспечение для крауд- сорсинговой разметки словарей позволит быстро и недорого создавать новые словари и расширять уже имеющиеся.

Отчет о проектеКонтакты