Компанія Grammarly опублікувала у вільному доступі другу версію анотованого GEC-корпусу української мови, що містить майже 34 000 речень.
Про це повідомили на фейсбук-сторінці Grammarly Ukraine.
Зазначається, що команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року.
Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, опублікували у відкритому доступі у січні 2021 року та відтоді працювали над його розширенням та покращенням.
Другу версію вже можна вільно завантажити на платформі GitHub.
GEC-корпус (GEC — grammatical error correction) — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.
Варто зазначити, історично для багатьох мов, зокрема і для української, таких даних у публічному доступі не було (тоді як для англійської мови є чимало анотованих GEC-корпусів). Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті.
GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі.
Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської — 1 млн 167 тис. речень. Корпус UA-GEC 2.0 зараз містить 33 735 речень.
Версія UA-GEC 2.0 відрізняється від попередньої наступними якостями:
- Збільшився розмір корпусу — до майже 34 000 речень;
- Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно);
- Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.
Grammarly подякували всім волонтерам (а це понад 800 людей), які долучилися до збору текстів, та сподівається, що корпус UA-GEC буде корисним українським та міжнародним науковим спільнотам, які займаються обробкою природної мови, а також сприятиме практичному дослідженню української мови і покращенню інструментів для роботи з нею.
Нагадаємо, Grammarly — українська онлайн-платформа на основі штучного інтелекту для допомоги у спілкуванні англійською мовою, запущена 2009 року. Grammarly підвищує якість письмового спілкування, пропонуючи рекомендації щодо правильності (граматика та механіки письма), чіткості (стислість та зрозумілість), захопливості (словниковий запас та розмаїття) та тону повідомлення (формальність, ввічливість і впевненість). Має представництва у Києві, Сан-Франциско, Нью-Йорку та Ванкувері.
Як повідомлялося, XXIII Міжнародний конкурс з української мови імені Петра Яцика розпочався 9 листопада.