Проблема з розбиттям на слова

Морфосинтаксовий аналізатор розбиває одне слово на два.
"Висоти AD і BK рівнобедреного трикутника ABC."
У цьому реченні слово AD розбивається на два слова A та D.

Також не дуже зрозуміло, як працювати з дробовили числами (напр. 2,3 чи 0,15), оскільки такі числа теж розділяються на три слова, де перше є цілою частиною числа, далі пунктуація, далі дробова частина.

Чи існує вирішення для цих проблем?
Дякую

Те, що розбиває AD на два слова — це помилка UDPipe. Спробуйте свіженький парсер Стенфорда, може він такого не робитиме: https://stanfordnlp.github.io/stanza/models.html#human-languages-supported-by-stanza. Там є модель для української, навчена на нашому корпусі. (Самі ми її ще не пробували.)

Числа ж задумані бути розбитими. Вважається, що синтаксово вони окремі токени. До того ж так легше, бо рахунок матчу 1:0 або час 13:30 (іноді пишуть 13.30) точно різні токени.

1 Симпатія

Дякую!
Спробував, цю проблему воно вирішує, проте створює багато нових помилок.
Тому краще все ж використовувати ваш парсер :slight_smile: