-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Обработка коротких параграфов #33
Comments
Ещё раз уточняю, все таки делаем нижнюю границу 1600 символов? Это нормально? |
Да, наверное 1600 может дать выпадающие за норму результаты. |
Сделан выпуск: https://github.com/terratensor/book-parser/releases/tag/v.0.2.0 Установлено минимальное значение длины параграфа, значение по умолчанию — 1200 символов. Запуск проекта: https://github.com/terratensor/common_library_parser |
Судя по всему начальный issue можно закрывать, далее на время тестирования предлагаю обсуждать все вопросы в специальном топике #39 «Тестирование поиска по военно-исторической библиотеке» |
Я попытаюсь добить длинные параграфы и предлагаю уже обновлять с новыми файлами, я их подгружу туда же, и просто те что в архиве нужно будет заменить на новые (чтобы не собирать и не перекачивать весь архив).
Так всё верно — 1х = 800/100 символов/слов, 3х=2500/300 символов/слов, соответственно «средний» будет как раз 2х = 1500/200 символов/слов. У меня была указана вилка минимум/максимум, вы взяли по минимальной оценке, это логично, а я предлагаю взять по средней оценке, иными словами к параграфам «минимальным» будет добавляться обрезок например заголовок, таблица и так далее. Пусть все параграфы в целом усредняются, нам это ничем не мешает, только улучшает систематическое поведение алгоритмов по вхождению, расстоянию и тд. С той же целью бьются большие параграфы — чтобы улучшить поведение системы, выдавать более предсказуемые результаты.
Originally posted by @iprst in #31 (comment)
The text was updated successfully, but these errors were encountered: