Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Обработка коротких параграфов #33

Closed
audetv opened this issue Jul 19, 2023 · 4 comments · Fixed by #31
Closed

Обработка коротких параграфов #33

audetv opened this issue Jul 19, 2023 · 4 comments · Fixed by #31

Comments

@audetv
Copy link
Collaborator

audetv commented Jul 19, 2023

          > Позже могу обновить БД на сервере, и можно оценить , что получилось со склейкой и с новыми файлами, но ближе к вечеру. Если ок, оставляем вариант со склейкой, или скорректируем. Можно сейчас скорректировать длину параграфа 800 символов если есть предложения.

Я попытаюсь добить длинные параграфы и предлагаю уже обновлять с новыми файлами, я их подгружу туда же, и просто те что в архиве нужно будет заменить на новые (чтобы не собирать и не перекачивать весь архив).

При выборе значения 800, я руководствовался записями из это темы:

По моим замерам «нормальный» параграф лежит в разбеге от 800 символов / 100 слов до 2500 символов / 300 слов

Так всё верно — 1х = 800/100 символов/слов, 3х=2500/300 символов/слов, соответственно «средний» будет как раз 2х = 1500/200 символов/слов. У меня была указана вилка минимум/максимум, вы взяли по минимальной оценке, это логично, а я предлагаю взять по средней оценке, иными словами к параграфам «минимальным» будет добавляться обрезок например заголовок, таблица и так далее. Пусть все параграфы в целом усредняются, нам это ничем не мешает, только улучшает систематическое поведение алгоритмов по вхождению, расстоянию и тд. С той же целью бьются большие параграфы — чтобы улучшить поведение системы, выдавать более предсказуемые результаты.

Originally posted by @iprst in #31 (comment)

@audetv
Copy link
Collaborator Author

audetv commented Jul 19, 2023

Ещё раз уточняю, все таки делаем нижнюю границу 1600 символов? Это нормально?
Некоторые параграфы могут стать под 3000 символов — верхняя граница при сложении 1600 + 1600, статистически вероятны такие случаи. Нас это устраивает?
В принципе на локальном компьютере меня ничего не останавливает это проверить, сделаю и посмотрю результат.

@iprst
Copy link
Collaborator

iprst commented Jul 19, 2023

Да, наверное 1600 может дать выпадающие за норму результаты.
Лучше тогда сделать посередине между 800 и 1600 — 1200 символов.

@audetv
Copy link
Collaborator Author

audetv commented Jul 20, 2023

Сделан выпуск: https://github.com/terratensor/book-parser/releases/tag/v.0.2.0

Установлено минимальное значение длины параграфа, значение по умолчанию — 1200 символов.

Запуск проекта: https://github.com/terratensor/common_library_parser
Документация отредактирована в соответствии с текущей версией парсера v0.2.0

@iprst
Copy link
Collaborator

iprst commented Jul 22, 2023

Судя по всему начальный issue можно закрывать, далее на время тестирования предлагаю обсуждать все вопросы в специальном топике #39 «Тестирование поиска по военно-исторической библиотеке»

@iprst iprst closed this as completed Jul 22, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
2 participants