Обработка коротких параграфов #33

audetv · 2023-07-19T16:01:29Z

          > Позже могу обновить БД на сервере, и можно оценить , что получилось со склейкой и с новыми файлами, но ближе к вечеру. Если ок, оставляем вариант со склейкой, или скорректируем. Можно сейчас скорректировать длину параграфа 800 символов если есть предложения.

Я попытаюсь добить длинные параграфы и предлагаю уже обновлять с новыми файлами, я их подгружу туда же, и просто те что в архиве нужно будет заменить на новые (чтобы не собирать и не перекачивать весь архив).

При выборе значения 800, я руководствовался записями из это темы:

По моим замерам «нормальный» параграф лежит в разбеге от 800 символов / 100 слов до 2500 символов / 300 слов

Так всё верно — 1х = 800/100 символов/слов, 3х=2500/300 символов/слов, соответственно «средний» будет как раз 2х = 1500/200 символов/слов. У меня была указана вилка минимум/максимум, вы взяли по минимальной оценке, это логично, а я предлагаю взять по средней оценке, иными словами к параграфам «минимальным» будет добавляться обрезок например заголовок, таблица и так далее. Пусть все параграфы в целом усредняются, нам это ничем не мешает, только улучшает систематическое поведение алгоритмов по вхождению, расстоянию и тд. С той же целью бьются большие параграфы — чтобы улучшить поведение системы, выдавать более предсказуемые результаты.

Originally posted by @iprst in #31 (comment)

The text was updated successfully, but these errors were encountered:

audetv · 2023-07-19T16:01:46Z

Ещё раз уточняю, все таки делаем нижнюю границу 1600 символов? Это нормально?
Некоторые параграфы могут стать под 3000 символов — верхняя граница при сложении 1600 + 1600, статистически вероятны такие случаи. Нас это устраивает?
В принципе на локальном компьютере меня ничего не останавливает это проверить, сделаю и посмотрю результат.

iprst · 2023-07-19T16:23:28Z

Да, наверное 1600 может дать выпадающие за норму результаты.
Лучше тогда сделать посередине между 800 и 1600 — 1200 символов.

audetv · 2023-07-20T10:15:15Z

Сделан выпуск: https://github.com/terratensor/book-parser/releases/tag/v.0.2.0

Установлено минимальное значение длины параграфа, значение по умолчанию — 1200 символов.

Запуск проекта: https://github.com/terratensor/common_library_parser
Документация отредактирована в соответствии с текущей версией парсера v0.2.0

iprst · 2023-07-22T23:10:08Z

Судя по всему начальный issue можно закрывать, далее на время тестирования предлагаю обсуждать все вопросы в специальном топике #39 «Тестирование поиска по военно-исторической библиотеке»

audetv linked a pull request Jul 20, 2023 that will close this issue

Добавлена опция склейки параграфов до минимального значения в символах #31

Merged

iprst closed this as completed Jul 22, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Обработка коротких параграфов #33

Обработка коротких параграфов #33

audetv commented Jul 19, 2023

audetv commented Jul 19, 2023 •

edited

Loading

iprst commented Jul 19, 2023

audetv commented Jul 20, 2023

iprst commented Jul 22, 2023

Обработка коротких параграфов #33

Обработка коротких параграфов #33

Comments

audetv commented Jul 19, 2023

audetv commented Jul 19, 2023 • edited Loading

iprst commented Jul 19, 2023

audetv commented Jul 20, 2023

iprst commented Jul 22, 2023

audetv commented Jul 19, 2023 •

edited

Loading