Esse repositório guarda os scripts (Python) utilizados para determinar quais os melhores chutes possíveis para acertar a palavra do dia em jogos tipo Termo
. Através de análise estatística de mais de 245 mil palavras em português, foi possível estimar quais são as melhores palavras para utilizar no jogo, considerando as seguintes condições:
- Uma única palavra (sem repetição de letras)
- Duas palavras (sem repetição de letras)
- Três palavras (sem repetição de letras) ---> Análise não finalizada
A seguir estão descritos as top 10 melhores (ou piores) palavras considerando o caso onde a probabilidade de cada palavra foi penalizada considerando as posições das letras.
Palavra | "Força" |
---|---|
serao | 0.084141 |
terao | 0.081602 |
lerao | 0.080955 |
verao | 0.080237 |
meiao | 0.079954 |
coras | 0.078370 |
senao | 0.077442 |
ceras | 0.077387 |
moras | 0.077378 |
roias | 0.077286 |
Palavra | "Força" |
---|---|
induz | 0.004521 |
esqui | 0.011991 |
enchi | 0.013309 |
fuzil | 0.013497 |
ungir | 0.013529 |
ilhou | 0.014051 |
infle | 0.014239 |
zumbi | 0.014274 |
chovi | 0.014548 |
enfim | 0.015369 |
Palavra 1 | Palavra 2 | "Força" |
---|---|---|
cures | pilao | 0.115462 |
ceras | muito | 0.115441 |
curto | meias | 0.115441 |
cures | timao | 0.115334 |
cinto | meras | 0.115303 |
certo | minas | 0.115303 |
ceras | minto | 0.115303 |
cento | miras | 0.115303 |
cumes | pirao | 0.114833 |
cures | filao | 0.114816 |
Palavra 1 | Palavra 2 | "Força" |
---|---|---|
escol | induz | 0.020614 |
glose | induz | 0.022064 |
expor | induz | 0.022287 |
chove | induz | 0.022990 |
induz | plote | 0.024236 |
induz | obste | 0.025825 |
chore | induz | 0.026971 |
induz | prove | 0.027244 |
induz | prole | 0.027471 |
induz | olhem | 0.027852 |
Todos os detalhes relacionados análise estatística, códigos e premissas adotadas para encontrar as melhores palavras estão descritas neste notebook, que também esta disponível via google drive.
Os resultados foram adaptados para um robô de Telegram com pyTelegramBotAPI
, que utiliza os resultados obtidos para responder ao usuário:
- quais são as melhores palavras para utilizar no primeiro chute;
- quais são as melhores palavras para utilizar nos dois primeiros chutes;
- qual o ranking de uma determinada palavra;
- qual o ranking de um determinado par de palavras
O repositório com os códigos esta disponível na subpasta termo_bot. Ele foi adaptado com Flask
para ser disponibilizado através do heroku
, e (talvez) possa ser acessado neste link https://t.me/termobotbot.
Foi desenvolvido um dashboard para encontrar a "força" de uma palavra específica! O código esta disponível na subpasta dashboard. É possível alterar a forma de cálculo e a quantidade de palavras. A Figura abaixo é um screenshot da versão finalizada.
O conjunto de dados utilizado para realizar os testes foi obtido no site do IME, no dia 22/07/2022, e conta com um pouco mais do que 245 mil palavras em português (brasileiro).