FlusionFind

Product Manager:

Gabriel Wallau

Scrum-master:

Título do projeto:

Flusionfind

Resumo

Este repositório abriga o FlusionFind, um pipeline para montagem e subtipagem H/N de vírus Influenza A e B a partir de dados de sequenciamento NGS. O vírus da Influenza, devido ao seu genoma segmentado composto por oito segmentos gênicos, requer uma abordagem especializada para a seleção das sequências de referência mais apropriadas. Nosso pipeline realiza automaticamente essa seleção, utilizando o IRMA para montagem e o BLAST de nucleotídeos em todas as sequências do Influenza do NCBI. Além disso, disponibilizamos aos usuários a opção de incluir suas próprias sequências de referência no processo de seleção da sequência principal. Uma vez que a sequência de referência é escolhida, o pipeline conduz o mapeamento de leituras, a chamada de variantes e a geração da sequência de consenso, incorporando máscaras de profundidade conforme necessário. Essa abordagem torna a análise de vírus Influenza mais eficiente e adaptável, fornecendo resultados precisos e personalizados para pesquisadores e profissionais de saúde.

FlusionFind

Este workflow foi desenvolvido para montar e identificar genomas de influenza utilizando ferramentas de bioinformática como IRMA, GenoFLU, Nextclade e BLAST. Implementado com Nextflow, o workflow é modular, permitindo fácil manutenção e execução eficiente das etapas envolvidas no processo. A seguir, são detalhados os componentes e o funcionamento do workflow.

Estrutura do Workflow

nextflow.config: Arquivo de configuração que define os parâmetros globais e especificações de execução dos processos, como o número de CPUs para determinadas tarefas.
main.nf: Script principal que orquestra a execução dos diferentes processos, utilizando canais para passagem de dados entre eles. Inclui os arquivos de processos individuais e define o fluxo de trabalho.
irma.nf: Script de processo para executar o IRMA (Iterative Refinement Meta-Assembler) a fim de montar os genomas de influenza a partir de arquivos FASTQ. Suporta modos single-end e paired-end.
genoflu.nf: Script de processo para executar o GenoFLU, que anota os genomas de influenza montados.
blast.nf: Script de processo para realizar buscas locais usando BLAST, comparando os genomas montados com um banco de dados especificado.
minimap2.nf: Script de processo para mapear os reads brutos contra o genoma montado.
mosdepth.nf: Script de processo para gerar métricas de qualidade, cobertura vertical e horizontal.

Fluxo de Trabalho Entrada de Dados: O usuário fornece o nome da amostra, o caminho do banco de dados e os arquivos FASTQ (obrigatórios R1 e opcionalmente R2).

Montagem de Genoma com IRMA: irma.nf: Monta o genoma de influenza a partir dos dados de sequência bruta utilizando o IRMA. Se um arquivo FASTQ R2 for fornecido, o modo paired-end é utilizado; caso contrário, o modo single-end é empregado. Os genomas montados são concatenados em um único arquivo de consenso.
Anotação com GenoFLU: genoflu.nf: Anota os genomas montados utilizando o GenoFLU, gerando um relatório de anotação.
blast.nf: Compara os genomas de consenso com um banco de dados local usando BLAST, gerando um relatório detalhado dos resultados. Execução do Workflow

Requerimentos

Docker, acesse aqui e obtenha informações de como instalar o docker em seu sistema operacional. Nextflow, acesse aqui e obtenha informações para instalar o nextflow no seu ambiente. Certifique-se que está usando a versão 23.04.1. Python, acesse aqui e saiba como instalar o python em seu ambiente, certifique-se que a versão instalada seja a 3 ou acima e instale também a biblioteca click.

pip3 install click

Como rodar o pilpeline

Para executar o workflow, use o comando Nextflow abaixo, fornecendo os parâmetros necessários:

Modo fácil

nextflow main.nf --input_dir <path/to/fastqfiles>

Modo avançado

nextflow main.nf --input_dir <path/to/fastqfiles> --database <path/to/database.tar.gz> --env <docker|singularity|conda> --library <paired|single>

Download para dados teste

Arquivos fastq

Resources and References

blast IRMA Minimap2 samtools

Benefícios do Workflow

Modularidade: Cada etapa do processo é definida em arquivos separados, permitindo fácil manutenção e reutilização dos componentes.
Escalabilidade: Utilização eficiente de recursos computacionais, como especificação de número de CPUs para o processo BLAST.
Reprodutibilidade: Adoção de Singularity para garantir que as dependências de software sejam consistentes em diferentes execuções e ambientes.
Flexibilidade: Suporte tanto para dados de sequência single-end quanto paired-end, e a capacidade de adicionar ou modificar processos conforme necessário.

Este workflow é uma solução robusta e eficiente para a montagem e identificação de genomas de influenza, facilitando análises precisas e rápidas em ambientes de pesquisa genômica.

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
Modules @ e1a72a1		Modules @ e1a72a1
bin		bin
database		database
local		local
.gitmodules		.gitmodules
README.md		README.md
createdb.sh		createdb.sh
flusionfind.sh		flusionfind.sh
main.nf		main.nf
nextflow.config		nextflow.config

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FlusionFind

Product Manager:

Scrum-master:

Título do projeto:

Resumo

FlusionFind

Estrutura do Workflow

Requerimentos

Como rodar o pilpeline

Modo fácil

Modo avançado

Download para dados teste

Resources and References

About

Releases

Packages

Languages

WallauBioinfo/FlusionFind

Folders and files

Latest commit

History

Repository files navigation

FlusionFind

Product Manager:

Scrum-master:

Título do projeto:

Resumo

FlusionFind

Estrutura do Workflow

Requerimentos

Como rodar o pilpeline

Modo fácil

Modo avançado

Download para dados teste

Resources and References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages