Thanks to visit codestin.com
Credit goes to github.com

Skip to content

lauramble/holooligo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

HoloOligo WP2 task 3

Données

Les données déjà traitées et les fichiers nécessaires au traitement de nouvelles données se trouvent sur le cluster genotoul dans le dossier /work/genphyse/genepi/holooligo

Fichier Description
all.bed Fichier bed définissant des régions d'1Mb autour de gènes d'intérêt :
--- 9 gènes FUT
--- QTL1, GRP107, MC1R, SOX9, ASIP
corrected_Sus_scrofa.Sscrofa11.1.dna.toplevel.fa Ficher fasta corrigé pour une annotation correcte pour FUT1 (insertion nucléotide G à la position 6:59,079,640)
futs.sorted.gtf.gz Fichier d'annotation gtf corrigé pour une annotation correcte de FUT1
futonly.bed Fichier bed couvrant les gènes FUT avec 1kb en amont et en aval
sus_scrofa_2.vcf dbSNP modfié pour retirer les espaces
gvcf-all Dossier consitutant la base de donnée GATK (générée avec la commande GenomicsDBImport)

Dépendances

Liste des logiciels utilisés :

  • GATK (4.2.6.1)
  • R (4.2.2)
  • bcftools (1.11)
  • Beagle (4.0)
  • perl (5.32)
  • PHASE (2.1.1)
  • VEP (109)

Les packages R nécessaires peuvent être installés avec le script requirements.R.

Utilisation

Préparation des données

Ces étapes permettent de mettre à jour la base de données GATK et de filtrer, phaser et annoter les vcfs.

Étape 0 : Mise à jour de la base de données

Dossier de travail : 0-import_to_db

Entrée :

  • SAMPLE_MAP : voir fichier exemple ou documentation GATK
  • REGION : région cible sous forme de chaîne de caractères (ex: 1:0-10000) ou chemin vers fichier .bed
  • DB : chemin vers la base de données

Procédure :

  • Ouvrir le script import_to_db.shet adapter les variables d'entrées aux données
  • Lancer le script import_to_db.sh sur genotoul (ou copier-coller dans terminal genotoul)

Sortie :

  • Aucune

Etape 1 : Extraction vcf

Dossier de travail: 1-extract_from_db

Entrée :

  • REF : génome de référence
  • DB : chemin vers la base de données
  • REGION : région cible sous forme de chaîne de caractères (ex: 1:0-10000) ou chemin vers fichier .bed
  • NAME : nom du fichier de sortie
  • MINQUAL : seuil de qualité pour filtrer les variants
  • DBSNP : chemin vers le fichier dbSNP utilisé

Sortie :

  • fichiers vcf intermédiaires
  • fichier <NAME>.vcf final

Procédure :

  • Ouvrir le script extract_from_db.shet adapter les variables d'entrées aux données
  • Lancer le script extract_from_db.sh sur genotoul (ou copier-coller dans terminal genotoul)

Etape 2 : Phasage et annotation

Dossier de travail: 2-phase_annotation

Entrée :

  • FILE :
  • PATH_TO_VEP : chemin vers VEP
  • PATH_TO_PHASE : chemin vers PHASE

Sortie :

  • fichier VCF phasé .phased.vcf
  • fichier VCF phasé et annoté .vep.vcf
  • fichiers de sortie PHASE et VEP

Procédure :

  • Ouvrir le script run_phase_annotation.shet adapter les variables d'entrées aux données
  • Lancer le script run_phase_annotation.sh (ou copier-coller dans terminal)

Analyses et figures

Ces étapes permettent de générer des figures et tables pour faciliter l'analyse des données. Voir section suivante pour une explication détaillée de chaque script

Etape 3 : Analyse

Dossier de travail: 3-analysis

Entrée :

  • VCF : fichier .vcf d'entrée
  • POPULATION : fichier .tsv

Sortie :

  • figures .png
  • tables .tsv
  • pages .html

Procédure :

  • Ouvrir le script 1-vcf2structure.shet adapter les variables d'entrées aux données
  • Lancer le script 1-vcf2structure.sh (ou copier-coller dans terminal)
  • Ouvrir le script 2-run_analysis.shet adapter les variables d'entrées aux données
  • Lancer le script 2-run_analysis.sh (ou copier-coller dans terminal)

Scripts R

Les analyses sont regroupées dans plusieurs scripts R. Il est possible de les lancer en ligne de commande (voir script 2-run_analysis.sh) ou de les ouvrir dans RStudio afin de pouvoir ajuster le script. Pour ce faire, il suffit de commenter les sections indiquées et de dé-commenter les lignes contrôlant les variables (également indiquées dans le script).

preprocessing.R

Permet de générer les fichiers nécessaires aux scripts suivants ainsi que de donner une vue d'ensemble sur les données.

Sortie :

  • variant_table.tsv : liste des variants annotés
  • reference_allele_freq.tsv: fréquence de l'allèle de référence pour chaque variant
  • population_overview.png : distribution des populations
  • population_breakdown.tsv : tableau donnant le nombre d'individus par population
  • reference_allele_freq_pop.tsv, reference_allele_freq_pop.png : fréquence de l'allèle de référence pour chaque variant par population

PCA.R

Permet de générer des PCA d'ensemble et par population, ainsi que des liste de SNP corrélées

Sortie :

  • ggplot : figures PCA 2D générées avec ggplot
  • plotly : figures PCA 2D générées avec plotly
  • plotly3d : figures PCA 3D générées avec plotly
  • bypop : figures PCA par population
  • selected_snp.tsv : tableau des SNP corrélés avec les 4 premières composantes principales

structure.R

Permet de générer des figures de type Structure

Sortie :

  • cross_entropy.png : cross-entropy graph to choose the best number of clusters

haplotypes.R

Permet d'étudier les haplotypes

Sortie :

  • haplotype_number_bypop.tsv, haplotype_number.tsv : quantités d'haplotypes (ensemble et par population)
  • allele_frequency_majority.png, allele_frequency_all.png : fréquence allélique de l'allèle de référence dans les haplotypes -allele_frequency_majority.png, haplotype_distribution_all.png : distribution des haplotypes par population

combine.R

Permet de visualiser les combinaisons entre haplotypes

Sortie :

Aucune

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published