reciprocal_smallest_distance yra Porinis orthology algoritmas, kuris naudoja pasaulinę sekos derinimą ir maksimalaus tikėtinumo evoliucinę atstumą tarp sekų tiksliai aptinka orthologs tarp genomus.
Diegimas Nuo tar
Atsisiųsti ir Išpakuokite naujausią versiją iš GitHub:
CD ~
garbanės -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Deguto xvz
Įdiekite reciprocal_smallest_distance, įsitikinkite, kad naudojate Python 2.7:
CD reciprocal_smallest_distance versija
python setup.py įdiegti
Naudojant RSD rasti Othologs
Toliau pateiktas pavyzdys komandas parodyti pagrindinius būdus, kaip paleisti rsd_search. Kiekvienas rsd_search pritaikymo reikalauja nurodant tam Fasta suformatuotas sekos failo vietą dviem genomus, vadinamas užklausą ir kuriems genomus. Jų kad yra savavališkas, bet jei jūs naudojate --ids parinktį, IDS turi ateiti iš užklausos genomą. Taip pat būtina nurodyti failą rašyti į orthologs rasti pagal RSD algoritmo rezultatus. Išvesties failo formatas yra vienas ortologą eilutėje. Kiekviena eilutė yra užklausos sekos ID, atsižvelgiant sekos numeris, ir atstumą (apskaičiuotas codeml) tarp sekų. Galite pasirinktinai nurodyti failą, kuriame yra adresus naudojant --ids parinktį. Tada RSD ieškos tik orthologs tiems ID. Naudojant --divergence ir --evalue, turite naudoti skirtingas ribas nuo numatytosios parinktį.
Gaukite pagalbos, kaip paleisti rsd_search, rsd_blast arba rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Ieškoti orthologs tarp visų užklausoje ir kuriems taikomos genomų sekas, naudojant numatytąjį divergencijos ir evalue ribas
rsd_search Q pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomo = pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Ieškoti orthologs naudojant keletą ne numatytuosius divergencijos ir evalue ribas
rsd_search Q pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomo = pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1e-20 --de .5 0,00001 --de 0,8 0,1
Tai nėra būtina formatuoti Fasta failą sprogimo ar apskaičiuoti BLAST hitai nes rsd_search daro tai už jus.
Tačiau, jei jūs planuojate veikti rsd_search kelis kartus už tuos pačius genomus, ypač didelėms genomus, galite sutaupyti laiko naudojant rsd_format į preformatting į Fasta failus ir rsd_blast į precomputing BLAST hitai. Važiuojant rsd_blast, įsitikinkite, kad naudoti --evalue toks didelis, kaip didžiausių evalue ribos jūs ketinate duoti rsd_search.
Štai kaip formatuoti Fasta failus pora vietoje:
rsd_format -G pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -G pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Ir čia yra kaip formatuoti Fasta failus, išleidimą rezultatus kitoje kataloge (esamą katalogą šiuo atveju)
rsd_format -G pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -G pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Štai kaip apskaičiuoti pirmyn ir atgal sprogimo hitai (naudojant numatytąjį evalue):
rsd_blast -v -q pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomo = pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-hits s_q.hits
Štai kaip apskaičiuoti pirmyn ir atgal sprogimo hitai rsd_search, naudojant genomus, kad jau suformatuotas už sprogimo ir ne numatytąjį evalue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genomo = Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-hits s_q.hits
no-formatas --evalue 0,1
Ieškoti orthologs tarp visų užklausos sekos ir, kuriems genomų naudojant genomus, kad jau suformatuotas sprogimo
rsd_search -q Mycoplasma_genitalium.aa
--subject-genomo = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
no-formatas
Ieškoti orthologs tarp visų užklausos sekos ir, kuriems genomų naudojant hitai, kurie jau buvo, apskaičiuoti. Atkreipkite dėmesį, kad no-formatas yra įtrauktas, nes nuo pūtimo hitai jau skaičiuojama, kad genomai nereikia būti suformatuotas sprogimo.
rsd_search -v --query-genomo Mycoplasma_genitalium.aa
--subject-genomo = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-Hits q_s.hits --reverse-Hits s_q.hits no-formatas
Ieškoti orthologs konkrečių sekų užklausos genomą. Ieškant orthologs tik kelių sekas, naudojant no-blast-cache gali pagreitinti skaičiavimus. YMMV.
rsd_search Q pavyzdžiai / genomai / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomo = pavyzdžiai / genomai / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-O pavyzdžiai / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids pavyzdžiai / Mycoplasma_genitalium.aa.ids.txt no-aukštakrosnių talpyklą
formatai
Orthologs galima išsaugoti keletą skirtingų formatų naudojančių --outfmt parinktį rsd_search. Numatytasis formatas, --outfmt -1, reiškia --outfmt 3. įkvėpė Uniprot Dat, iš orthologs rinkinys prasideda parametrų eilutę, tada yra 0 arba daugiau ortologą linijas, tada turi galinę liniją. Į parametes yra užklausos genomo vardas, atsižvelgiant genomo vardas, skirtumai riba ir evalue riba. Kiekvienas ortologą yra vienoje eilutėje, kurioje būtų užklausos sekos numeris, tema seka SEQ ID, didžiausia tikimybė atstumas sąmatą. Šis formatas gali atstovauti orthologs keliems rinkinių parametrų į vieną failą, taip pat parametrų rinkiniai su jokiu orthologs. Todėl jis yra tinkamas naudoti su rsd_search kai nurodant kelis divergencijos ir evalue ribas.
Čia yra pavyzdys, kuriame yra 2 parametrų derinius, iš kurių vienas neturi orthologs:
PA tLACJO tYEAS7 t0.2 t1e-15
ARBA tQ74IU0 tA6ZM40 t1.7016
ARBA tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Originalus formatas RSD, --outfmt 1, yra numatyta atgalinio suderinamumo. Kiekviena eilutė yra tai ortologą, atstovavo taikomos seka SEQ ID, užklausa seka SEQ ID ir didžiausią tikimybę nuotolinio sąmatą. Jis gali tik atspindi bendrą rinkinį orthologs faile.
Pavyzdys:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Taip pat, jei atgalinis suderinamumas yra formatas, naudojamas viduje Roundup (http://roundup.hms.harvard.edu/), kuris yra kaip originalo RSD formatu, išskyrus užklausos sekos id skiltyje prieš taikomos sekos id.
Pavyzdys:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Reikalavimai :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- kalign 2.04
Komentarai nerastas