keskiviikko 27. marraskuuta 2013

Projektidata vapaasti saatavana

Käyttämäni genomidata, poisluettuna suomalaisnäytteet, on saatavana täältä .   Tiedostopaketti sisältää kolme tiedostoa, itse datan, SNP-listan ja näytelistan.   Datan rivit sisältävät kunkin näytteen 136835 SNP-arvoa koodattuna.   Koodit ovat

0 - homozygootti A-alleeli
1 - heterozygootti
2 - homozygootti B-alleeli
-1 - "no-call" eli arvo puuttuu

Rivejä on 667 vastaten näytelistaa.

Koodaus A- ja B-alleeleihin on yleinen tutkijoiden käyttämä tapa.  Tutustu esimerkiksi GEO:n dataan.  

Paketista purettua datatiedoa voi käsitellä parhaiten Editpad Lite -ohjelmalla, joka sopii suurten character-tiedostojen editointiin.  Ohjelman saa ladattua täältä .

PCA-tilastojen teko on hepointa R:llä.  Tilasto-ohjelman R saat ladattua täältä .  Koodaukseni käy suoraan R:n toiminnoille.  Omia näytteitäsi varten sinun tarvitsee rajata näytteesi SNP-listan mukaan, koodata A/T ja C/G -arvot numeerisiksi, "transposeta" näytteesi ja lisätä ne esimerkiksi Editpad Litellä muihin projektidatasta valitsemiisi näytteisiin.   "Transposen" pitäisi onnistua R:ssä, mutta myös Past kykenee siihen pienemmillä näytemäärillä, joskin sillä voit tehdä tilastoja vain 10000 SNP:n määrään asti.   


Ei kommentteja:

Lähetä kommentti

English preferred, because readers are international.

No more Anonymous posts. Do not act like folks on poorly moderated forums.