Käyttämäni genomidata, poisluettuna suomalaisnäytteet, on saatavana täältä . Tiedostopaketti sisältää kolme tiedostoa, itse datan, SNP-listan ja näytelistan. Datan rivit sisältävät kunkin näytteen 136835 SNP-arvoa koodattuna. Koodit ovat
0 - homozygootti A-alleeli
1 - heterozygootti
2 - homozygootti B-alleeli
-1 - "no-call" eli arvo puuttuu
Rivejä on 667 vastaten näytelistaa.
Koodaus A- ja B-alleeleihin on yleinen tutkijoiden käyttämä tapa. Tutustu esimerkiksi GEO:n dataan.
Paketista purettua datatiedoa voi käsitellä parhaiten Editpad Lite -ohjelmalla, joka sopii suurten character-tiedostojen editointiin. Ohjelman saa ladattua täältä .
PCA-tilastojen teko on hepointa R:llä. Tilasto-ohjelman R saat ladattua täältä . Koodaukseni käy suoraan R:n toiminnoille. Omia näytteitäsi varten sinun tarvitsee rajata näytteesi SNP-listan mukaan, koodata A/T ja C/G -arvot numeerisiksi, "transposeta" näytteesi ja lisätä ne esimerkiksi Editpad Litellä muihin projektidatasta valitsemiisi näytteisiin. "Transposen" pitäisi onnistua R:ssä, mutta myös Past kykenee siihen pienemmillä näytemäärillä, joskin sillä voit tehdä tilastoja vain 10000 SNP:n määrään asti.
No comments:
Post a Comment
English preferred, because readers are international.
No more Anonymous posts.