Muutaman vuoden kehitys ja uudet tutkimukset ovat
tarjonneet kohtalaisen määrän eri väestöjen geneettistä tietoa myös
harrastelijatutkijoiden saataville.
Paljon suomalaisten geneettisen historian kannalta oleellista dataa on
kuitenkin vain yliopistotutkijoiden käytössä.
Muutamia mainitakseni, seuraavista ryhmistä ei dataa tietääkseni ole vapaasti
saatavilla: luoteis- ja länsivenäläiset, puolalaiset, virolaiset, ruotsalaiset,
norjalaiset ja saamet. Nämä ryhmät
olisivat tietenkin oleellisia suomalaisten kannalta.
Useasta lähteestä keräämällä dataa löytyy riittävä määrä paikallisia laajempien analyysien tekoon. Suomalaisten geeniperimän arviointi on toistaiseksi tehtävä naapurin naapuriin vertaamalla. Tärkeimpiä naapureita olisivat virolaiset ja ruotsalaiset, mutta heidän liittämisensä vertailuaineistoon on mahdollista vain vapaaehtoisten datan luovuttajien avulla. Teen siis analyysini toistaiseksi näiden rajoitusten varjossa.
Olen vertaillut
saamiani tuloksia muihin saatavilla oleviin tuloksiin ja lähinnä omiani ovat
Dr. McDonald'in PCA-tulokset. Pienet erot Eurooppa-kartalla tulostemme
kesken johtunevat eroista käytetyissä suomalaisnäytteissä.
Omat suomalaisnäytteeni sijoittuvat lähemmäksi Keski-Eurooppaa. Se on selitettävissä
sillä, että suomalaiseni ovat pääosin vanhoilta lounaisilta asuinalueilta. Uskon tohtorin käyttäneen laillani paljon
aikaa datan standardointiin. Datan
standardointi on edellytys luotettaville tuloksille, koska tarjolla olevat
analysointityökalut eivät tunnista kaikkia datan ominaisuuksia. Karkeasti ilmaistuna tähänkin pätee
tietojenkäsittelyn vanha sanonta ”garbage in, garbage out”.
Tulokset
PCA
Eurooppa-tasoinen PCA-kuva
Suureen kuvaan täältä
Suomalaisten asema havainnollistuu parhaiten 45 asteen 3D-projektiosta.
Suomalaiset sijoittuvat balttien ja pohjoisvenäläisten väliin. Skandinaavien lisäys todennäköisesti muuttaisi suomalaisten asemaa, mutta miten, se jää nähtäväksi siihen asti, että saan riittävän määrän skandinaaveja vertailuaineistoon. Veikkaan, että vaikutus ei ole kovin suuri ja skandinaavit korvannevat CEU-näytteet sijoittumalla näiden ja suomalaisten väliin suomalaisten aseman suhteessa baltteihin ja venäläisiin jäänee entiselleen. Arvioin virolaisten lisäyksen ainestoon pieneksi, koska he ovat hyvin lähellä balttinäytteitä.
Suomalaisten suhteellista asemaa verrattaessa muihin kansoihin voi arvioida suomalaisten geenien esiintyvän maantieteelliseltä alueelta Pohjois-Baltiasta Vienan merelle asti. Nämä kaikki alueet rajautuvat kartalla slaavien 1000 vuotta sitten valtaamiin alueisiin. Suoraviivaisesti kartalle siirrettynä lounaissuomalaiset asettuvat Pihkovan ja Novgorodin paikkeille. Huomioiden Suomessa tapahtunut sekoittuminen lounaissuomalaisten alkuperä voi olla myös läntisempi Baltiassa.
Ajoin myös keskiarvot kansallisuuksien loadings arvoista suhteessa SNP-aineistoon.
Loading-tulokset antavat arvion siitä kuinka eri kansallisuudet ovat edustettuina dimensioiden (PC1 ja PC2) komponenttivalikoimassa. Suomalaiset ovat hieman keskiarvon yläpuolella. Näin suomalaisten tulokset ovat vertailukepoisia verrattaessa muiden kansallisuuksien tuloksiin.
Eurooppa-analysin PCA-data on saatavissa
täältä
Laajassa Euraasian kuvassa Eurooopan ulkopuolelta erottuvat selvästi Pohjois- ja Itä-Aasian geenivirta, Keski- ja Etelä-Aasian geenivirta ja Lähi-Idän/Pohjois-Afrikan geenivirta. Euroopassa resoluutio heikkenee verrattuna Eurooppa-kuvaan osan Eurooppa-spesifisistä komponenteista korvautuessa mannerten välisillä komponenteilla. Lisäksi suomalaisten asemaan vaikuttaa suomalaisten pohjoisaasialaistyyppinen geenilisä, jonka alkuperää voi vain arvailla. Oma veikkaukseni tälle geenilisälle on muinainen sekoittuminen Suomen alueen alkuperäisväestön kanssa, joka oli lähtökohdaltaan suomenkielen tuojia arktisempaa.
Suomalaisten asema pohjoisvenäläisten, balttien ja valkovenäläisten välissä ei oleellisesti muutu Eurooppa-kuvasta, suomalaiset ja pohjoisvenäläiset vain siirtyvät Siperia - Itä-Aasia linjalla hiukan itäänpäin. Siirtämällä pohjoisvenäläisten ja suomalaisten ryhmää kello 10 suuntaan on asetelma o lähes Eurooppa-kuvaa vastaava.
Laaja Structure-analyysi osoitti kaikkien siperialaisten ryhmien olevan osin eurooppalaista alkuperää. On täysin mahdollista, että osa tämä eurooppalainen osuus on lähtöisin Pohjois-Venäjältä tai Volgan ympäristöstä. Rajasin nämä ryhmät pieniksi, koska eurooppalaisen geeniosuuden suunta olisi analyyseissä suurella määrällä geneettisesti ajautuneita väestöjä kääntynyt Siperiasta Eurooppaan. En pysty arvioimaan Uralin poikki kulkeneiden geenivirtojen suuntia, voin ainoastaan jakaa pohjoisaasialaisen osuuden itäaasialaiseen ja eurooppalaiseen osuuteen. Luulen, ettei siihen pysty kukaan muukaan.
Euraasia-tasoinen PCA-kuva
Suureen kuvaan
täältä
Euraasia-analyysin PCA-data on saatavissa
täältä
Structure
Structure-analyysít osoittavat suomalaisten kuuluvan itäeurooppalaisiin kansoihin. Suomalaiset eroavat omaksi itäeurooppalaiseksi ryhmäkseen k:n arvolla 7 sijoittuen pienemmillä arvoilla itäeurooppalaisten pääryhmään.
Euraasia-tasolla suomalaisten pohjoisaasialainen geenilisä näkyy selvästi noin 5%:n osuutena.
Yhteenveto
Suomalaiset sijoittuvat kaikilla kuvaajilla samaan ryhmään Itämeren
alueen balttien ja pohjoisten slaavien kanssa. On
todennäköistä, että skandinaavi- ja saamenäytteiden lisäys
viiteväestöihin muuttaisi jonkin verran tilannetta, mutta perusasetelma tuskin
oleellisesti muuttuisi.
Saamenäytteitä on tuskin mahdollista saada muihin näytteisiin verrannollisessa määrässä. Saamenäytteiden kohdalla tulisi
myös teknisiä ongelmia, joihin en tässä yhteydessä asian laajuuden vuoksi
puutu. Saameväestöjen suomalaisuus, tai
suomalaisten saamelaisuus, olisi tietenkin mielenkiintoinen tutkimuskohde. Toistaiseksi tyydyn kuitenkin saamelaishypoteesiin liittyen mittamaan
suomalaisten itäistä (siperialaista?) perimää. Tämä perustuu olettamukseen saamelaisten osaksi itäisestä alkuperästä.
Mitään varmaa en tästä kuitenkaan voi esittää ja on uskaliasta nyt sanoa asiasta mitään. Suomalaisten itäinen perimäosuus on kiistaton, mutta sen vaikutusta ei pidä yliarvioida, kuten
suomalaisten asema itäeurooppalaisten väestöjen keskuudessa PCA-kartoilla
ja structure-tuloksissa todistaa.
Suomalaiset sijoittuvat loading-arvoillaan ja komponenttimäärillään
luontevasti omalle paikalleen Eurooppa-kartalla. Poikkeamat näkyisivät joko
PC-lukemissa (PC-scores) tai loadings-arvoissa.
Tarkoitukseni on seuraavaksi paneutua IBS-tilastointiin. IBS antaa yksilötasolla edellisiä analyysejä tarkempia tuloksia. Myös Dienekes DIY-admix on työlistalla.
En ota uusia jäseniä projektiin ennenkuin olen saanut kaikki suunnitellut analyysit valmiiksi.
Kiitos kaikille suomalaisille näytedatan lähettäjille.
In English
My goal has been to figure out Finnish genes from the historic perspective and
avoid problems occurring with unqualified data, i e. my goal has been to
avoid results biased by bad sample size, homogeneous sample groups, genetic
drift etc.
What is different?
Mainly I use samples from old Finnish settlements instead of commonly by
bloggers and researchers used Finnish samples, which have been from young
isolations (in certain studies from one Finnish village) or from the historically young Helsinki-metropolitan
data. My samples represent Finnish
samples with known old Finnish ancestry and without any prominent foreign admix.
Selecting the data
My SNP-set includes
all common SNP’s picked up from Dienekes/Dodecad V3 and Eurogenes Jtest admix
analyses. I made this selection to
confirm that my SNP-set is comparable with some well-known references. By making this I try to avoid the speculation
of being biased by the data selection.
So the only thing I have my own is the Finnish sample set and this is
just where I want to be different – I want to follow the Finnish history. Additionally I took around 10000 AID-SNP's
from known academic studies. After putting
these SNP’s together I chose common SNP's for all my data sources (individual samples) and defined the working data as a union of these two preselected
SNP-sets. This meant in practice common
SNP’s for HGDP, HapMap, Yunusbayev, Rasmussen, Behar, 23andme, FtDna and
above-mentioned two blogger data. In the
final phase I dropped out about 3000 SNP's for low quality reasons (high
no-call rate). After all this I had
136835 qualified SNP's left.
I converted the data
to a full equivalence between original alleles,
meaning that Allele A is coded to the value 0 and Allele B is coded to the
value 1. I don’t use a SNP-level coding
for homozygotes and heterozygotes. Of course I can still check runs of homozygosity.
There was also a reason to drop out individual samples for low quality
reasons. At first I found that all groups with high genetic drift due to
isolation will strongly distort the result. It was easy to see the effect of
genetic drift and the consequential distortion, for example I dropped out a lot of HGDP-CEU
samples being too homogeneous or drifted. Young genetic drift generating own genetic componenents in analyses inside one
sample group doesn’t figure their older common history with other groups, the reason
why groups with genetic drift are useless in searching the common history of populations.
They will also affect the root population where they come from. This kind of genetic drift can be found from rapid expansions in some subpopulation, like in villages or in smaller cultural communities. There were some obvious outliers too.
Another issue making your analysis distorted is oversampling. It is especially problematic if the group data is already biased by genetic drift, because oversampling amplifies the error caused by any other bias. Undersampling is also problematic if you want to analyse certain populations, but it doesn't amplify much samples with genetic drift and doesn't destroy your analysis like oversampling does. If you take 100 German samples all over the country and 100 samples from an Icelandic village, you can be sure to have biased results for both groups.
The distortion
caused by bad samples before the quality check was especially notable on the European
plot because of the higher resolution and smaller overall genetic distances between
samples. On the worldwide plot local samples are not affected similarly by
bad samples because on the world level genetic distances are bigger.
The Structure Analysis
needed some data cropping. Almost 140000
SNP’s was far too much for a structure analysis and it would have taken weeks
to run on my computers. To minimize the
effect of cropping for the quality I ran the worldwide data thru PCA analysis
and selected 35000 SNP’s showing most meaningful loading values in five first
PC’s. After that I had 35000 SNP’s ready
to use in the Structure Analysis, which is quite a lot compared to the amount
usually researchers use.
Running the analysis
There is very little
to say about it. I ran all PCA’s by R
and the structure analysis by Structure 2.3.4.
I kept default values for all run-time parameters.
Receiving new samples
I will not receive new
samples before I have completed the initial phase including all planned
analyses. I’ll inform later about the
possibility to partake to my project.
Needing more reference
data
I am interested in
getting North-West Russians, Estonians and Scandinavians. I really appreciate if you can help me
getting them. I need 10 samples
from each ethnic group, but even less is enough if they are very
representative.
The next step
I am going to run
individual IBS-information and possible DIY-admix.
Pictures
European PCA click here
Eurasian PCA click here
European K3-7 click here
Eurasian K7 click here