Felix Schönbrodt

Dr. Dipl.-Psych.

At what sample size do correlations stabilize?

Maybe you have encountered this situation: you run a large-scale study over the internet, and out of curiosity, you frequently  the correlation between two variables.

My experience with this practice is usually frustrating, as in small sample sizes (and we will see what “small” means in this context) correlations go up and down, change sign, move from “significant” to “non-significant” and back. As an example, see Figure 1 which shows the actual trajectory of a correlation, plotted against sample size (I also posted a video of this evolution).

It is simply the order how participants dropped into the study (i.e., data has not been rearranged). In this case, the correlation started really strong (r = .69) and continuously decayed until it’s final r of .26. The light gray lines show some exemplary bootstrapped alternative trajectories.


Figure 1: The evolution of a correlation.

In this particular case, at least the sign was stable (“There is a positive relationship in the population”, see also “Type-S errors”). Other trajectories in this data set, however, changed signs or their significance status. One correlation even changed from “negative significant” to “positive significant”!

Obviously, the estimate of a correlation stabilizes with increasing sample size. Now I wanted to know: At which sample size exactly can I expect a correlation to be stable? An informal query amongst colleagues revealed estimates between  n = 80 and n = 150.

Together with Marco Perugini, I did a systematic analysis of this question. The results of this simulation study are reported [PDF, 0.39 MB]. In this paper a “corridor of stability” (COS) has been utilized: Deviations from the true value are defined as tolerable as long as they stay within that corridor (see also Figure 1 for a COS of +/- .1). The point of stability (POS) is that sample size from which on a specific trajectory does not leave the COS anymore.

The point of stability depends on the effect size (How strong is the true correlation?), the width of the corridor of stability (How much deviation from the true value am I willing to accept?), and the confidence in the decision (How confident do I want to be that the trajectory does not leave the COS any more?). If you’re interested in the details: read the paper. It’s not long.

The bottom line is: For scenarios in psychology, correlations stabilize when n approaches 250. That means, estimates with n > 250 are not only significant, they also are fairly accurate (see also Kelley & Maxwell, 2003, and Maxwell, Kelley, & Rausch, 2008, for elaborated discussions on parameter accuracy).

Additional analyses (not reported in the publication)

Figure 2 shows the distribution of POS values, depending on the half-width of the COS and on effect size rho. The horizontal axis is cut at n = 300, although several POS were > 300. It can be seen that all distributions have a very long tail. This makes the estimation of the 95th quantile very unstable. Therefore we used a larger number of 100’000 bootstrap replications in each experimental condition in order to get fairly stable estimates for the extreme quantiles.



Figure 2: Distribution of POS values, depending on half-width of COS and effect size rho

Finally, Figure 3 shows the probability that a trajectory leaves the COS with increasing sample size.


Figure 3

The dotted lines mark the confidence levels of 80%, 90%, and 95% which were used in the publications. The n where the curves intersect these dotted lines indicate the values reported in Table 1 of the publication. For example, if the true correlation is .3 (which is already more than the average effect size in psychology) and you collect 100 participants, there’s still a chance of 50% that your correlation will leave the corridor between .21 and .39 (which are the boundaries for w=.1).

What is the conclusion? Significance tests determine the sign of a correlation. This conclusion can be made with much lower sample sizes. However, when we want to make an accurate conclusion about the size of an effect with some confidence (and we do not want to make a “Type M” error), we need much larger samples.

The full R source code for the simulations can be downloaded here.


Maxwell, S. E., Kelley, K., & Rausch, J. R. (2008). Sample size planning for statistical power and accuracy in parameter estimation. Annual Review of Psychology, 59, 537–563. doi:10.1146/annurev.psych.59.103006.093735 [PDF]
Schönbrodt, F. D., & Perugini, M. (2013). At what sample size do correlations stabilize? Journal of Research in Personality, 47, 609-612. doi:10.1016/j.jrp.2013.05.009 [PDF]
Of course, you would never do that in a “sequential sampling” style, where you stop as soon as the correlation reached significance. In contrary, I suppose that you’ve run an a-priori power analysis and collect exactly this amount of participants.
Schönbrodt, F. D., & Perugini, M. (in press). At what sample size do correlations stabilize? Journal of Research in Personality. doi:10.1016/j.jrp.2013.05.009
i.e., rho = .21, w = .1, confidence = 80%
Comments (6) | Trackback

Amazing fMRI plots for everybody!

Dear valued customer,

it is a well-known scientific truth that research results which are accompanied by a fancy, colorful fMRI scan, are perceived as more believable and more persuasive than simple bar graphs or text results (McCabe & Castel, 2007; Weisberg, Keil, Goodstein, Rawson, & Gray, 2008). Readers even agree more with fictitious and unsubstantiated claims, as long as you provide a colorful brain image, and it works even when the subject is a dead salmon.


The power of brain images for everybody

What are the consequence of these troubling findings? The answer is clear. Everybody should be equipped with these powerful tools of research communication! We at IRET made it to our mission to provide the latest, cutting-edge tools for your research analysis. In this case we adopted a new technology called “visually weighted regression” or “watercolor plots” (see here, here, or here), and simply applied a new color scheme.

But now, let’s get some hands on it!

The example

Imagine you invested a lot of effort in collecting the data of 41 participants. Now you find following pattern in 2 of your 87 variables:

You could show that plain scatterplot. But should you do it? Nay. Of course everybody would spot the outliers on the top right. But which is much more important: it is b-o-r-i-n-g!

What is the alternative? Reporting the correlation as text? “We found a correlation of r = .38 (p = .014)”. Yawn.

Or maybe: “We chose to use a correlation technique that is robust against outliers and violations of normality, the Spearman rank coefficient. It turned out that the correlation broke down and was not significant any more (r = .06, p = .708).”.

Don’t be silly! With that style of scientific reporting, there would be nothing to write home about. But you can be sure: we have the right tools for you. Finally, the power of pictures is not limited to brain research – now you can turn any data into a magical fMRI plot like that:

Isn’t that beautiful? We recommend to accompany the figure with an elaborated description: “For local fitting, we used spline smoothers from 10`000 bootstrap replications. For a robust estimation of vertical confidence densities, a re-descending M-estimator with Tukey’s biweight function was employed. As one can clearly see in the plot, there is  significant confidence in the prediction of the x=0, y=0 region, as well as a minor hot spot in the x=15, y=60 region (also known as the supra-dextral data region).”

Magical Data Enhancer Tool

With the Magical Data Enhancer Tool (MDET) you can …

  • … turn boring, marginally significant, or just crappy results into a stunning research experience
  • … publish in scientific journal with higher impact factors
  • … receive the media coverage that you and your research deserve
  • … achieve higher acceptance rates from funding agencies
  • … impress young women at the bar (you wouldn’t show a plain scatterplot, dude?!)


Q: But – isn’t that approach unethical?
A: No, it’s not at all. In contrast, we at IRES think that it is unethical that only some researchers are allowed to exploit the cognitive biases of their readers. We design our products with a great respect for humanity and we believe that every researcher who can afford our products should have the same powerful tools at hand.

Q: How much does you product cost?
A: The standard version of the Magical Data Enhancer ships for 12’998 $. We are aware that this is a significant investment. But, come on: You deserve it! Furthermore, we will soon publish a free trial version, including the full R code on this blog. So stay tuned!


Best regards,

Lexis “Lex” Brycenet (CEO & CTO Research Communication)
International Research Enhancement Technology (IRET)

Comments (8) | Trackback

Shading regions of the normal: The Stanine scale

For the presentation of norm values, often stanines are used (standard nine). These values mark a person’s relativ position in comparison to the sample or to norm values.
According to Wikipedia:

The underlying basis for obtaining stanines is that a normal distribution is divided into nine intervals, each of which has a width of 0.5 standard deviations excluding the first and last, which are just the remainder (the tails of the distribution). The mean lies at the centre of the fifth interval.

For illustration purposes, I wanted to plot the regions of the stanine values in the standard normal distribution – here’s the result:

First: Calculate the stanine boundaries and draw the normal curve:

# First: Calculate stanine breaks (on a z scale)
stan.z <- c(-3, seq(-1.75, +1.75, length.out=8), 3)

# Second: get cumulative probabilities for these z values
stan.PR <- pnorm(stan.z)

# define a color ramp from blue to red (... or anything else ...)
c_ramp <- colorRamp(c("darkblue", "red"), space="Lab")

# draw the normal curve, without axes; reduce margins on left, top, and right
curve(dnorm(x,0,1), xlim=c(-3,3), ylim=c(-0.03, .45), xlab="", ylab="", axes=FALSE)

Next: Calculate the shaded regions and plot a polygon for each region:

# Calculate polygons for each stanine region
# S.x = x values of polygon boundary points, S.y = y values
for (i in 1:(length(stan.z)-1)) {
    S.x  <- c(stan.z[i], seq(stan.z[i], stan.z[i+1], 0.01), stan.z[i+1])
    S.y  <- c(0, dnorm(seq(stan.z[i], stan.z[i+1], 0.01)), 0)
    polygon(S.x,S.y, col=rgb(c_ramp(i/9), max=255))

And finally: add some legends to the plot:

# print stanine values in white
# font = 2 prints numbers in boldface
text(seq(-2,2, by=.5), 0.015, label=1:9, col="white", font=2)

# print cumulative probabilities in black below the curve
text(seq(-1.75,1.75, by=.5), -0.015, label=paste(round(stan.PR[-c(1, 10)], 2)*100, "%", sep=""), col="black", adj=.5, cex=.8)
text(0, -0.035, label="Percentage of sample <= this value", adj=0.5, cex=.8)

And finally, here’s a short script for shading only one region (e.g., the lower 2.5%):

# draw the normal curve
curve(dnorm(x,0,1), xlim=c(-3,3), main="Normal density")

# define shaded region
from.z <- -3
to.z <- qnorm(.025)

S.x  <- c(from.z, seq(from.z, to.z, 0.01), to.z)
S.y  <- c(0, dnorm(seq(from.z, to.z, 0.01)), 0)
polygon(S.x,S.y, col="red")

Comments (1) | Trackback

Comparing all quantiles of two distributions simultaneously

Summary: A new function in the WRS package compares many quantiles of two distributions simultaneously while controlling the overall alpha error.

When comparing data from two groups, approximately 99.6% of all psychological research compares the central tendency (that is a subjective estimate).

In some cases, however, it would be sensible to compare different parts of the distributions. For example, in reaction time (RT) experiments two groups may only differ in the fast RTs, but not in the long. Measures of central tendency might obscure or miss this pattern, as following example demonstrates.

Imagine RT distributions for two experimental conditions (“black” and “red”). Participants in the red condition have some very fast RTs:

RT1 <- rnorm(100, 350, 52)
RT2 <- c(rnorm(85, 375, 55), rnorm(15, 220, 25))
plot(density(RT1), xlim=c(100, 600))
lines(density(RT2), col=2)


A naïve (but common) approach would be to compare both distributions with a t test:

t.test(RT1, RT2)
data:  RT1 and RT2
t = -0.3778, df = 168.715, p-value = 0.706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -22.74478  15.43712
sample estimates:
mean of x mean of y
 341.8484  345.5022

Results show that both groups do not differ in their central tendency.

Now let’s do the same with a new method!

The function


from the WRS package compares user-defined quantiles of both distributions using a Harrell–Davis estimator in conjunction with a percentile bootstrap. The method seems to improve over other methods: “Currently, when there are tied values, no other method has been found that performs reasonably well. Even with no tied values, method HD can provide a substantial gain in power when q ≤ .25 or q ≥ .75 compared to other techniques that have been proposed”. The method is described in the paper “Comparing two independent groups via the upper and lower quantiles” by Wilcox, Erceg-Hurn, Clark and Carlson (2013).
You can use the function as soon as you install the latest version of the WRS package following this installation instruction.

Let’s compare all percentiles from the 10th to the 90th:

qcomhd(RT1, RT2, q = seq(.1, .9, by=.1))

The graphical output shows how groups differ in the requested quantiles, and the confidence intervals for each quantile:


The text output (see below) also shows that groups differ significantly in the 10th, the 50th, and the 60th percentile. The column labeled ‘’.value’’shows the p value for a single quantile bootstrapping test. As we do multiple tests (one for each quantile), the overall Type 1 error (defaulting to .05) is controlled by the Hochberg method. Therefore, for each p value a critical p value is calculated that must be undercut (see column ‘_crit’. The column ‘signify’ marks all tests which fulfill this condition:

    q  n1  n2    est.1    est.2 est.1.est.2    ci.low       ci.up      p_crit p.value signif
1 0.1 100 100 285.8276 218.4852   67.342399  41.04707 84.67980495 0.005555556   0.001      *
2 0.2 100 100 297.5061 264.7904   32.715724 -16.52601 68.80486452 0.025000000   0.217
3 0.3 100 100 310.8760 320.0196   -9.143593 -33.63576 32.95577465 0.050000000   0.589
4 0.4 100 100 322.5014 344.0439  -21.542475 -40.43463  0.03938696 0.010000000   0.054
5 0.5 100 100 331.4413 360.3548  -28.913498 -44.78068 -9.11259108 0.007142857   0.006      *
6 0.6 100 100 344.8502 374.7056  -29.855369 -46.88886 -9.69559705 0.006250000   0.005      *
7 0.7 100 100 363.6210 388.0228  -24.401872 -47.41493 -4.13498039 0.008333333   0.016
8 0.8 100 100 385.8985 406.3956  -20.497097 -47.09522  2.23935390 0.012500000   0.080
9 0.9 100 100 419.4520 444.7892  -25.337206 -55.84177 11.49107833 0.016666667   0.174

To summarize, we see that we have significant differences between both groups: the red group has significantly more faster RTs, but in their central tendency longer RTs.

Recommendations for comparing groups:

  1. Always plot the densities of both distributions.
  2. Make a visual scan: Where do the groups differ? Is the central tendency a reasonable summary of the distributions and of the difference between both distributions?
  3. If you are interested in the central tendency, think about the test for trimmed means, as in most cases this describes the central tendency better than the arithmetic mean.
  4. If you are interested in comparing quantiles in the tails of the distribution, use the qcomhd function.


Wilcox, R. R., Erceg-Hurn, D. M, Clark, F., & Carlson, M. (in press). Comparing two independent groups via the lower and upper quantiles. Journal of Statistical Computation and Simulation. doi:10.1080/00949655.2012.754026.

Comments (28) | Trackback

Bullshit-Bingo: Wie “Testosteron” Manager beeinflusst

.. oder: die Dekonstruktion einer “wissenschaftlichen” Studie und der dazugehörigen Pressemeldung

Folgendes war am 1.12.2011 im Handelsblatt zu lesen:

Außerdem wird die Autorin Kai Li folgendermaßen zitiert: „Junge männliche CEOs mit viel Testosteron im Blut scheinen einfach kampfeslustiger zu sein.“

Was verbirgt sich hinter dieser knackigen Headline? Man könnte denken: “Fantastisch! Da haben diese findigen Forscher doch tatsächlich bei CEOs Testosteron gemessen! Ich habe zwar keine Ahnung wie die es geschafft haben von mehreren tausend Managern Speichelproben zu nehmen, aber ich bin beeindruckt.”

Ein kurzer Blick in die Originalpublikation verrät allerdings schnell einiges über die tatsächliche Qualität der Studie:

Therefore, we proxy testosterone by male CEO age.

Aha. Statt Testosteron zu messen, haben sie also das Alter der Manager gemessen, als “Proxy” für Testosteron. Als Argument ziehen sie heran, dass das Testosteronlevel im Durchschnitt mit dem Alter abnimmt. Um die Studie in einem Satz zusammenzufassen: Levi, Li, und Zhang haben herausgefunden, dass jüngere CEOs (< 50 Jahre) mit einer größeren Wahrscheinlichkeit ein Angebot bei M&As zurückziehen (was als aggressives Verhalten interpretiert wird).

Alter als Proxy für Testosteron?

Es zeigt sich also eine negative Korrelation zwischen Alter und Testosteron-Level von ca. r = -.33. Allerdings ist für differentielle Fragestellungen dieser allgemeine Trend relativ uninteressant – viel wichtiger ist die interindividuelle Streuung innerhalb einer Altersgruppe. Auch hier lohnt sich ein Blick in die Originalpublikation (Harman et al., 2001). Diese Grafik wurde im Testosteron-Artikel abgebildet – ein klarer Alterstrend:

Copyright © 2001 The Endocrine Society.  Used with permission.

Ein Blick in die dazugehörigen Scatterplots (S. 725) offenbart jedoch eine enorme Streuung innerhalb jeder Altersgruppe:

Copyright © 2001 The Endocrine Society.  Used with permission.

Copyright © 2001 The Endocrine Society.  Used with permission.

Hier kann man sehr klar erkennen, dass es relativ wahrscheinlich ist, dass ein konkreter älterer CEO (> 50 Jahre) einen höheren Testosteronspiegel hat als ein jüngerer CEO – insbesondere wenn man sich die Grafiken im Altersbereich der untersuchten Manager (46 – 64 Jahre) anschaut. Eine kleine Simulationsstudie zeigt, dass bei der vorgefundenen Korrelation (und der gegebenen Varianzeinschränkung dass nur CEOs im Alter von 46 bis 64 in der Stichprobe waren) die Wahrscheinlichkeit ca. 39% beträgt, dass ein CEO > 50 Jahre einen höheren T-Wert hat als ein CEO < 50 Jahre (50% wäre reines Zufallsniveau). Daran sieht man, dass trotz des linearen Trends die interindividuellen Schwankungen beträchtlich sind, und das Alter somit ein schlechter Proxy für differentielle Fragestellungen ist.

Wie groß ist der Effekt des Alters (nicht des Testosterons …) darauf, dass ein Angebot zurückgezogen wird?

Laut Korrelationstabelle ist die bivariate Korrelation zwischen Prädiktor und Kriterium r = .10 bzw. .12. Das ist nach Cohen (1992) ein “trivialer Effekt”. Fragt man sich wie viel Varianz im Bieterverhalten durch Alter aufgeklärt wird, muss man diese Korrelationen quadrieren. Ergebnis: Das Alter kann max. 1.4% im Bieterverhalten aufklären. Wenn in den multiplen Regressionen (ab Tabelle 3) noch für andere Variablen kontrolliert wird (z.B. Größe der Firmen), sinkt die Effektstärke des Alters auf r = .04 und der Aufklärungswert auf 1.6 Promille!

Wow. Das ist ja mal eine Schlagzeile wert…

“Triangulierung” der eigentlichen Korrelation?

Hier wird scheinbar der Versuch gemacht, eine gewünschte Korrelation X (Testosteron) <–> Y (Aggressives Verhalten) durch die Kenntnis von zwei anderen Korrelationen zu ergründen, nämlich X <–> M (Alter), und M <–> Y.
Wenn man ein Set an drei Variablen hat und zwei der Korrelationen (Korrelation A: X<–>M und Korrelation B: M<–>Y) bekannt sind, dann gibt es tatsächlich Einschränkung wie die Variablen X und Y (Korrelation C) noch miteinander korreliert sein können. Wenn die beiden Korrelationen A und B sehr hoch sind, dann muss die Korrelation C auch positiv sein.

Ist das nun ein gültiges Argument, Alter als Proxy für T zu nehmen? Es kommt auf die Höhe der Korrelationen an.

Das Werte von Korrelationen dreier Variablen müssen folgende Ungleichung erfüllen:
1 + 2*r_xy*r_xz*r_yz  – r_xy² – r_xz² – r_yz² >= 0

Umformuliert lässt sich die “range restriction” einer Korrelation bei zwei bekannten Korrelationen mit folgender Formel berechnen (Olkin, 1981):

[UPDATE: hier ist eine graphische Darstellung dieser Relation zu finden]

Bei den gegebenen Werten von r = .33 zwischen Alter und T, sowie ca. r = .10 für Alter und aggressives Vh. lässt sich nun der mögliche Spielraum der eigentlich interessanten (nicht gemessen Korrelation) zwischen T und aggressiven Verhalten angeben. Die Korrelation kann zwischen -.91 und + .97 liegen!
Daraus folgt ganz klar, dass aus den berichteten Daten nichts über den Zusammenhang von Testosteron und Managerverhalten folgt!


Nun ist es durchaus nicht unüblich, sich durch “proxies” an latente (oder schwer messbare) Variablen heranzutasten. Allerdings sollte man sich immer bewusst sein, dass man nicht den eigentlichen Einflussfaktor misst, und das mit ensprechender Bescheidenheit kommunizieren. Gerade in diesem Punkt jedoch zeigen die Autoren eine bemerkenswerte Naivität (oder auch eine bemerkenswerte Unverfrorenheit). Abgesehen von wenigen Absätzen zum Thema “Alter statt Hormon” argumentieren sie beständig, als ob sie tatsächlich den Einfluss von Hormonen gemessen hätten:
“Hormones and Completion of Mergers and Acquisitions (p. 1) . [...]. The Hormone Effect in M&As (p. 12) [...]  This is a very striking finding as it strongly supports an association between testosterone, as proxied by male CEO age, and M&As. (p. 12)”, etc.

Nun lässt die Datenlage ja durchaus einige Alternativerklärungen zu. So könnte man sich überlegen, welche anderen Variablen denn noch so mit dem Alter korrelieren (außer Testosteron). Ich habe mal ca. 10 Sekunden über diese Frage nachgedacht und bin zu folgenden (mehr oder weniger plausiblen) Alternativerklärungen gekommen:
•    Ältere Manager gehören einer anderen Kohorte als die jüngeren Manager an. Es gibt Werteunterschiede zwischen beiden Generationen (ältere Manager legen Wert auf faire Verhandlungen, während jüngere durch eine neoliberale Wertehaltung aggressiver an die Sache rangehen)
•    Beide Generationen von Managern haben unterschiedliche Ausbildungen durchlaufen und haben dadurch andere Verhandlungsstrategien.
•    Fluide Intelligenz nimmt mit den Alter ab. Dadurch haben ältere Manager einen Nachteil in den Verhandlungen.
•    Kristalline Intelligenz nimmt mit den Alter zu. Dadurch haben ältere Manager einen Vorteil in den Verhandlungen.
•    Vermutlich haben die älteren Manager auch eine längere Zeit in einer Ehe verbracht (“Therefore, we proxy ‘years in marriage’ by male CEO age.”). Dies hat sie verweichlicht und macht sie so zu schwachen Verhandlern. Übrigens: in meinen eigenen Studien beträgt die Korrelation zwischen Alter und “Beziehungsdauer in der aktuellen Beziehung” um die .70 – also ein viel stärkerer Zusammenhang als Alter und T.
•    Muskelkraft nimmt mit dem Alter ab (“Therefore, we proxy ‘trizeps strenght’ by male CEO age.”). Nach der Embodiment-Theorie haben muskulär schwache Verhandler auch eine psychologisch schwache Verhandlungsposition.
•    Die Menge an Haupthaar nimmt mit dem Alter ab. Schütteres Haar weckt beim Gegenüber die Assoziation von Alter, Schwäche und Gebrechlichkeit (s. Broschüre Procter & Gamble, 2009), was die jüngeren Verhandler zu einem aggressiveren Vorgehen verleitet.

Alle diese Erklärungen passen vermutlich genauso gut zu den vorhandenen Daten wie die in dem Artikel dargestellte Story. Es wäre sicherlich ein großer Spaß, den Artikel umzuschreiben (auf Basis exakt der selben Daten!), z.B.: “Deal or no deal: Baldiness and the mergers and acquisitions game”.

Testosteron und Verhalten (Jetzt neu – diesmal mit ‘echtem’ Testosteron!!)

Es gibt tatsächlich Zusammenhänge zwischen Testosteron, Aggressivität, und Wettbewerb. So wurde in einer klassischen Studie z.B. gezeigt dass der Testosteronspiegel nach einem gewonnen Tennismatch ansteigt (Booth, Shelley, Mazur, & Kittok, 1989). Allerdings ist der Effekt von Testosteron auf Maße von Aggression und Dominanz alles andere als klar und deutlich: in einer Zusammenfassung von 13 Studien (Archer, 2006) zeigt sich gerade mal eine durchschnittliche gewichtete Korrelation von r = .124 zwischen Testosteronlevel und Dominanzmaßen, was nach Cohen (1992) gerade noch einem kleinen Effekt entspricht (an der Grenze zur Trivialität). Der Zusammenhang zu Aggression wurde in einer Meta-Analyse von 45 Studien mit r = .14 beziffert.
Und ja: alle diese Studien haben tatsächlich Testosteron gemessen!

Möglicherweise haben Levi und Kollegen also sogar recht mit ihrer Hormon-Hypothese. So wie sie es gemacht haben lässt sich das jedoch sicherlich nicht untersuchen!

Der vor Testosteron strotzende Wirtschaftskrieger

Das aktuelle Märchen mit dem Label “Testosteron” wird natürlich von der Presse bereitwillig aufgenommen. Möglicherweise liegt es daran, dass sich Manager gerne selbst als testosterongeschwängerte Krieger im täglichen Kampf der Konzerne sehen, und sich in ihren Kleine-Jungen-Fantasien als “weiße Ritter” auf ihr Pferd schwingen, um heroisch in einer “Abwehrschlacht” eine feindliche Übernahme abwenden können.

Fazit: Das Alter kann gerade einmal zwischen 1 Prozent und 1 Promille des Bieterverhaltens in M&As aufklären. Testosteron hat vermutlich nichts mit den vorgelegten Daten zu tun (zumindest kann man keinerlei Aussage über Testosteron treffen). Diese Studie hat definitiv nicht das Prädikat “wissenschaftlich” verdient, und ich frage mich wie so etwas ernsthaft in einer wissenschaftlichen Zeitschrift publiziert werden kann.

Zum Handelsblatt-Artikel ist lobend anzumerken, dass der Autor erwähnt hat dass nicht Testosteron, sondern Alter gemessen wurde. da sich ein Wissenschaftsredakteur jedoch auf die Validität von Ergebnissen in einem peer-reviewed journal verlassen könne sollte ist die Kritik ganz klar beim Originalartikel anzusetzen.

Nach allen sinnvollen Maßstäben sind die Aussagen “This is a very striking finding as it strongly supports an association between testosterone, as proxied by male CEO age, and M&As. (Levi et al., 2011), als auch “Drei Forscher zeigen jetzt: Der Botenstoff entscheidet auch in der Unternehmerwelt über Erfolg oder Missverfolg.” (Handelsblatt, 2011) schlicht und einfach falsch.


Hier findet sich die Originalpublikation, wohl erschienen in dem Magazin Management Science (oder vielleicht besser: Management “Science”): Levi, M., Li, K., & Zhang, F. (2010). Deal or no deal: Hormones and the mergers and acquisitions game. Management Science.

Und hier noch etwas Ergänzungslektüre:

Als Überblick und Einstieg in das Thema sei wärmstens der Überblicksartikel von John Archer empfohlen. Er beschreibt auch den genauen Mechanismus (die “challenge hypothesis”), wie sich Testosteron vermutlich auf Verhalten auswirkt – jenseits von “männliche CEOs mit viel Testosteron im Blut scheinen einfach kampfeslustiger zu sein.“

Archer, J. (2006). Testosterone and human aggression: An evaluation of the challenge hypothesis. Neuroscience & Biobehavioral Reviews, 30, 319-345.

Das ist die Studie, die den Alterstrend vom T-Level zeigt:

Harman, S. M., Metter, E. J., Tobin, J. D., Pearson, J., & Blackman, M. R. (2001). Longitudinal effects of aging on serum total and free testosterone levels in healthy men. Journal of Clinical Endocrinology & Metabolism, 86, 724 -731. doi:10.1210/jc.86.2.724

Und hier noch zwei Studien zur Ergänzung:

Booth, A., Shelley, G., Mazur, A., G., T., & Kittok, R. (1989). Testosterone, and winning and losing in human competition. Hormones and Behavior, 23, 556–571.

Schultheiss, O. C., & Rohde, W. (2002). Implicit power motivation predicts men’s testosterone changes and implicit learning in a contest situation. Hormones and Behavior, 41, 195-202.

Die Berechnung der Abhängigkeiten von 3 Korrelationen findet sich hier:
Leung, C.-K., & Lam, K. (1975). A note on the geometric representation of the correlation coefficients. The American Statistician, 29, 128-130. doi:10.2307/2683440

Olkin, I. (1981). Range restrictions for product-moment correlation matrices. Psychometrika, 46, 469-472. doi:10.1007/BF02293804

No comments | Trackback


After months of work we finally released our homepage persoc.net. “Persoc” is a reasearch group funded by the DFG (German Research Foundation) that worked for 1.5 years on a new model of how to conceptualize the interplay of personality processes and social relationships.

In September 2007 a group of young researchers who repeatedly met at conferences realized that they were all fascinated by the complex interplay of personality and social relationships. While we studied the effects of personality on very different social processes (e.g., zero acquaintance judgments, group formation, friendship development, mate choice, relationship maintenance), we shared a strong focus on observing real-life phenomena and implementing advanced methods to analyze our data. Since the official start of Persoc in late 2008, several meetings and workshops have deepened both, our interconnectedness as well as our understanding and interest in personality and social relationships.

Persoc.net is one outcome of this great collaboration – we believe it is a unique and very helpful resource for all researchers who want to study the interplay of personality and social relationships. For example, extensive informations about possible research designs are provided (e.g. ego-centered networks, half- and full-block designs, round robin groups), as well as short tutorials about on to calculate the statistics in each design. First of all, of course, you shouldn’t miss the excellent introduction into the topic: the theoretical framework of persoc. If you do research yourself in the intersection of personality and social relationships, don’t hesitate to register yourself at the community site: you can post a profile of yourself and your research on persoc.net and get in contact with other researchers on that topic.

Persoc.net is dynamic and ever-growing site, and we hope it will be a useful resource for many researchers!

No comments | Trackback