Deutsch-englische Vokabelliste
Statistik- und Data-Science-Fachbegriffe aus meiner Lehre
Vor allem Master-Studierende stehen zunehmend vor der Herausforderung, zwischen englischer und deutscher Fachsprache fließend wechseln zu müssen. Diese Vokabelliste aus meiner Lehre kann ihnen dabei behilflich sein. Sie erhebt keinen Anspruch auf Vollständigkeit und ist naturgemäß auf das Kern-Vokabular meiner eigenen Kurse im M.Sc.-Studiengang der Geoinformatik und B.Sc. Geographie an der Friedrich-Schiller-Universität Jena zugeschnitten.
Bitte beachte, dass das Fachvokabular teils auch zwischen unterschiedlichen Anwendungsbereichen der Datenwissenschaften variieren kann (z.B. Sozialempirie gegenüber der Geostatistik). Daher können auch einschlägige Fachbücher von der hier vorgeschlagenen Wortwahl abweichen.
Die Vokabelliste (als Excel-Datei) und den RMarkdown-Code, der daraus HTML-Tabellen für einzelne Kurse erstellt, habe ich als Github-Repo stats-vocab
veröffentlicht.
Course | English | Deutsch |
---|---|---|
Geog142 | case | Fall |
ordinal | ordinal | |
quantitative; auch: numeric | quantitativ; (als Merkmalstyp auch: stetig) | |
(als Merkmalstyp:) counts | Zählvariable | |
sample distribution, empirical distribution function | empirische Verteilungsfunktion, Verteilungsfunktion der Stichprobe | |
sample mean | Mittelwert der Stichprobe | |
sample proportion | Stichprobenanteil | |
sample standard deviation | Stichproben-Standardabweichung | |
identifier | Identifikator | |
frequency table | Häufigkeitstabelle | |
area principle | Flächenprinzip | |
bar plot | Balkendiagramm | |
pie chart | Tortendiagramm | |
contingency table | Kontingenztafel | |
conditional distribution | bedingte Verteilung | |
observational unit | Beobachtungseinheit | |
conditional frequency | bedingte Häufigkeit | |
stacked bar plot | gestapeltes Balkendiagramm | |
histogram | Histogramm | |
box-and-whisker plot, boxplot | Box-Whisker-Diagramm, Boxplot, Kastengrafik | |
unimodal | unimodal / eingipflig | |
bimodal | bimodal / zweigipflig | |
multimodal | multimodal / mehrgipflig | |
skewed (to the left/right) [umgangssprachlich wird “skewed” leider auch im Sinne von “biased” verwendet] | (links/rechts)schief | |
outlier | Ausreißer | |
(allgemein:) spread; (im Sinne von Std.abw.:) standard deviation | Streuung | |
participant | Teilnehmer | |
mean / mean value | Mittelwert | |
median | Median | |
range | Spannweite | |
quartile | Quartil | |
inter-quartile range | Interquartilabstand | |
standard deviation | Standardabweichung | |
variance | Varianz | |
normal distribution | Normalverteilung | |
scatterplot | Streudiagramm | |
association | Zusammenhang [zwischen Variablen] | |
subject | Subjekt / Proband | |
cluster | Klumpen | |
correlation | Korrelation | |
predictor / explanatory variable [auch: independent variable] | erklärende Variable / Prädiktor / Kovariable [auch: unabhängige Variable] | |
response variable | Zielvariable [auch: abhängige Variable] | |
regression slope | Regressionssteigung | |
intercept | Achsenabschnitt | |
residuals | Residuen | |
residual plot | Residuendiagramm | |
residual standard deviation | Standardabweichung der Residuen | |
explained Variance, R² [auch: coefficient of determination] | erklärte Varianz, R² [auch: Bestimmtheitsmaß] | |
experimental unit | experimentelle Einheit | |
extrapolation | Extrapolation | |
disjoint | disjunkt | |
sampling design | Stichprobenverfahren | |
sampling | Stichprobenziehung | |
sample survey | Stichprobenerhebung | |
population | Grundgesamtheit | |
biased | verzerrt | |
at random | zufällig | |
randomization | Zufallsauswahl | |
census | Vollerhebung / Zensus | |
variable / feature | Merkmal / Variable | |
to estimate | schätzen [im statistischen Sinne] | |
estimator | Schätzer | |
sample statistic | Schätzwert | |
mean | Mittelwert | |
proportion | Anteil, Anteilswert | |
simple random sample | einfache Zufallsstichprobe | |
sampling frame | Stichprobenrahmen | |
stratified sample | geschichtete Zufallsstichprobe | |
stratum (Plural: strata) | Schicht | |
cluster sampling | Klumpenstichprobe | |
unit | Einheit | |
multistage sampling | mehrstufige Stichprobe | |
target sample | Zielstichprobe | |
capture-recapture method | Rückfangmethode | |
respondent | Antwortender | |
nonresponse | Nonresponse | |
voluntary response sample | freiwillige Stichprobenerhebung | |
voluntary response bias | Verzerrung durch freiwillig Antwortende | |
convenience sampling | willkürliche Stichprobe | |
undercoverage | Untererfassung | |
non-response bias | Verzerrung durch Antwortverweigerung | |
data type | Merkmalstyp | |
response bias | Antwortverzerrung / Antworttendenz | |
pilot study | Pilotstudie | |
observational study | Beobachtungsstudie | |
retrospective | retrospektive Studie | |
prospective study | prospektive Studie | |
randomized, comparative experiment | randomisiertes Vergleichsexperiment | |
experimental unit | experimentelle Einheit | |
replicate | Wiederholung | |
confounding | Konfundierung | |
approximation | Näherung / Approximation | |
nominal / categorical | Nominal / kategorial | |
statistical inference | statistisches Schließen | |
sampling distribution | Stichprobenverteilung, Verteilungsfunktion der Schätzfunktion | |
sample size | Stichprobenumfang | |
standard error | Standardfehler | |
margin of error | Fehlermarge [auch: Schwankungsbreite] | |
Central Limit Theorem | Zentraler Grenzwertsatz | |
confidence interval | Konfidenzintervall / Vertrauensintervall | |
Geog145 | not significant; non-significant [nicht: insignificant!] | nicht signifikant; nichtsignifikant |
significance level | Signifikanzniveau | |
type I error | Fehler erster Art | |
error | Fehler | |
power | Teststärke | |
effect size | Effektgröße | |
critical value | kritischer Wert | |
to reject | ablehnen, verwerfen | |
to accept | annehmen | |
to fail to reject | nicht ablehnen können | |
to retain | beibehalten | |
degrees of freedom | Freiheitsgrade | |
one-sample t-test | Einstichproben-t-Test | |
two-sample t-test | Zweistichproben-t-Test (für unverbundene Stichproben) | |
paired t-test | Zweistichproben-t-Test für verbundene Stichproben | |
partial residual plot | Partielle-Residuen-Diagramm (auch: partielles Residuendiagramm) | |
partial regression plot | partielles Regressionsdiagramm | |
leverage | Hebelwert | |
influential case | einflussreiche Beobachtung | |
missing data | fehlende Daten, fehlende Werte | |
complete-case analysis | Eliminierungsverfahren | |
confounder, confounding factor | Störfaktor, Störgröße | |
interaction term | Wechselwirkungsterm | |
stepwise variable selection | schrittweise Variablenselektion | |
prediction interval | Vorhersageintervall | |
to penalize | bestrafen | |
indicator / indicator variable | Indikatorvariable | |
collinear | kolinear | |
statistical hypothesis test | statistischer Hypothesentest | |
p-value | p-Wert | |
statistical significance | statistische Signifikanz | |
Geo408A | support | Träger |
change of support | Trägerwechsel | |
generalized least squares | verallgemeinerte kleinste Quadrate | |
ordinary least squares | gewöhnliche kleinste Quadrate | |
inverse distance weighting | inverse Distanzwichtung | |
geostatistics | Geostatistik | |
semivariogram | Semivariogramm | |
directional semivariogram | Richtungssemivariogramm | |
lag distance | ? | |
regionalized variable | regionalisierte Variable | |
random field | Zufallsfeld, stochastischer Prozess | |
second-order stationarity | Stationarität zweiter Ordnung | |
intrinsic stationarity | intrinsische Stationarität | |
unbiased | unverzerrt | |
ordinary kriging | Ordinary Kriging | |
universal kriging | universelles Kriging | |
indicator kriging | Indikatorkriging | |
generalized linear model | verallgemeinertes lineares Modell | |
generalized additive model | verallgemeinertes additives Modell | |
smooth | glatt (i.d.R. im Sinne von [mehrfach] differenzierbar) | |
to smooth | glätten | |
smoother; smoothing function | Glättungsfunktion | |
Geo408B | machine learning | maschinelles Lernen |
classifier | Klassifikator | |
linear discriminant analysis | lineare Diskriminanzanalyse | |
quadratic discriminant analysis | quadratische Diskriminanzanalyse | |
k-nearest neighbour classification | k-Nächste-Nachbarn-Klassifikation | |
support vector machine | Support vector machine (selten auch: Stützvektormaschine) | |
artificial neural network | künstliches neuronales Netz | |
random forest | Random Forest | |
classification and regression trees | Klassifikations- und Regressionsbäume | |
sensitivity | Sensitivität | |
specificity | Spezifität | |
positive / negative predictive value | positiver / negativer Vorhersagewert | |
misclassification error rate | Miss- / Falschklassifikations[fehler]rate | |
overall accuracy | Korrektklassifikationsrate | |
confusion matrix | Konfusionsmatrix | |
ROC curve | ROC-Kurve | |
cross-validation | Kreuzvalidierung | |
high-dimensional | hochdimensional | |
overfitted, overfitting | überangepasst, Überanpassung | |
learning sample / training sample | Lernstichprobe | |
feature selection | Merkmalsauswahl | |
dimension reduction | Dimensionsreduzierung | |
predictive performance | Vorhersagegüte | |
root mean square (prediction) error, RMSE | Wurzel des mittleren quadratischen (Vorhersage- / Prognose-) Fehlers | |
apparent error | Scheinbarer Fehler | |
training set / learning sample | Trainingsdatensatz, Lernstichprobe | |
overoptimistic | Überoptimistisch | |
test set / hold-out set | Test- / Validierungsdatensatz |