Brotkrumen-Navigation
Geheimhaltung statistischer Ergebnisse und Anonymisierung statistischer Einzeldaten » Inhalte » 7.2 Welche Tabellendaten können nicht veröffentlicht werden?Geheimhaltung statistischer Ergebnisse und Anonymisierung statistischer Einzeldaten
7.2 Welche Tabellendaten können nicht veröffentlicht werden? (1/6)
Inhalt
Wenn bei Tabellenangaben das Risiko besteht, dass Merkmalsträger, auf die sie sich beziehen, identifizierbar sind, muss geprüft werden, ob Rückschlüsse auf Einzelangaben möglich sind. Das Bewerten und Erkennen solcher Risiken wird als „primäre Geheimhaltung“ bezeichnet (s. Handbuch, 2.2).
Wie realistisch Identifizierbarkeitsrisiken zu bewerten sind, ist von Statistik zu Statistik unterschiedlich.
Dabei spielen u. a.
- erhobene und publizierte Merkmale,
- Merkmalsträger,
- das Erhebungsdesign bzw. die Datengrundlage und
- eventuell einzelgesetzliche Vorgaben eine Rolle. ... mehr

Bei allen Verbundstatistiken sollten entsprechende Abwägungsentscheidungen gemeinsam von allen Fachreferenten getroffen und transparent dokumentiert werden.
In einem solchen Abwägungs- und Entscheidungsprozess wird u. a. über die Verwendung von Geheimhaltungsregeln und deren Parameter entschieden. Übersicht 1 unten (im Handbuch, Kapitel 2.2.2 findet sich eine erweiterte Fassung) gibt einen Überblick über die in der amtlichen Statistik verwendeten Regeln. Sie werden als „Regeln zur primären Geheimhaltung“ bezeichnet.
Häufigkeitstabellen
Bei reinen Häufigkeitstabellen zeigen kleine Fallzahlen (z. B. unter 3) an, dass es sich um eine sehr seltene bzw. einzigartige Merkmalskombination handelt. Das Ausweisen dieser Information könnte für die betroffenen Merkmalsträger unter Umständen problematisch werden. Gerade, wenn es sich um Merkmale handelt, die z. B. im persönlichen Umfeld von Personen üblicherweise bekannt oder auch typischerweise in Datenbanken Dritter enthalten sind, etwa Angaben zu Alter oder Geschlecht, macht eine Bekanntgabe der Einzigartigkeit der Merkmalskombination die Betroffenen theoretisch identifizierbar. Dies erhöht möglicherweise Risiken für Rückschlüsse auf Angaben der Betroffenen zu weniger zugänglichen Merkmalen – beispielsweise zum Sozialhilfestatus – die eventuell in weiteren Tabellen (vielleicht aus einer anderen Statistik) ausgewiesen werden.
Deshalb kann auch bei Häufigkeitstabellen eine Mindestfallzahlregel sinnvoll sein.
- Bekanntgabe von Einzigartigkeit kann Identifizierbarkeit zur Folge haben.
- Identifizierbarkeit erhöht Risiken für Rückschlüsse auf andere Merkmale der betreffenden Individuen.
Zu einem Enthüllungsrisiko kann auch der Nachweis der Fallzahl 0 bzw. „-“ (für „nicht besetzt“) führen. Wird diese für eine Kategorie eines beispielsweise in den Spalten einer Tabelle aufgegliederten Merkmals ausgewiesen, enthüllt das den Umstand, dass die nachgewiesene Eigenschaft auf niemanden in der durch die betreffende Tabellenzeile identifizierte Gruppe zutrifft:
Beispiel: (hypothetische) Prüfungsergebnisse im Fachbereich Linguistik
Wenn im Extremfall die Fallzahl von 0 für sämtliche Kategorien außer einer ausgewiesen wird, enthüllt das den Umstand, dass die nachgewiesene Eigenschaft dieser einen übrig gebliebenen Kategorie auf alle aus der Gruppe zutrifft. Dieser Typ Enthüllungsrisiko kann formal über die Randwertregel (siehe Übersicht 1 bzw. Handbuch, 2.2.3.2) erfasst werden.
Beispiel: Prüfungsergebnis von 9 Teilnehmern eines Assessment Centers
Wertetabellen
- Bei Wertetabellen können Angaben normalerweise nur veröffentlicht werden, wenn sie sich auf mindestens drei Merkmalsträger beziehen. Das heißt, es gilt eine Mindestfallzahlregel von drei. Unterstellt wird dabei, dass gerade bei kleinen Fallzahlen zumindest den zum Tabellenfeld beitragenden Einheiten bekannt ist, wer die anderen Merkmalsträger sind und um wie viele es sich dabei handelt.
Wieso sind „mindestens drei Einheiten“ notwendig?
- Basiert der Zellwert auf dem Beitrag nur eines Befragten, handelt es sich um die Einzelangabe dieses Befragten. Der Zellwert darf nicht veröffentlicht werden.
- Bei zwei Befragten liegt für den einen der Wert des anderen offen.
Auch bei mehr als drei Einheiten besteht unter Umständen das Risiko, dass eine Wertangabe näherungsweise aufgedeckt werden kann, wenn für das Wertmerkmal eine starke Konzentration auf einzelne Merkmalsträger vorliegt und diese somit den Großteil des Tabellenwertes ausmachen.
Zur Aufdeckung kritischer Konstellationen werden Konzentrationsregeln (Handbuch, 2.2.4) eingesetzt. Von besonderer Bedeutung ist dabei das Zusatzwissen der Einheiten, die zum Tabellenfeld beitragen. Diese können, indem sie ihren eigenen Beitrag abziehen, den Beitrag der anderen genauer abschätzen. Die p %-Regel ist die effizienteste Konzentrationsregel. Nach Amtsleiterbeschluss (siehe Handbuch, 2.2.4.2) sollte ihr der Vorzug gegenüber ähnlichen Konzentrationsregeln gegeben werden.