IT-gestützte qualitative Methoden der Sekundäranalyse

>>IT-gestützte qualitative Methoden der Sekundäranalyse
IT-gestützte qualitative Methoden der Sekundäranalyse 2018-01-17T11:12:50+00:00

AG Team „IT-gestützte qualitative Methoden der Sekundäranalyse“

  • Stefan Schmunk
  • Claudia Niederèe
  • Alexander Wildschütz
  • Ubbo Veentjer
  • Uwe Sikora

In diesem Arbeitspaket werden zwei neue Dienste für die Suche nach (für eine spezifische sekundäranalytische Fragestellung geeignetem) Primärmaterial in umfangreichen Datenbeständen sowie für die IT-basierte Analyse qualitativer sozialwissenschaftlicher Forschungsdaten entwickelt.

1. Iterative Suche: Die Suche nach geeignetem Primärmaterial in Datenbeständen, die deutlich größer sind als in der qualitiv ausgerichteten Arbeitssoziologie üblich, ist eine zentrale Herausforderung für sekundäranalytische Projekte. Im Rahmen dieses Arbeitspakets soll in dreierlei Hinsicht IT-Unterstützung geleistet werden: im Rahmen einer semi-automatischen Materialaufbereitung, durch die Unterstützung explorativer Strategien bei der Suche nach geeignetem Material und schließlich in Hinblick auf die Materialauswahl mit Hilfe iterativer Suchvorgänge. Da qualitativ Forschende nur eine begrenzte Menge von Dokumenten effizient bearbeiten können, sollen innovative Methoden entwickelt werden, die es erlauben, die Suchprozesse von Forschenden zu dokumentieren und daraus semi-automatische Suchmodelle abzuleiten. Dies dient nicht nur der Nachvollziehbarkeit des Forschungsprozesses, sondern soll auch die Grundlage dafür legen, dass spätere Suchprozesse semi-automatisch vorstrukturiert werden können, indem die herausgearbeiteten Suchmodelle auf größere Datensammlungen übertragen werden, die manuell nur schwer zu erschließen sind. Ziel der Materialaufbereitung ist es zunächst, eine möglichst große „Sammlung“ von geeigneten Aspekten („Suchbegriffen“) aus dem Datenmaterial zu erschließen, darunter etwa Entitäten (Personennamen, Orte, Firmennamen), bestimmte Themen oder (was eine besondere Innovation im Rahmen des skizzierten Vorhabens darstellt) Informationen zum zeithistorischen Kontext. Diese Aspekte werden sowohl aus den Metadaten, als auch semi-automatisch aus dem Volltext extrahiert. Dabei ist durch Nutzung der (in AP 8 entwickelten) Filterfunktionen sicherzustellen, dass alle Anonymisierungs-notwendigkeiten beachtet werden.

Der iterative Suchprozess dient schließlich zur Reduzierung des Suchraumes. Nachdem in einem ersten Schritt durch explorative Suchstrategien eine grobe Eingrenzung des relevanten Primärmaterials erfolgt ist, wobei Aspekte des Primärdokuments über die Auswahl entscheiden, wird anschließend aus den selektierten Dokumenten ein neues „Primärprojekt“ erzeugt. Die darin enthaltenen Materialien werden zunächst manuell bearbeitet und kodiert, um dann einer neuerlichen Runde der Suche unterzogen zu werden, was dazu dient, jene Facettenkombinationen zu identifizieren, die für die jeweilige Forschungsfrage von besonderer Bedeutung sind. Die Forschenden haben die Möglichkeit, ihre Suchstrategien und deren Ergebnisse automatisch zusammenzufassen, zu visualisieren und zu vergleichen. Das Suchmodell, das sich dabei herauskristallisiert, kann anschließend wieder auf größere Ausschnitte des Datenbestandes angewendet werden, die manuell nur schwer zu erschließen wären; zu prüfen ist hier, inwiefern sogar eine Anpassung auf andere Datenkollektionen möglich ist. Das im Rahmen dieses Arbeitsschrittes zusätzlich identifizierte Material kann schließlich genutzt werden, um das Suchmodell weiter zu verfeinern. Die im Rahmen einer solchen iterativen Suche entstandenen Suchmodelle werden gespeichert und bei Bedarf zu einem späteren Zeitpunkt herangezogen werden, um nachzuvollziehen, wie sich der Datenbestand, vor allem aber auch die an ihn herangetragenen Fragestellungen im Zeitverlauf verändern.

2. Semi-automatische Analyse qualitativer Daten:Nachdem die ausgewählten Primärdokumente analysiert und relevante Textausschnitte mit dem (in AP 9 aus TextGrid weiterentwickelten) Werkzeug (annotator.js) kodiert sind, bieten sich die dabei entstandenen Strukturinformationen als Ausgangspunkt an, um mit maschinellem Lernen ähnliche Textausschnitte automatisch in anderen Dokumenten, z.B. in Interviews aus weiteren Studien, zu identifizieren. Zu diesem Zweck wird ein Dienst entwickelt, der sowohl Textausschnitte als auch Codierungen als Eingabe akzeptiert und davon ausgehen ähnliche Textausschnitte aus dem gesamten Datenbestand liefert, die nach Ähnlichkeit sortiert sind. Hierbei werden verschiedene Ähnlichkeitmaße (wie Cosine, Jaccard, oder auf Topicmodellen basierend, sowie maschinell gelernt) auf ihre Tauglichkeit untersucht und von den PartnerInnen aus dem Bereich Soziologie evaluiert.