Zum Inhalt der Seite springen

Aktuelles

im AK Methoden in der Evaluation

Fr├╝hjahrstagung des AK am 6./7. Juni 2024 in Saarbr├╝cken

ÔÇ×Wissen was wirkt? Voraussetzungen f├╝r erfolgreiche Wirkungsuntersuchungen in EvaluationenÔÇť

Wirkungsuntersuchungen stehen im Zentrum vieler Evaluationen. Sie sollen beispielsweise den kausalen Nachweis erbringen, ob die zu evaluierenden Ma├čnahmen (z.B. Programme und Projekte) effektiv, wirksam und nachhaltig sind oder aufkl├Ąren, welche Wirkmechanismen wie dazu beitragen, dass Wirkungen entfaltet werden. Daf├╝r steht den Evaluierenden grunds├Ątzlichen ein breites Set an Methoden der empirischen Sozialforschung und weiterer Bezugsdisziplinen (z.B. der ├ľkonometrie) zur Verf├╝gung: Rigorose quantitative Kausalmessverfahren wie randomisierte Kontrollgruppendesigns (RCTs) und quasi-experimentelle Methoden kommen dabei ebenso zum Einsatz wie qualitative Methoden zur Eruierung von Wirkmechanismen, zur Aufkl├Ąrung von Wirkzusammenh├Ąngen oder zur Erhebung von plausiblen Wirkungen (z.B. Process Tracing, Kontributionsanalyse oder Outcome Harvesting). Mit diesen Methoden gehen spezifische Vor- und Nachteile einher: Manche Methoden erlauben eine h├Âhere Generalisierbarkeit der Ergebnisse, mit anderen l├Ąsst sich im Sinne des verstehenden Erkl├Ąrens nach Weber (1972) theoriegeleitet erkl├Ąren, warum etwas wirkt oder nicht wirkt. Zudem k├Ânnen verschiedene Methoden im Rahmen von Mixed Method Designs (Creswell & Clark, 2011; Mertens, 2017) und Multi-Methods Designs (Goertz 2017) miteinander kombiniert werden, um ihre jeweiligen methodischen St├Ąrken umfassend in Wert zu stellen bzw. um sowohl fall├╝bergreifende als auch fallspezifische (vertiefende) Evidenz im Sinne des Erkenntnisinteresses zu generieren.

Die Wahl des jeweils ÔÇ×richtigenÔÇť Evaluations- bzw. Methodendesigns, das f├╝r die Wirkungsuntersuchung herangezogen wird, sollte sich weder nach wissenschaftstheoretischen und methodologischen Dogmen noch allein nach den methodischen Kompetenzen der Evaluierenden richten. Entscheidend ist zuvorderst, ob das gew├Ąhlte Design gegenstandsangemessen ist. Verschiedenartige Untersuchungs- bzw. Evaluationsgegenst├Ąnde sowie -fragestellungen verlangen dabei unterschiedliche, auf sie angepasste Evaluationsdesigns. Dabei ist auch das jeweilige ÔÇ×WirkungsinteresseÔÇť der Stakeholder einer Evaluation zu ber├╝cksichtigen (z.B. Wirkungsnachweis vs. Erkl├Ąren (nicht-)intendierter Wirkungen sowie Lernerfahrungen zu ÔÇ×gescheitertenÔÇť Wirkungsannahmen, Rekonstruktion von Wirkmechanismen, ex-post-Wirkungsnachweis vs. ex-ante Wirkungsabsch├Ątzung uvm.) (Bischoff et al. 2021).

In der Fr├╝hjahrstagung 2024 widmet sich der AK Methoden in der Evaluation der Frage nach den Voraussetzungen f├╝r eine gegenstandsangemessene, erfolgreiche Wirkungsuntersuchung in Evaluationen: Welche Voraussetzungen m├╝ssen wir auf verschiedenen Ebenen ber├╝cksichtigen, damit Wirkungsuntersuchungen dem Evaluierungsgegenstand und dem Erkenntnisinteresse der Stakeholder angemessen sind? Welche Anforderungen an G├╝tekriterien und Evaluationsstandards m├╝ssen wirkungsorientierte Evaluationen erf├╝llen? Dabei reflektieren/beleuchten wir gemeinsam relevante Voraussetzungen f├╝r erfolgreiche Wirkungsuntersuchungen (ÔÇ×ErfolgsfaktorenÔÇť) auf drei Ebenen:

Stakeholderbezogene Voraussetzungen: Wie kommen wir zu geteilten Standards und einheitlichen Verst├Ąndnissen unter den Stakeholdern dar├╝ber, welche Art der Wirkungsuntersuchung f├╝r die jeweilige Evaluation angemessen ist? Wie lassen sich Stakeholderperspektiven einfangen, beispielsweise wenn Beratungen mit Stakeholdern im Vorfeld nicht m├Âglich sind (wie z.B. bei Akkreditierungsverfahrungen)?

Gegenstands- und kontextbezogene Voraussetzungen: Wann k├Ânnen und sollten wir mit welchen Evaluationsans├Ątzen, -designs und -methoden Wirkungen erfassen? Wie leiten wir aus Evaluierungsgegenstand, -fragen und -kontext systematisch ein Design f├╝r die Wirkungsuntersuchung ab? Wie k├Ânnen wir ein solches Design (z.B. mit Blick auf Evaluierungen in fragilen Kontexten) m├Âglichst adaptiv oder kontextrobust gestalten? Unter welchen Bedingungen k├Ânnen welche Methoden zum Einsatz kommen? Was ist das ÔÇ×richtigeÔÇť Ma├č zwischen Erkenntnisnutzen und methodischem Anspruch auf der einen Seite und Machbarkeit (Ressourcen, Timing, Kontext) auf der anderen Seite? Wie identifizieren wir vorhandene Evidenzen und Evidenzl├╝cken f├╝r die richtige Methodenwahl?

Methodische Voraussetzungen: Welche methodischen Voraussetzungen braucht es, um wirkungsorientierte Evaluationsdesigns umzusetzen? Was sind dabei wichtige Anwendungsvoraussetzungen, Mindeststandards und G├╝tekriterien? Welche Fehler und Biases treten bei der Anwendung bestimmter Methoden regelm├Ą├čig auf und wie kann man diesen begegnen? Wie gehen wir in methodenintegrierten Designs damit um, wenn verschiedene Methoden zu unterschiedlichen Ergebnissen f├╝hren? Wie k├Ânnen wir K├╝nstliche Intelligenz sinnvoll im Rahmen der Wirkungsuntersuchungen einsetzen und was sind die Voraussetzungen hierf├╝r?

Die Fr├╝hjahrstagung 2024 des AK Methoden in der Evaluation wird am 6./7. Juni 2024 in Saarbr├╝cken in Zusammenarbeit mit dem lokalen Organisationsteam des Weiterbildungsstudiengangs Master Evaluation in Kooperation von Universit├Ąt des Saarlandes und HTW Saar stattfinden.

Hier finden Sie das vorl├Ąufige Programm (Stand 08.04.2024).

Die Anmeldung ist vom 15. April bis 20. Mai 2024 ├╝ber ConfTool m├Âglich. Bitte klicken Sie daf├╝r auf den nachfolgenden Link: https://www.conftool.net/ak-methoden-FJT2024

 

Literatur:

Bischoff, U., Zimmermann, E., & K├Ânig, F. (2021). Erkennen, was wirkt. Die Erprobung von Ans├Ątzen der Wirkungsuntersuchung in der Evaluation von Bundesprogrammen der Demokratief├Ârderung und Extremismuspr├Ąvention und die damit gemachten Erfahrungen. In: Milbradt, B., Greuel, F., Reiter, S., & Zimmermann, E. (Hrsg.): Evaluation von Programmen und Projekten der Demokratief├Ârderung, Vielfaltgestaltung und Extremismuspr├Ąvention. Beltz Juventa, 244-268.

Creswell, J.W., & Clark, V.L. (2011): Designing and Conducting Mixed Methods Research. 2nd Edition, Sage Publications, Los Angeles.

Goertz, G. (2017): Multimethod Research, Causal Mechanisms, and Case Studies. An Integrated Approach. Princeton, NJ: Princeton University Press.

Mertens, D.M. (2017): Mixed Methods Designs in Evaluation, Sage.

Weber, M. (1972): Wirtschaft und Gesellschaft. Grundriss der verstehenden Soziologie, T├╝bingen.


Aktivit├Ąten rund um das Thema K├╝nstliche Intelligenz in der Evaluation

Die Entwicklung von K├╝nstlicher Intelligenz (KI) hat das Potential, den Berufsstand der Evaluation stark zu ver├Ąndern. In der Evaluationspraxis und -forschung ist das Thema gerade erst im Begriff, gr├Â├čere und regelm├Ą├čigere Aufmerksamkeit zu erlangen ÔÇô unter anderem ausgel├Âst durch den Hype um Large Language Models wie den Text Roboter Chat GPT.  Die beiden DeGEval-Arbeitskreise ÔÇ×Methoden in der EvaluationÔÇť und ÔÇ×ProfessionalisierungÔÇť haben dieses dynamische und hoch aktuelle Thema aufgegriffen und verschiedene Veranstaltungsformate dazu organisiert. Weitere Informationen finden sich hier.


Einladung zu einem Follow-up-Austausch zum Thema K├╝nstliche Intelligenz in der Evaluation

Die Entwicklung von K├╝nstlicher Intelligenz (KI) hat das Potenzial, den Berufsstand der Evaluation stark zu ver├Ąndern. In der Evaluationsforschung ist das Thema aber gerade erst im Begriff, gr├Â├čere und regelm├Ą├čigere Aufmerksamkeit zu erlangen ÔÇô unter anderem ausgel├Âst durch den Hype um Large Language Models wie den Text Roboter Chat GPT. In einer gemeinsamen Session ÔÇ×Alles ChatGPT oder was? ÔÇô Chancen und Herausforderungen K├╝nstlicher Intelligenz (KI) in der EvaluationÔÇť setzten sich die beiden DeGEval-Arbeitskreise ÔÇ×Methoden in der EvaluationÔÇť und ÔÇ×ProfessionalisierungÔÇť mit den Chancen und Herausforderungen des Einsatzes von KI in der Evaluierungsarbeit und f├╝r Evaluierende auseinander.

Ausgehend von dem gro├čen Interesse und positiven Feedback zur Session haben die Veranstalter:innen Alexander Kocks und Franziska Heinze vom AK Methoden sowie Jessica Prigge vom AK Professionalisierung entschieden, zu einem digitalen Follow-Up-Austausch am Dienstag, 28.11.2023 um 17:00 bis 18:30 Uhr einzuladen. Alle Interessierten ÔÇô auch diejenigen, die nicht an der Session teilnehmen konnten ÔÇô sind herzlich willkommen, weiter ├╝ber das Thema zu diskutieren! Beim ersten Treffen soll ausgelotet werden, wie weitere Formen des Austausches (z. B. Diskussionsforen), der Information (z. B. ├╝ber Einblicke in die Arbeit mit KI; Erfahrungsberichte) und Zusammenarbeit (z. B. zur Frage von Leitlinien im Umgang mit KI in der Evaluation) aussehen und organisiert werden k├Ânnen. Interessierte melden sich gern bis zum 24.11.2023 unter der E-Mail-Adresse ak-methoden@degeval.org, um einen Zugangslink zu erhalten.

F├╝r diejenigen, die nicht bei der Session dabei sein konnten, findet sich untenstehend eine Zusammenfassung ├╝ber Inhalte und Diskussionen sowie die offizielle Sessiondokumentation:

Session: ÔÇ×Alles ChatGPT oder was? ÔÇô Chancen und Herausforderungen K├╝nstlicher Intelligenz (KI) in der EvaluationÔÇť auf der DeGEval-Jahrestagung 2023

Mit einem Kurzinput wurde in der sehr gut besuchten Session (90 Teilnehmende) zun├Ąchst ein gemeinsames Verst├Ąndnis dar├╝ber hergestellt, was unter KI zu verstehen ist und reflektiert, wie und unter welchen Bedingungen KI in der Evaluation zur Anwendung kommen kann. In seinem Impulsvortrag ÔÇ×K├╝nstliche Intelligenz (KI) in der Evaluierungspraxis ÔÇô von der technologischen Revolution in den ArbeitsalltagÔÇť beleuchtete Kai Rompczyk, Deutsches Evaluierungsinstitut f├╝r Entwicklungszusammenarbeit (DEval), die j├╝ngsten Fortschritte in dem Bereich KI, insbesondere die Entwicklungen von Sprachmodellen wie ChatGPT. Mit der Erfindung des Prinzips autonom lernender und handelnder KIs, gesteigerter Rechenleistung und Datenverf├╝gbarkeit (Big Data) sowie sinkender technischer Kosten ist die Implementierung von KIs in unterschiedlichsten Anwendungsbereichen m├Âglich geworden und verbreitet sich rasant. In immer mehr Teilbereichen ├╝bersteigen die KIs dabei die Kompetenzen von Menschen. Rompczyk demonstrierte die Nutzungsm├Âglichkeiten von KIs anhand von Beispielen wie automatisierte Aufbereitung von Evidenz, Qualit├Ątssicherung oder Durchf├╝hrung von statistischen Analysen (z. B. Regressionsanalysen). Dabei machte er deutlich, dass der Einsatz von KIs in allen Evaluierungsphasen n├╝tzlich sein kann. Ein gro├čer Mehrwert bestehe darin, dass KIs unz├Ąhlige Iterationen von analytischen Aufgaben aus unterschiedlichsten Perspektiven durchf├╝hren k├Ânnen. Abschlie├čend wies er auf die Risiken der KI in der Evaluierungspraxis hin. Er betonte die wachsende Spannung zwischen Big Data und Datenschutz und fragte, ob die aktuellen Methoden zum Schutz sensibler Daten noch ausreichend sind. Er warnte vor Verzerrungen und Vorurteilen, die durch die Trainingsdaten entstehen k├Ânnen, und der Gefahr der Intransparenz durch die Blackbox-Natur vieler KI-Modelle. Rompczyk sprach auch die Herausforderungen an, die sich aus scheinbar menschlichen Kompetenzen mit nichtmenschlichen Fehlern ergeben, und die potenzielle Erosion des Vertrauens in etablierte Wissensnetzwerke durch den Einsatz von KI-Technologien wie Deepfakes. Er betonte schlie├člich die Notwendigkeit, bei der Verwendung von KIs in der Evaluierungspraxis die Einhaltung von Evaluierungsstandards zu ├╝berpr├╝fen.

Davon ausgehend erm├Âglichte die Session einen strukturierten Austausch in Kleingruppen zu Chancen und Risiken des Einsatzes der Technologien mit Blick auf zentrale Evaluationsstandards (N├╝tzlichkeit, Durchf├╝hrbarkeit, Fairness und Genauigkeit) sowie zur Frage, was der Einsatz von KI f├╝r unsere Professionalit├Ąt und weitere Professionalisierung als Evaluierende bedeutet. Die Ergebnisse wurden anschlie├čend im Plenum zusammengetragen:

Zahlreiche Chancen und Potenziale von KI wurden genannt. Angesichts voranschreitender technischer Entwicklungen und sich zunehmend verbessernden Leistungen von KI-L├Âsungen wurden viele Vorteile mit Bezug zu N├╝tzlichkeitsstandards gesehen (z. B. Berichterstattung, umfangreichere Datenanalysen, Rechtzeitigkeit). Weitere Potenziale wurden hinsichtlich der systematischen (Fehler-)├ťberpr├╝fung und Genauigkeit von Datenauswertungen, bezogen auf Automatisierungs- und damit einhergehende Kostenvorteile oder in Bezug auf M├Âglichkeiten der systematischen Anonymisierung oder Zug├Ąnglichkeit von Evaluationsergebnissen (Fairnessstandards) betont.

Herausforderungen von KI wurden z.T. sehr grunds├Ątzlich diskutiert, ohne dass bereits L├Âsungen gefunden worden w├Ąren. Dies betrifft beispielsweise das Verh├Ąltnis von menschlicher und Algorithmen-basierter Erkenntnis oder im Anschluss an den Kurzinput die mit der Anwendung von KI einhergehende Intransparenz, die zur Einschr├Ąnkung des Datenschutzes und der Nachvollziehbarkeit von Ergebnissen f├╝hren kann.

F├╝r den Umgang mit den benannten Herausforderungen wurden erste L├Âsungen vorgeschlagen, die sich vor allem auf Weiterbildungs- und Schulungsbedarfe, Erfahrungsaustausch, technische L├Âsungen (z. B. lokales Hosting) oder die Verst├Ąndigung auf die G├╝ltigkeit von Evaluationsstandards (Transparenz, Datenschutz, M├Âglichkeiten und Limitationen der Technologien kennen) bezogen.

Im Hinblick auf die Evaluation als Profession wurden Folgen f├╝r das Berufsfeld antizipiert, beispielsweise Risiken in der ÔÇ×WegrationalisierungÔÇť menschlicher Arbeit, sinkende Kompetenzen und Glaubw├╝rdigkeit von Evaluierenden oder eine St├Ąrkung gr├Â├čerer Evaluierungsinstitutionen. Au├čerdem wurden Bedarfe der Fort- und Weiterbildung in Evaluation formuliert, einerseits zur konkreten Anwendung (wie Prompts schreiben), andererseits wird ein reflexiver Umgang mit KI eingefordert (z. B. ÔÇ×Fehlerquellen antizipierenÔÇť) und sie dabei auch selbst zum Evaluationsgegenstand gemacht.

Gemeinsam wurde ausblickend der Frage nachgegangen, was es braucht, um Evaluation bzw. Evaluierende im Umgang mit Chancen und Herausforderungen von KI zu st├Ąrken. Vorschl├Ąge gingen einerseits in die Richtung, Erfahrungsaustausch zu st├Ąrken und zu f├Ârdern, eine Ad-hoc-Gruppe einzurichten sowie vor allem die (Selbst-)Vergewisserung im Umgang mit Anspr├╝chen der Evaluationsstandards im Hinblick auf Chancen, Herausforderungen und Professionalisierungsanforderungen zu st├Ąrken.