Classification of Natural Scenes

Lade...
Vorschaubild

Datum

Autor:innen

Betreuer/Gutachter

Weitere Beteiligte

Beteiligte Institutionen

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

Seit einiger Zeit ist bekannt, dass das menschliche visuelle System zu einer erstaunlich schnellenVerarbeitung natürlicher Szenen in der Lage ist. Wenn man einem Beobachter zwei Bilder präsentiert,sei es auch nur für sehr kurze Zeit (z. B. 30ms), so das auf genau einem der Bilder ein Objekt einerbestimmten Objektklasse (z. B. Tiere ) zu sehen ist, so können Menschen dies nicht nur überauszuverlässig (im Allgemeinen über 90% richtig), sondern auch extrem schnell erkennen schon ab150ms entscheiden manche Versuchspersonen über-zufällig richtig. Eine solch schnelle Entscheidunglässt nicht sehr viel Zeit für kognitive Abläufe. Es ist wahrscheinlich, dass diese Fähigkeit zurschnellen Entscheidung nicht etwa auf einem Abgleich mit einem im Gedächtnis gespeichertenKatalog von Tierbildern beruht, sondern aufgrund von sehr grundlegenden Bildeigenschaftengeschieht. Eine mögliche Informationsquelle, die zu solch schneller Klassifikation beitragen könnte,ist das globale Amplitudenspektrum. Es ist das Ziel dieser Dissertation, zu untersuchen in wie weitdas globale Amplitudenspektrum zur Klassifikation von Bildern beitragen kann, und ob diesestatsächlich auch im menschlichen visuellen System geschieht. Durchgeführt wird dies am Beispielder Bildklassen Tier und kein Tier .Dazu wurde zunächst eine knapp 11000 Bilder umfassende Datenbank geschaffen, die zu jeweils50% aus Tier - und nicht Tier -Bildern besteht. Im folgenden wird zunächst ein Computer-Algorithmus ausführlich vorgestellt, der mit einer Trefferquote von ca. 75% in der Lage ist, Tier -von nicht Tier -Bilder zu unterscheiden, und zwar ausschließlich anhand des globalenAmplitudenspektrums.Anschließend werden drei Hauptmerkmale des Klassifikationsverhaltens dieses Computer-Algorithmus mit dem Verhalten menschlicher Versuchspersonen verglichen, um Gemeinsamkeitenund Unterschiede herauszuarbeiten.Im ersten Experiment wird die Anfälligkeit des Computer-Algorithmus auf Rotierten der Bildern mitder Anfälligkeit menschlicher Versuchspersonen verglichen. Aufgrund der Rotationsinvarianz desComputer-Algorithmus wird ein angenommenes Klassifikationsprofil mit den tatsächlichexperimentell gemessenen Ergebnissen der Versuchspersonen verglichen. Eingesetzt wurde ein2AFC-Paradigma, bei dem die Augenbewegungen der Versuchspersonen zur Ermittlung derrelevanten Messgrößen werden. Es stellt sich heraus, das Menschen in der Tat eine ähnliches, wennauch schwächer ausgeprägtes Profil aufzeigen. Bilder in kardinalen Rotationswinkeln (0°, 90°, 180°)werden dabei besser klassifiziert als Bilder in anderen Winkeln (45°, 135°).Das zweite Experiment behandelt die individuelle Schwierigkeit von Bildern. Der Computer-Algorithmus vergibt aufgrund des Abstandes von der Klassifikationsebene eine Wertung der Tier -haftigkeit bzw. nicht Tier -haftigkeit jedes Bildes. Je höher die Tier -haftigkeit eines Bildesausfällt, desto leichter sollte es einer Versuchsperson fallen, dieses korrekt zu klassifizieren.Hier wurde ein Go/NoGo-Paradigma eingesetzt, bei dem die Versuchspersonen einen Knopf immerdann schnellstmöglich loslassen sollten, wenn ein Tier -Bild gezeigt wurde. Anhand vonReaktionszeit und Trefferquote konnte auch in diesem Experiment ein hohes Maß an Ähnlichkeitzwischen menschlichem Verhalten und Computer-Algorithmus festgestellt werden.Im dritten Experiment wird die Reaktion auf den Wegfall des globalen Amplitudenspektrumsbetrachtet. Dazu wurde das individuelle Amplitudenspektrum der Bilder ersetzt durch das gemittelteAmplitudenspektrum ihrer jeweiligen Bildklasse. Eingesetzt wurden sowohl 2AFC- als auchGo/NoGo-Paradigma. Während der Computer-Algorithmus durch das Fehlen des einzigenKlassifikationsmerkmals auf Zufallsniveau abfällt, verringern sich die Leistungen der menschlichenVersuchspersonen nur geringfügig (übereinstimmend in beiden Paradigmen).Im zweiten Teil dieser Dissertation wird untersucht, welche Datengrundlage zur Klassifikationherangezogen werden könnte, wenn das globale Amplitudenspektrum nicht in Frage kommt. AlsKonsequenz wird ein neuer Computer-Algorithmus vorgestellt, der nicht nur Frequenz, Orientierungund Amplitude, sondern auch die Lokalisation der Information berücksichtigt. Als Datengrundlagedient eine Bildpyramide, die mehrere Frequenz- und Orientierungsbänder an jeder Stelle des Bildesbeinhaltet. Mit diesem neuen Algorithmus wird eine Klassifikationsleistung von annähernd 78%erreicht. Durch eine genauere Analyse der Verteilung der relevanten Information über die Flächeeines Bildes wird dabei ein zuvor unentdecktes Artefakt aufgezeigt, welches bereits durch denAufnahmeprozess der Bilder entstanden ist. Dieses Artefakt ist in der Lage, einem Computer-Algorithmus zu einer recht hohen Klassifikationsleistung (ca 74-75%) zu verhelfen, auch wenn daseigentlich relevante Bildzentrum ausgeblendet wird und somit das Objekt der Szenerie nicht mehrvorhanden ist. Dies ist von Bedeutung, da die Bilddatenbank, welche als Quelle sämtlicher Bilderdieser Arbeit dient, im Bereich der Wissenschaft weite Verbreitung genießt.In einem vierten Experiment wird getestet, ob menschliche Versuchspersonen ebenfalls auf diesesArtefakt zurückgreifen können. Eingesetzt wird das bewährte 2AFC-Paradigma, bei dem selektivverschiedene Bildausschnitte gezeigt werden. Ein Effekt des Artefaktes auf menschlicheVersuchspersonen konnte nicht festgestellt werden.Abschließend werden die Resultate aller 4 Experimente, sowie der Computer-Algorithmen diskutiertund geschlussfolgert, dass das globale Amplitudenspektrum aller Wahrscheinlichkeit nach keinedominante Rolle für schnelle Bildklassifikation im Menschen dient. Es wird eine Empfehlungausgesprochen, dies bei zukünftiger Forschung im Bereich menschlicher Klassifikationsleistung zuberücksichtigen.

Verknüpfung zu Publikationen oder weiteren Datensätzen

Beschreibung

Anmerkungen

Erstpublikation in

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Zitierform