Classification of Natural Scenes

Datum

2006

Autor:innen

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

Seit einiger Zeit ist bekannt, dass das menschliche visuelle System zu einer erstaunlich schnellenVerarbeitung natürlicher Szenen in der Lage ist. Wenn man einem Beobachter zwei Bilder präsentiert,sei es auch nur für sehr kurze Zeit (z. B. 30ms), so das auf genau einem der Bilder ein Objekt einerbestimmten Objektklasse (z. B. Tiere ) zu sehen ist, so können Menschen dies nicht nur überauszuverlässig (im Allgemeinen über 90% richtig), sondern auch extrem schnell erkennen schon ab150ms entscheiden manche Versuchspersonen über-zufällig richtig. Eine solch schnelle Entscheidunglässt nicht sehr viel Zeit für kognitive Abläufe. Es ist wahrscheinlich, dass diese Fähigkeit zurschnellen Entscheidung nicht etwa auf einem Abgleich mit einem im Gedächtnis gespeichertenKatalog von Tierbildern beruht, sondern aufgrund von sehr grundlegenden Bildeigenschaftengeschieht. Eine mögliche Informationsquelle, die zu solch schneller Klassifikation beitragen könnte,ist das globale Amplitudenspektrum. Es ist das Ziel dieser Dissertation, zu untersuchen in wie weitdas globale Amplitudenspektrum zur Klassifikation von Bildern beitragen kann, und ob diesestatsächlich auch im menschlichen visuellen System geschieht. Durchgeführt wird dies am Beispielder Bildklassen Tier und kein Tier .Dazu wurde zunächst eine knapp 11000 Bilder umfassende Datenbank geschaffen, die zu jeweils50% aus Tier - und nicht Tier -Bildern besteht. Im folgenden wird zunächst ein Computer-Algorithmus ausführlich vorgestellt, der mit einer Trefferquote von ca. 75% in der Lage ist, Tier -von nicht Tier -Bilder zu unterscheiden, und zwar ausschließlich anhand des globalenAmplitudenspektrums.Anschließend werden drei Hauptmerkmale des Klassifikationsverhaltens dieses Computer-Algorithmus mit dem Verhalten menschlicher Versuchspersonen verglichen, um Gemeinsamkeitenund Unterschiede herauszuarbeiten.Im ersten Experiment wird die Anfälligkeit des Computer-Algorithmus auf Rotierten der Bildern mitder Anfälligkeit menschlicher Versuchspersonen verglichen. Aufgrund der Rotationsinvarianz desComputer-Algorithmus wird ein angenommenes Klassifikationsprofil mit den tatsächlichexperimentell gemessenen Ergebnissen der Versuchspersonen verglichen. Eingesetzt wurde ein2AFC-Paradigma, bei dem die Augenbewegungen der Versuchspersonen zur Ermittlung derrelevanten Messgrößen werden. Es stellt sich heraus, das Menschen in der Tat eine ähnliches, wennauch schwächer ausgeprägtes Profil aufzeigen. Bilder in kardinalen Rotationswinkeln (0°, 90°, 180°)werden dabei besser klassifiziert als Bilder in anderen Winkeln (45°, 135°).Das zweite Experiment behandelt die individuelle Schwierigkeit von Bildern. Der Computer-Algorithmus vergibt aufgrund des Abstandes von der Klassifikationsebene eine Wertung der Tier -haftigkeit bzw. nicht Tier -haftigkeit jedes Bildes. Je höher die Tier -haftigkeit eines Bildesausfällt, desto leichter sollte es einer Versuchsperson fallen, dieses korrekt zu klassifizieren.Hier wurde ein Go/NoGo-Paradigma eingesetzt, bei dem die Versuchspersonen einen Knopf immerdann schnellstmöglich loslassen sollten, wenn ein Tier -Bild gezeigt wurde. Anhand vonReaktionszeit und Trefferquote konnte auch in diesem Experiment ein hohes Maß an Ähnlichkeitzwischen menschlichem Verhalten und Computer-Algorithmus festgestellt werden.Im dritten Experiment wird die Reaktion auf den Wegfall des globalen Amplitudenspektrumsbetrachtet. Dazu wurde das individuelle Amplitudenspektrum der Bilder ersetzt durch das gemittelteAmplitudenspektrum ihrer jeweiligen Bildklasse. Eingesetzt wurden sowohl 2AFC- als auchGo/NoGo-Paradigma. Während der Computer-Algorithmus durch das Fehlen des einzigenKlassifikationsmerkmals auf Zufallsniveau abfällt, verringern sich die Leistungen der menschlichenVersuchspersonen nur geringfügig (übereinstimmend in beiden Paradigmen).Im zweiten Teil dieser Dissertation wird untersucht, welche Datengrundlage zur Klassifikationherangezogen werden könnte, wenn das globale Amplitudenspektrum nicht in Frage kommt. AlsKonsequenz wird ein neuer Computer-Algorithmus vorgestellt, der nicht nur Frequenz, Orientierungund Amplitude, sondern auch die Lokalisation der Information berücksichtigt. Als Datengrundlagedient eine Bildpyramide, die mehrere Frequenz- und Orientierungsbänder an jeder Stelle des Bildesbeinhaltet. Mit diesem neuen Algorithmus wird eine Klassifikationsleistung von annähernd 78%erreicht. Durch eine genauere Analyse der Verteilung der relevanten Information über die Flächeeines Bildes wird dabei ein zuvor unentdecktes Artefakt aufgezeigt, welches bereits durch denAufnahmeprozess der Bilder entstanden ist. Dieses Artefakt ist in der Lage, einem Computer-Algorithmus zu einer recht hohen Klassifikationsleistung (ca 74-75%) zu verhelfen, auch wenn daseigentlich relevante Bildzentrum ausgeblendet wird und somit das Objekt der Szenerie nicht mehrvorhanden ist. Dies ist von Bedeutung, da die Bilddatenbank, welche als Quelle sämtlicher Bilderdieser Arbeit dient, im Bereich der Wissenschaft weite Verbreitung genießt.In einem vierten Experiment wird getestet, ob menschliche Versuchspersonen ebenfalls auf diesesArtefakt zurückgreifen können. Eingesetzt wird das bewährte 2AFC-Paradigma, bei dem selektivverschiedene Bildausschnitte gezeigt werden. Ein Effekt des Artefaktes auf menschlicheVersuchspersonen konnte nicht festgestellt werden.Abschließend werden die Resultate aller 4 Experimente, sowie der Computer-Algorithmen diskutiertund geschlussfolgert, dass das globale Amplitudenspektrum aller Wahrscheinlichkeit nach keinedominante Rolle für schnelle Bildklassifikation im Menschen dient. Es wird eine Empfehlungausgesprochen, dies bei zukünftiger Forschung im Bereich menschlicher Klassifikationsleistung zuberücksichtigen.


Humans are capable of rapidly classifying scenes by content, even when they are presented only verybriefly. Classification accuracy can exceed 90%, while above-chance performance can be achieved inabout 150ms. The global amplitude spectrum of an image has repeatedly been suggested to be apossible source of information for such fast classification. The aim of this thesis was to analyze theway in which humans classify images, specifically for the case of scenes which contain an animal ornot. Indeed it was found that the information contained in the global amplitude spectrum, even at arather coarse scale, is quite adequate for successful computer classification. In the first part of thisthesis, a computer classifier was developed, capable of correctly classifying 75% of the images in ourdatabase. Then, 3 main characteristics of this classifier are identified and then tested against humansubjects in 3 experiments:First, the sensitivity to image rotation is tested. Using a 2AFC paradigm, human subjects were askedto decide which of two displayed images contained an animal. Eye movements were recorded tomeasure response time and classification accuracy. A high degree of similarity to the behavior of ourcomputer classifier was found, with better performance on cardinal image rotations (0°, 90°, 180°).Second, the order of the images in terms of classification difficulty is analyzed. We employed both a2AFC paradigm and a Go/NoGo paradigm. In the latter subjects were asked to release a button asquickly as possible only when an animal image was shown. Here too a high degree of similaritybetween the results of the human visual system and those of our computer classifier was found.Third, classification without the amplitude spectrum as a primary clue is tested. We modified ourimages, replacing the individual amplitude spectrum of each image with the mean amplitudespectrum of its image class. The individual phase spectrum was retained, unaltered. In this case, thecomputer classifier was blinded and would not exceed chance performance, while our humansubjects still achieved high classification performance. This clearly contradicts the global amplitudespectrum hypothesis.In the second part of this thesis, a different approach to computer classification is presented. Theimages were filtered in a way that allowed to analyze image content for different frequencies andorientations at discrete locations (as opposed to the global amplitude spectrum). The new computerclassifier was able to achieve almost 78% correct classification. Also, a previously unreported artifactof the image capturing process was discovered within the image database used. This is remarkablebecause of the widespread scientific acceptance of the Corel Stock Photo Library used in this thesis.Finally, the results obtained during all 4 experiments and the computational analysis are integratedand the possible use of the global amplitude spectrum in human visual classification is discussed. Themain conclusion of this work is that the global amplitude spectrum is in all likelihood not a dominantfactor in human visual classification. This finding should be considered in future research.

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform