Künstliche Intelligenz kann dich hören
Dieser Beitrag wurde von Michiel Salters und Jasper van Dorp Schuitman von Sound Intelligence verfasst. Lesen Sie mehr über Michiel und Jasper am Ende dieses Beitrags. |
Sehen und Hören gehören als Sinne zusammen, wenn man sich über das, was um uns herum geschieht, bewusst werden will. Im Sicherheitsbereich ist es daher sinnvoll, dass sowohl die akustischen als auch visuellen Einblicke dazu beitragen können, ein besseres Gesamtbild von dem zu entwickeln, was in der Umgebung geschieht.
In diesem Beitrag hören wir von Michiel Salters, M.Sc., Technischer Direktor, und Jasper van Dorp Schuitman, PhD, Senior Scientist bei Sound Intelligence, wie wichtig es ist, wichtige Ereignisse in Ihren Sicherheitsaufzeichnungen mit Hilfe von Audioanalysen identifizieren und lokalisieren zu können.
Nie wieder ein Ereignis verpassen
Es ist unmöglich, überall und jederzeit physisch präsent zu sein. Und wie die meisten Menschen nutzen wir eine Videosicherheitsanlage, um zu sehen und zu hören, was überall dort passiert, wo wir nicht sind. Mit nur wenigen Kameras ist das relativ einfach, aber es ist unpraktisch, viele Kameras gleichzeitig im Blick zu behalten. Wie lange würde es dauern, ein wichtiges Ereignis auf einer Kamera zu entdecken, während man irgendwo anders hinschaut? Was würden Sie verpassen? Was wären die Konsequenzen?
Aus diesem Grund sind Edge-basierte Echtzeit-Analysen so wertvoll. Sie helfen dabei, Ereignisse zu erkennen und zu kategorisieren – und darüber hinaus einen Benutzer auf entscheidende Situationen aufmerksam zu machen. Wenn Sie an Edge-basierte Analytik auf Kameras denken, kommen Ihnen wahrscheinlich zunächst video- oder bildbasierte Analysen in den Sinn, aber es kann sich auch genauso um Audioanalysen handeln. Beispielsweise wären Schüsse, Aggressionen und zerbrochenes Glas mit bildbasierter Analyse schwer zu entdecken. Mit Audioanalyse können sie jedoch schnell erkannt werden – selbst dann, wenn sich das Ereignis außerhalb des Sichtfelds der Kamera befindet. Die frühzeitige Erkennung dieser Art von Ereignissen bedeutet, dass sowohl Sicherheitspersonal als auch Strafverfolgungsbehörden informiert und entsandt werden können. So können sie im Idealfall daraus resultierende Situation deeskalieren oder im schlimmsten Fall sogar bedrohte Opfer schnell erreichen und möglicherweise damit Leben retten.
Aber wie erkennt die Audioanalyse einen Schuss von einer Tür, die schwungvoll ins Schloss knallt? Wie lässt sich bei einer Gruppe von lauten Teenagern ein blöder Scherz von einem heftigen Streit unterscheiden? So wichtig die frühzeitige Erkennung eines ernsthaften Ereignisses ist, so wichtig ist auch die Reduzierung der Fehlalarme.
Bessere Erkennung dank Machine Learning
Audio- und Videoanalyse sind zwei Formen der Mustererkennung, einem Zweig der Künstlichen Intelligenz (KI) (engl. Artificial Intelligence, AI). Die Künstliche Intelligenz hat im letzten Jahrzehnt eine Revolution erlebt, die durch das maschinelle Lernen (engl. Machine Learning) geradezu beflügelt wurde.
Es ist nicht mehr von vornherein notwendig, alle Intelligenz mühsam in eine KI zu programmieren. Stattdessen versorgt man die Künstliche Intelligenz mit Beispieldaten und weist sie an, die Muster aus diesen Daten zu erkennen, verstehen und daraus zu lernen. Diese Idee ist nicht neu, aber sie wurde erst vor kurzem mit der Verfügbarkeit von erschwinglichen GPU’s (engl. graphics processing unit) realisierbar.
Ursprünglich für Spiele entwickelt, erwiesen sich diese Chips als weitaus vielseitiger, als ihre Entwickler es sich vorgestellt hatten. Wichtige Algorithmen für maschinelles Lernen, die um die Jahrhundertwende entwickelt wurden, sind plötzlich von größerem Nutzen. Glücklicherweise erwiesen sich diese neuen Techniken als sehr flexibel. Neuronale Netzwerkalgorithmen für die Erkennung von Standbildern konnten auch auf die Video- und Audioanalyse übertragen werden.
Der Schlüssel zur erfolgreichen Anwendung dieser neuen Techniken ist jedoch der Datensatz, mit dem Sie arbeiten. Für das korrekte Training und Testen von maschinellen Lernmodellen sind Datensätze erforderlich, die groß und reichhaltig genug sind, um die Vielfalt und die Arten von Klängen zu beschreiben, die Sie klassifizieren möchten. Bei Sound Intelligence verfügen wir über Audiodaten aus zahlreichen realen Umgebungen – Daten, die in den letzten zwanzig Jahren gesammelt und intern manuell annotiert (= mit Hinweisen versehen) wurden. Die Tatsache, dass wir bei einem so einzigartigen Bestand von Audiodaten modernste maschinelle Lernverfahren anwenden können, macht uns zu einem führenden Unternehmen in der Branche der Erkennung von Geräuschen aus dem wirklichen Leben.
Community-basierte Innovation
Die rasche Entwicklung der KI war nicht nur eine Frage der Hard- und Software. Sie profitierte auch von einer offenen Gemeinschaft und einer engen Zusammenarbeit zwischen Wissenschaft und Industrie. KI-Tools sind heute frei verfügbar, da namhafte Unternehmen wie Facebook und Google mit ihren großen, internen Forschungsabteilungen erkannt haben, dass die Zusammenarbeit die Entwicklung beschleunigt und langfristig der gesamten Gemeinschaft zugutekommt. Tatsächlich veranstalten mehrere Foren KI-Wettbewerbe, bei denen Forscher eingeladen werden, neue Ideen und Algorithmen an öffentlichen Datensätzen zu testen.
Ein solches Forum, an dem wir uns bei Sound Intelligence beteiligen, ist DCASE (Detection and Classification of Acoustic Scenes and Events) – eine jährliche Serie von KI-Herausforderungen, die speziell für die Audioanalyse gelten. Sie wird seit 2016 jährlich organisiert und kombiniert Online-Herausforderungen mit einem zweitägigen Workshop, bei dem die Gewinner ihre erfolgreichen Strategien vorstellen. Hunderte von Wissenschaftlern aus führenden Universitäten, Forschungsinstituten und der Industrie kommen zusammen, um die neuesten Technologien zu diskutieren, die in zukünftigen Lösungen eingesetzt werden können.
Sound Intelligence unterstützt diese Veranstaltung zusammen mit Unternehmen wie Amazon, Facebook, Google, IBM und Microsoft. Das wachsende Interesse dieser großen Namen zeigt, dass der Bereich der Sound-Klassifizierung und -Erkennung immer mehr Aufmerksamkeit erhält. Wir dienen auch als Branchenexperten bei DCASE, um die eingereichten Herausforderungen zu prüfen und zu beurteilen und diejenigen zu prämieren, die auf unserem Gebiet am relevantesten sind.
Die DCASE-Herausforderungen sind eine großartige Möglichkeit, die theoretisch möglichen Grenzen auszuloten – mit minimalen Einschränkungen bei Rechenleistung und Zeit. Die Forscher, die an den DCASE-Aufgaben arbeiten, verfügen in der Regel über mehrere GPUs, auf denen sehr komplexe Algorithmen ausgeführt werden können; manchmal sogar mehrere Algorithmen parallel. In der realen Welt haben Sicherheitsanwendungen jedoch nur eine begrenzte Rechenleistung, und die Klassifizierungen müssen in Echtzeit erfolgen. Eine große Herausforderung für Sound Intelligence und die KI-Gemeinschaft im Allgemeinen besteht daher darin, modernste Techniken des maschinellen Lernens in eigenständigen Geräten für Echtzeitprogramme anzuwenden.
Bereitstellung modernster Analysefunktionen mit Axis
Für einen realen Einsatz müssen die Analysen auf einer praxiserprobten Plattform laufen. Die Edge-basierte AXIS Camera Application Platform (ACAP) ist beispielsweise eine solche, die die Kamera in ein intelligentes Gerät verwandelt. Axis hat in den letzten Jahren auch große Fortschritte gemacht, indem es mehr Verarbeitungsleistung in seinen Netzwerkkameras und Audiogeräten auf der Basis seines ARTPEC-Chips eingeführt hat. Der neueste ARTPEC-7-Chip mit Hardware-Unterstützung für Neuronale Netzwerke macht die auf maschineller Erkennung basierende akustische Analyse noch besser möglich.
Mit der erhöhten verfügbaren Rechenleistung können sowohl Video- als auch Audioanalysen parallel ausgeführt werden. Sie können auch kombiniert werden, um eine noch bessere Erkennungsqualität zu erzielen, wodurch der Weg für die zukünftige Integration von Audio- und Video-Metadaten und für das Training des tiefen neuronalen Netzes auf dem kombinierten Datensatz geebnet wird.
Künstliche Intelligenz – heute und morgen
Die Künstliche Intelligenz wird es nicht irgendwann in der Zukunft zu einem bestimmten Zeitpunkt einmal geben und dann ist sie einfach da. Nein, die Technologie verändert sich ständig und reift jeden Tag. Open-Source-Werkzeuge und -Datensätze werden die ‚grundlegende‘ KI für jeden zugänglich machen. Hardware-Innovationen, wie ARTPEC-7, werden alltäglich werden und noch komplexere Künstliche Intelligenz ermöglichen. Mit der weit verbreiteten Verfügbarkeit von Werkzeugen und Hardware wird es im nächsten Jahrzehnt nicht mehr darum gehen, wer die besten KI-Komponenten hat, sondern wer die Kundenbedürfnisse am besten versteht und wer über die qualitativ hochwertigsten Datensätze verfügt.
Die tiefen neuronalen Netze von Sound Intelligence werden an realen Umgebungen trainiert und arbeiten daher einwandfrei in realen Umgebungen. Durch die enge Zusammenarbeit mit Axis, zur kontinuierlichen Verbesserung unserer jeweiligen Hardware- und Softwarelösungen, erfüllen wir schon heute die Anforderungen unserer Kunden in einer Vielzahl von Industriesegmenten und Umgebungen.
Michiel Salters, M.Sc. ist Technischer Leiter bei Sound Intelligence. Er ist Absolvent der Gruppe für Mustererkennung an der Technischen Universität Delft und arbeitete zuvor bei der Unternehmensberatung CMG und TomTom. Er hat Muster im Telefonverkehr, in Staus und jetzt auch im Audiobereich entdeckt. |
Jasper van Dorp Schuitman, PhD, ist leitender Wissenschaftler bei Sound Intelligence. Er promovierte in angewandter Physik an der Technischen Universität Delft und forschte in den Bereichen Audiowiedergabe und -aufnahme, Raumakustik, Modellierung des menschlichen Gehörs, Audio-Wasserzeichen und Fingerabdrücke sowie Erkennung von Schallereignissen. |