Mit Deep Learning zum digitalen Notenständer

Forscher Lukas Tuggener und App-Entwickler Florian Seibold wollen nicht weniger, als die Welt der professionellen Musik revolutionieren. Sie digitalisieren Notenblätter und nutzen dazu eine völlig neue Deep-Learning-Methode: die Deep Watershed Detection.

Text Bettina Bhend
Fotografie ZHAW
Illustration Ryan Sanchez

11. Dezember 2019

Ein Orchester spiel Musik anhand von digitalen Notenblättern auf einem Tablet

Lukas Tuggener zeichnet geschwungene Linien auf ein Blatt Papier. Ein bisschen schaut es aus wie die Höhenlinien auf einer Schweizer Landkarte. Seine Forschung, die er mit der Skizze veranschaulichen will, dreht sich aber nicht um Eiger, Mönch und Jungfrau, sondern um Mozart, Bach und Beethoven. Der Spezialist für Objekterkennung an der Zürcher Hochschule für Angewandte Wissenschaften arbeitet zusammen mit dem Start-up ScorePad an einem Projekt, das die Digitalisierung von Musiknoten revolutionieren soll. Das Ziel: Noten in eine maschinenlesbare Form bringen, als App veröffentlichen und professionellen Musikern damit ganz neue Möglichkeiten eröffnen.

Florian Seibold, Chief Technological Officer von ScorePad, erklärt: «Stellen Sie sich vor: Der Dirigent braucht nur einmal auf einen Takt zu klicken – und schon zeigt jedes Tablet im Orchestergraben die richtige Stelle an. Und zwar genau so, wie die einzelnen Musiker sie benötigen: Die Cellistin sieht nur diejenigen Noten und Kommentare, die für sie relevant sind.»

Muss ein Musikstück transponiert werden – zum Beispiel weil ein Sänger die geforderte Tonhöhe nicht erreicht – genügt ebenfalls ein Klick. Dank maschinenlesbarer Noten kann eine App schliesslich auch so programmiert werden, dass sie Musik abspielen oder mithören kann. «Der Trompeter muss dann nicht mehr von Hand umblättern. Die App weiss, wo im Musikstück er sich befindet und macht das automatisch.»

Tablet statt stapelweise Papier

Digitale Notenblätter sind für professionelle Musiker ganz grundsätzlich praktisch: Statt stapelweise Papier mit sich herumzuschleppen, reicht ein Tablet. Bislang handelte es sich dabei um digitale Kopien einer Partitur – um Bild- oder PDF-Dateien also. Beim Projekt von Lukas Tuggener und Florian Seibold geht es nun aber um maschinenlesbare Noten. Sie sind die Grundlage dafür, dass eine Software auf semantischer Ebene verstehen kann, was auf den Notenblättern steht.

Lukas Tuggener vergleicht das mit Textdokumenten: «Sie können einen Text ausdrucken, fotografieren und das Foto per WhatsApp verschicken. Das kann Ihre Kollegin zwar lesen, aber es ist einfach ein Block aus Pixeln. Sie können Ihrer Kollegin aber auch ein Word-Dokument zustellen, mit dem sie weiterarbeiten kann.»

Automatische Digitalisierung mit Deep Learning

Wie das Manuskript eines Texts abgetippt werden kann, kann mit entsprechenden Programmen auch ein Notenblatt von Hand digitalisiert werden: Indem jede Note, jede Pause, jeder Schlüssel einzeln gesetzt wird. Für eine A4-Seite eines mittelschweren Stücks benötigt eine geübte Musikerin etwa eine halbe Stunde. Das summiert sich: Allein der «Frühling» von Vivaldis «Vier Jahreszeiten» zum Beispiel umfasst knapp 30 Seiten. Das Ziel der Forscher und App-Entwickler ist es darum, diesen Prozess massiv zu beschleunigen, indem weite Teile davon automatisiert werden.

Der Schlüssel dazu ist ein künstliches neuronales Netz, das sich mittels Deep-Learning-Methoden selber beibringt, Notenblätter zu lesen und dessen Objekte zu bestimmen. Doch das ist gar nicht so einfach. «Die gängigen Deep-Learning-Methoden für die Objekterkennung wurden im Prinzip dafür entwickelt, Ihre Ferienfotos zu analysieren. Die zeigen in der Regel ein bis fünf dominante Dinge: Palme, Schiff, Cocktail, Gesicht und Liegestuhl zum Beispiel», erklärt Lukas Tuggener. Der Deep-Learning-Algorithmus legt dazu eine Art Koordinatensystem über das Bild und bestimmt für jeden Quadranten, ob sich darin ein Objekt befindet. «Weil bei Notenblättern aber hunderte von sehr kleinen Objekten auf einer Seite zu finden sind, müsste das Gitter enorm feinmaschig sein, um alle zu finden. Das würde den Rechner an seine Leistungsgrenze bringen und nichts zu Beschleunigung des Digitalisierungsprozesses beitragen.» 

Eine Hand berührt ein Tablett mit Noten für das Klavier.

Völlig neue Art der Objekterkennung

Hier kommen die Höhenlinien von Lukas Tuggeners Skizze wieder ins Spiel. Er erklärt:
 

«Wir nutzen kein Gitter, sondern haben dem neuronalen Netz den Auftrag gegeben, uns in einem ersten Schritt eine ‘Landkarte der Objektheit’ zu zeichnen. Das Notenblatt wird also quasi in ein Relief verwandelt: Je näher man sich am Mittelpunkt eines Objekts befindet, desto höher ist der ‘Berg’.

In einem zweiten Schritt folgt der Cut: Überall wo der ‘Berg’ höher als eine gewisse Grösse x ist, befindet sich ein Objekt», sagt Lukas Tuggener. So wird das Ergebnis binarisiert.

Die Kombination aus Landkarte und vertikalem Schnitt ist eine völlig neue Art der Objekterkennung. Sie nennt sich Deep Watershed Detection und hat den grossen Vorteil, dass es keine Rolle spielt, ob sich auf einer Seite zwei Objekte befinden oder 200. All die detektierten Objekte ordnet das neuronale Netzwerk schliesslich einer Objektklasse zu, die es zuvor gelernt hat – Sechzehntelpause, Viertelnote oder F-Schlüssel zum Beispiel.

Galerie von Lukas Tuggener bei der Arbeit

Lukas Tuggener arbeitet an einem Computer an der Digitalisierung von Notenblättern anhand der Deep Watershed Detection-Methode
Lukas Tuggener arbeitet an einem Computer an der Digitalisierung von Notenblättern anhand der Deep Watershed Detection-Methode

Gute Resultate für häufige Zeichen

Das neuronale Netz trainierten die Forschenden mit zwei Trainingsdatensätzen: einem mit rund 200'000 gedruckten und einem mit 110 handgeschriebenen Notenblättern. Bei den anschliessenden Tests lieferte das neuronale Netz ausgesprochen gute Resultate – insbesondere für diejenigen Elemente aus dem zirka 150 Zeichen umfassenden «Notenalphabet», die sehr häufig vorkommen. 

«Unsere Methode ist mehr als doppelt so genau als andere», sagt Lukas Tuggener.

Hinsichtlich der Detektionsgenauigkeit und Zuordnung gab es zudem kaum Unterschiede zwischen den gedruckten und den handgeschriebenen Noten. «Bislang haben wir unsere Methode aber auch nur auf sehr hochwertige Notenblätter angewendet. In einem nächsten Schritt wollen wir nun versuchen, auch altes Notenmaterial oder solches, das auf schlechten Fotos beruht, zu digitalisieren.» Der Bund anerkennt das Potenzial des Vorhabens: Wie bereits der erste Teil des Forschungsprojekts wird auch dieser zweite Schritt von Innosuisse unterstützt, der Schweizerischen Agentur für Innovationsförderung.

Post-Processing noch sehr umfangreich

Die drastische Beschleunigung der Musiknoten-Digitalisierung ist den Forschenden bisher nur zum Teil gelungen. Das Post-Processing – die Kontrolle und Überarbeitung der Resultate, die das neuronale Netz liefert – ist immer noch sehr aufwendig und muss von Hand durchgeführt werden. «Derzeit sind wir bei 20 Minuten pro A4-Seite», berichtet Florian Seibold von ScorePad. Dank verschiedener Bildschirmansichten können die häufigsten Fehler aber bereits ziemlich schnell ausgemerzt werden.

Um andere Fehler effizienter tilgen zu können, wäre eine Methode hilfreich, an der Forschende in den meisten Bereichen des Deep Learnings interessiert: «Es wäre ideal, wenn wir dem neuronalen Netz irgendwie entlocken könnten, wie sicher es sich bei seinen Entscheidungen ist», sagt Lukas Tuggener. Das ist aber nicht ganz einfach. Denn der Vorteil von künstlichen neuronalen Netzen – dass man ihnen nicht vorgeben muss, wie sie lernen sollen – ist gleichzeitig auch ihr Nachteil: «Sie sind gewissermassen eine Blackbox und wir wissen nicht genau, wie sie auf ihre Resultate kommen.»

Hätte man nun Angaben dazu, wie verlässlich die Zuweisungen sind, würde das die Nachbearbeitung merklich vereinfachen. Lukas Tuggener sagt: «Klar, vier Fehler sind besser als fünf Fehler. Aber von fünf Fehlern ungefähr zu wissen, wo sie auftreten könnten, ist ebenfalls besser als von vier Fehlern keine Ahnung zu haben, wo sie sich befinden.» Denn auf menschliches Post-Processing wird man bei ScorePad auch künftig nie ganz verzichten.

Das Spotify für Profimusiker

«Unser Ziel ist, dass wir in ein-zwei Jahren bei drei Minuten pro A4-Seite ankommen», so Florian Seibold. Für den Aufbau einer grossen Notenblatt-Datenbank, wie sie ScorePad vorschwebt, ist diese Effizienzsteigerung unerlässlich. Florian Seibold: 

«Wir möchten das Spotify für Profimusiker werden: eine Bibliothek mit allen nur denkbaren Musikstücken, wo dank der Maschinenlesbarkeit auch nach einzelne Notensequenzen gesucht werden kann.» 

Derzeit sind auf der App rund 200 Musikstücke verfügbar, etwa 100 Nutzer haben sie sich bislang heruntergeladen.

Florian Seibold ist überzeugt: Damit es mehr werden, brauche es einen tiefgreifenden Kulturwandel in der Musikszene. «Schon nur die Umstellung von Papiernoten auf Noten-PDFs war vor ein paar Jahren kaum denkbar. Nun muss sich der Gedanke etablieren, dass Partituren nicht einfach etwas statisches sind, sondern eine dynamische Arbeitsgrundlage.»


Interessiert haben mich Naturwissenschaften und Technik eigentlich schon immer. Aber weil ich so schlecht rechnen kann, bin ich Historikerin und Journalistin geworden. Mich fasziniert alles, was mit Unterwegssein zu tun hat: neue Mobilitätskonzepte, die Logistik der Zukunft, gesellschaftliche Beschleunigungsprozesse oder ortsunabhängiges Arbeiten. Und lange Zugreisen mit vielen Büchern.
Fotografie ZHAW
Illustration Ryan Sanchez

Lesen Sie auch