VISIONAIRY® EXPERT TALK with Michael Fischer, Spleenlab GmbH

Today we talk to Michael Fischer, an expert in image processing and self-supervised learning, about his involvement in the development of a breakthrough technology – monocular depth estimation:

1)  What is your academic career like? What did you do before Spleenlab?

My academic career includes a Master’s degree in Engineering Computer Science from TU Ilmenau with specialization in Cognitive Systems and Robotics. Before joining Spleenlab, I worked at Easterngraphics where I was involved in image classification, search engine development, backend and frontend development, and synthetic data generation.

2) How did you come to Spleenlab GmbH? What is your area of responsibility?

The opportunity to work on exciting projects in the field of autonomous mobility while contributing to the development of innovative solutions has been a great incentive for me. In addition, working in a startup also offers the chance to take on responsibility and develop quickly. It’s exciting to be part of a company that has its finger on the pulse and is constantly taking on new challenges. Currently, I am focusing on self-supervised monocular depth estimation. This is a technique where depth is calculated from a monocular camera without the need for external reference data. This is done by training the algorithm on large data sets of video sequences, which allows it to learn to estimate depth from purely visual information. This also allows precise depth detection to be realized in a cost-effective manner.

3) Where do you see concrete applications in the automotive sector based on this technology?

I see concrete applications in the following automotive areas:

  • Calibration of extrinsic camera parameters: This is an important aspect for precise monitoring and control of autonomous vehicles.
  • Scene understanding and collision avoidance: Monookular depth estimation can be used to improve a vehicle’s scene understanding and avoid potential collisions.
  • Navigation support: the technology can be used to improve the navigation of autonomous vehicles and ensure that they move along the best route.
  • Road traffic monitoring: the technology can be used to better monitor road traffic and ensure that autonomous driving vehicles act safely.


The monocular depth estimation we are developing at Spleenlab has the potential to replace expensive lidar systems in certain applications. This is especially the case when a high-precision depth map is not essential or when cost is an important factor. Because monocular depth estimation uses a simple camera, it is more cost-effective than lidar systems, which often require multiple laser sensors. In addition, monocular depth estimation can be used in environments where lidar does not work optimally, such as in high light conditions or fog. Overall, the technology we are developing at Spleenlab offers a wealth of opportunities to improve the automotive sector and make it safer.

4) How advanced is the development of the AI software?

The monocular depth estimation technique we are developing here at Spleenlab has already made significant progress. As of today, we can generate accurate depth images from video sequences using calibrated cameras. Our system is trained on different datasets from millions of images to produce the best possible results.

5) What all will be possible with monocular depth estimation in the future?

With monocular depth estimation technology, we can expect more interesting applications in the future. Here are some examples:

  • Calibration of the cameras at training time: Until now, it has been necessary for the cameras to be calibrated before deployment. In the future, it might be possible that the cameras are already calibrated during the training time, which facilitates the deployment.
  • Algorithm generalizes better over unknown scenes: A variety of training data will allow the algorithm to better generalize over unknown scenes in the future, providing better results
  • Advances in moving object detection to provide even more accurate depth estimates


These are just a few examples of what can be expected in the future with monocular depth estimation. There will certainly be other interesting applications made possible by advances in technology.


German Version:

VISIONAIRY® EXPERT TALK mit Michael Fischer – Spleenlab GmbH

Wir sprechen mit Michael Fischer, einem Experten in den Bereichen Bildverarbeitung und Self Supervised Learning, über seine Mitarbeit an der Entwicklung einer bahnbrechenden Technologie – der monokularen Tiefenschätzung:

1) Wie sieht ihre akademische Laufbahn aus? Was haben sie vor Spleenlab gemacht?

Meine akademische Laufbahn beinhaltet einen Master in Ingenieurinformatik von der TU Ilmenau mit Spezialisierung in Kognitiven Systemen und Robotik. Vor meiner Tätigkeit bei Spleenlab, war ich bei Easterngraphics tätig, wo ich mich mit Bildklassifizierung, Suchmaschinenentwicklung, Backend- und Frontend-Entwicklung sowie Generierung synthetischer Daten beschäftigt habe.

2) Wie sind Sie zur Spleenlab GmbH gekommen? Was ist Ihr Aufgabenbereich?

Die Möglichkeit, an spannenden Projekten im Bereich autonomer Mobilität zu arbeiten und dabei an der Entwicklung innovativer Lösungen mitzuwirken, ist ein großer Anreiz für mich gewesen. Darüber hinaus bietet die Arbeit in einem Startup auch die Chance, Verantwortung zu übernehmen und sich schnell weiterzuentwickeln. Es ist aufregend, Teil eines Unternehmens zu sein, das am Puls der Zeit agiert und ständig neue Herausforderungen annimmt. Aktuell konzentriere ich mich auf die self-supervised monokulare Tiefenschätzung. Dies ist eine Technik, bei der die Tiefe aus einer monokularen Kamera berechnet wird, ohne dass externe Referenzdaten benötigt werden. Dies geschieht durch das Training des Algorithmus auf großen Datensätzen von Videosequenzen, wodurch dieser lernen kann, die Tiefe aus rein optischen Informationen zu schätzen. Dadurch kann eine präzise Tiefenerfassung auch in kostengünstiger Weise realisiert werden.

3) Wo sehen Sie konkrete Anwendungen im Automotive-Bereich auf Grundlage dieser Technologie?

Ich sehe konkrete Anwendungen in folgenden Automotive-Bereichen:

  • Kalibrierung der extrinsischen Kameraparameter: Dies ist ein wichtiger Aspekt für die präzise Überwachung und Steuerung autonomer Fahrzeuge.
  • Szenenverständnis und Kollisionsvermeidung: Die monokulare Tiefenschätzung kann verwendet werden, um das Szenenverständnis eines Fahrzeugs zu verbessern und potenzielle Kollisionen zu vermeiden.
  • Navigationsunterstützung: Die Technologie kann verwendet werden, um die Navigation autonomer Fahrzeuge zu verbessern und sicherzustellen, dass sie sich auf der besten Route bewegen.
  • Überwachung des Straßenverkehrs: Die Technologie kann verwendet werden, um den Straßenverkehr besser zu überwachen und sicherzustellen, dass autonom fahrende Fahrzeuge sicher agieren.


Die monokulare Tiefenschätzung, die wir bei Spleenlab entwickeln, hat das Potenzial, teure Lidar-Systeme in bestimmten Anwendungen zu ersetzen. Dies ist besonders dann der Fall, wenn eine hochpräzise Tiefenkarte nicht unbedingt erforderlich ist oder wenn Kosten ein wichtiger Faktor sind. Da die monokulare Tiefenschätzung mit einer einfachen Kamera arbeitet, ist sie kosteneffektiver als Lidar-Systeme, die oft mehrere Lasersensoren erfordern. Darüber hinaus kann die monokulare Tiefenschätzung auch in Umgebungen eingesetzt werden, in denen Lidar nicht optimal funktioniert, wie zum Beispiel bei starken Lichtverhältnissen oder Nebel. Insgesamt bietet die Technologie, die wir bei Spleenlab entwickeln, eine Fülle von Möglichkeiten, um den Automotive-Bereich zu verbessern und sicherer zu machen.

4) Wie weit fortgeschritten ist die Entwicklung der KI-Software?

Die monokulare Tiefenschätzungstechnik, die wir hier bei Spleenlab entwickeln, hat bereits bedeutende Fortschritte gemacht. Stand heute können wir präzise Tiefenbilder aus Videosequenzen mit kalibrierten Kameras erzeugen. Unser System ist auf verschiedene Datensätze aus Millionen von Bildern trainiert, um die bestmöglichen Ergebnisse zu erzielen.

5) Was wird in Zukunft alles mit der monokularen Tiefenschätzung möglich sein?

Mit der monokularen Tiefenschätzungstechnologie kann man in Zukunft noch weitere interessante Anwendungen erwarten. Hier einige Beispiele:

  • Kalibrierung der Kameras zur Trainingszeit: Bisher ist es notwendig, dass die Kameras vor dem Einsatz kalibriert werden. In Zukunft könnte es möglich sein, dass die Kameras bereits während der Trainingszeit kalibriert werden, was den Einsatz erleichtert.
  • Algorithmus generalisiert besser über unbekannte Szenen: Durch eine Vielfalt an Trainingsdaten kann der Algorithmus in Zukunft besser über unbekannte Szenen generalisieren und dadurch bessere Ergebnisse liefern.
  • Fortschritte bei der Erfassung von beweglichen Objekten, um noch genauere Tiefenschätzungen zu ermöglichen.


Dies sind nur einige Beispiele dafür, was man in Zukunft mit monokularer Tiefenschätzung erwarten kann. Es wird sicherlich weitere interessante Anwendungen geben, die durch den Fortschritt in der Technologie ermöglicht werden.

written by