AudioVision Technologies

Inspiration

Heutzutage sind etwa 19% der Menschen von Hörstörungen betroffen, das sind nur in Deutschland etwa 15 Millionen Menschen. Derzeit kann dieses Problem nur mit teuren und nicht immer passenden Geräten behoben werden.

Was es macht

Unsere App ermöglicht es Menschen mit besonderen Hörbedingungen, ihre Kommunikationsmöglichkeiten mit einer intelligenten Brille wesentlich zu verbessern. Durch die App der modernen Technologien des maschinellen Lernens können wir Sprache in Text übersetzen und den Sprecher aus Anwendersicht erkennen. Es ist besonders wichtig, dass die meisten Aktionen offline ausgeführt werden, um den Internetverkehr zu reduzieren und die Privatsphäre der Benutzerdaten zu erhöhen.

Wie wir es gebaut haben

Wir verwenden eine vorab trainierte ML-Modell-Gesichts-API, die auf Tensorflow.js basiert, als Hauptwerkzeug zum Erkennen von Gesichtern im Echtzeitvideo. Dieses Modell hilft uns dann auch, einen Sprecher zu finden und den Moment zu identifizieren, in dem die Rede begonnen hat, sodass wir einen AWS-Dienst Transcribe verwenden können, um Sprache in Text zu übersetzen. Wir verwenden Google App Engine lediglich als hoch-scalierbaren Speicher für die App selbst und speichern keine personenbezogenen Daten, die die Servicekosten senken und den Datenschutz der personenbezogenen Daten erhöhen.
Architektur der App

Architektur der App

Herausforderungen, denen wir begegnet sind

Ursprünglich hatten wir eine Idee, die wir als funktionierende App implementieren möchten. Für das aktuelle MVP haben wir entschieden, dass die App die folgenden Kriterien erfüllen soll:

[x] Die App sollte so wenig Serverabhängigkeit wie möglich verwenden
[x] Gesichtserkennung in Echtzeit auf dem lokalen Gerät
[x] Spracherkennung in einer Sprache

Zunächst mussten wir ein geeignetes Werkzeug finden, um die Gesichtserkennung zu verbessern. Glücklicherweise konnten wir eine Face-API-Bibliothek finden, die auf Tensorflow.js basiert und auf einem lokalen Gerät funktioniert. Eine weitere Herausforderung für uns war es, einen geeigneten Spracherkennungsdienst zu finden, der mit Deutsch arbeiten kann. Leider können Spracherkennungsmodelle auf dem Benutzergerät nicht ausgeführt werden, da das Volumen extrem groß ist und die Leistung erheblich beeinträchtigt. Gleichzeitig bietet Amazon einen erstaunlichen Service mit einer angemessenen Genauigkeit, der eine angemessene Menge an Internetverkehr verbraucht. Dieses Problem wird bei der Entwicklung der 5G-Netze vernachlässigt.

Leistungen, auf die wir stolz sind

Wir haben sehr viel Zeit verbracht um in unserem Familienkreis und in soziallen Netzen mit den potenziellen Nutzern zu sprechen und ihre Probleme zu verstehen, sowie mit Hilfe von Mentoren den wirtschaftlichen Aspekt verstehen. Wir könnten eine MVP-App erstellen, die das von uns identifizierte Problem löst und allen vordefinierten Bedingungen entspricht. Diese App kann auf jedem modernen Gerät ausgeführt werden, einschließlich der Mobiltelefone unter Android und iOS. Angesichts der Tatsache, dass die meisten modernen Smart-Brillen auf Android basieren, ist unsere Plattform leicht skalierbar.

Was wir gelernt haben

Wir haben erfahren, dass ein Problem mit Hörschäden heutzutage sehr häufig auftritt und nicht viele Menschen auch aufgrund des Preises mit den Hilfsgeräten versorgt werden konnten. Nach der Implementierung der Demo haben wir verstanden, dass dieses Problem durch die App moderner Technologien behoben und sehr effizient gelöst werden kann.

Wie geht es weiter mit AudioVision Technologies?

Nach der Implementierung unseres MVP sollten wir an dessen Anpassung für die Endbenutzer entsprechend ihren Erwartungen und Erfahrungen mit unserem Produkt arbeiten. Darüber hinaus sollten wir an der mehrsprachigen Unterstützung des Spracherkennungsdienstes arbeiten, der später Mitte 2021 verfügbar sein sollte.

Inspiration

Nowadays, about 19% of people are affected by hearing impairment that is about 15 mln people only in Germany. Currently, this problem could be addressed only with very expensive devices.

What it does

Our application allows people with special hearing conditions to increase their communication opportunities with smart glasses. By application of the modern Machine Learning technologies we are able to translate speech-to-text and recognise the speaker from the user viewpoint. It is especially important that most of the actions are done offline that reduces amount of the internet traffic and increases privacy of the user data.

How we built it

We use a pre-trained ML model Face-API that is based on Tensorflow.js as the main tool to recognise faces in the realtime video. Then, this model also helps us to find a speaker and identify the moment when the speech has started so on we could use an AWS service Transcribe to translate speech into text. We use Google App Engine only as a storage for the application itself and we do not save any personal data that reduces the service costs and increases privacy of the personal data. Architecture of the application

Architecture of the application

Challenges we ran into

Originally, we had an idea that we would like to implement as a working application. For the current MVP we have decided that the application should meet the following criteria:

[x] Application should use as less server dependency as possible
[x] Realtime face identification on the local device
[x] Single language speech recognition

First of all, we had to find an appropriate tool that could work on face recognition. Fortunately, we could find Face-API library that is based on Tensorflow.js and so on it works on a local device. Another challenge for us was to find an appropriate speech recognition service that could work with German. Unfortunately, speech recognition models cannot be run on the user device because of its extremely huge volume that significantly affects on performance. At the same time, Amazon provides an amazing service with an appropriate accuracy that consumes a reasonable amount of internet traffic. This problem is going to be neglected with development of the 5G networks.

Accomplishments that we are proud of

We have spend a lot of time to communication with our family friends who had this problem as well as people in social media to understand what are their biggest problems. Also thank to the mentors we could better understand the economical aspects of the problem. We could build an MVP application that solves the problem that we have identified and that corresponds to all the predefined conditions. This application could be run on any modern device including the mobile phones on Android and iOS. Considering the fact that most of the modern smart glasses are based on Android, our platform is easily scalable.

What we have learned

We have learned that a hearing impairment problem is very emerging these days and not many people could be supplied with the assistant devices also because of its price. After implementation of the demo we understood that this problem could be addressed by application of the modern technologies and it could be done very efficiently.

What's next for AudioVision Technologies

After implementation of our MVP we should work on its adaptation for the end users according to their expectations and experience with our product. Additionally, we should work on multi-language support of the speech-recognition service that should be available later in Mid-2021.