Cognitive Services

In dieser Gruppe diskutieren wir die Möglichkeiten von Cognitive Services zur Bildanalyse, Spracherkennung und Erfassung relevanter Informationen.

Microsoft Spracherkennung besser als ein Mensch

Marc-David Militz
Expert
Im Dezember 2015 sagte Microsofts Chief Scientist for Speach, Xuedong Huang, voraus, dass in den nächsten vier bis fünf Jahren die Spracherkennung so gut sein wird wie ein Mensch. Jetzt, weniger als ein Jahr später, hat man dieses Ziel erreicht.

Das Microsoft Spracherkennungssystem kann Telefonate in Schriftform umwandeln und hat dabei eine geringere Fehlerquote als ein Mensch. Laut Xuedong Huang waren vor allem die Fortschritte auf dem Gebiet Artificial Intelligence als auch der akustischen Technologien ausschlaggebend, warum das Ziel so schnell erreicht werden konnte.

Bereits 1990 wurde ein standardisierter Test eingeführt, bei dem Telefonanrufe in Englisch, Spanisch und Mandarin-Chinesisch ausgewertet werden müssen. Dieser Test nennt sich "Switchboard" und stellt sicher, dass alle mit den gleichen Daten arbeiten.

Neben Microsoft nutzen auch IBM, Google diesen Test um den Erfolg ihrer Spracherkennung zu messen. Telefonanrufe eignen sich dafür besonders gut, weil diese aus dem "echten Leben" stammen. Unter Laborbedingungen geben sich Menschen automatisch Mühe deutlich zu sprechen, nicht zu nuscheln oder zu stottern.

Die Fehlerquote von Menschen, in diesem Test liegt bei 5,9%. Noch im September lag Microsofts Spracherkennung mit 6,3% dahinter zurück. Doch nun im Oktober 2016 hat man das System soweit verbessert, dass die Fehlerquote unter die eines Menschen sank. Microsoft hat damit offiziell eine Spracherkennung geschaffen, die besser als ein Mensch arbeitet.

Die Technologie wird natürlich zuerst in den digitalen Assistenten Cortana einfließen aber über die BING Voice Recognition API kann die Technologie, im Rahmen der der Microsoft Cogitive Services, von jedem implementiert und genutzt werden.

Latest member activities

Recommend this community post