Microsoft arbeitet mit Hochdruck daran, eine natürliche Kommunikation mit Computersystemen zu ermöglichen. Dazu hat Microsoft jetzt aktuell 22 APIs bereitgestellt, die Entwicklern die Möglichkeit bieten, Anwendungen das Sehen, Hören, Sprechen, Verstehen und Interpretieren menschlicher Bedürfnisse beizubringen. Technisch gesehen handelt es sich bei den APIs um REST-Services.
Microsoft teilt die APIs in folgende Gruppen ein:
- Sehen (Vision),
- Hören (Speech),
- Sprache (Language),
- Wissen (Knowledge)
- Suche (Search)
Wer die verschiedenen Speech-APIs auszuprobieren will, empfehle ich folgende Seiten:
- Spracherkennung https://www.microsoft.com/cognitive-services/en-us/speech-api
- Text in Sprache https://www.microsoft.com/cognitive-services/en-us/speech-api
- Custom Recognition Intelligent Service (CRIS)https://www.microsoft.com/cognitive-services/en-us/custom-recognition-intelligent-service-cris
- Sprechererkennung https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
Wer nicht nur ausprobieren will, sondern tiefer einstiegen will, empfehle ich folgende Seite
https://blogs.windows.com/buildingapps/2016/06/02/using-speech-in-your-uwp-apps-look-whos-talking/
Viel Spaß dabei.
Ich freue mich auf Euer Feedback.