Полтора года назад Mozilla порадовала сообщество по распознаванию речи и машинному обучению, выложив в открытый доступ крупнейший в мире набор данных Common Voice. Он включал в себя почти 1400 часов разговорной речи в маленьких фрагментах, на 18-ти языках, от более 42 тыс. пользователей. Каждый фрагмент речи сопровождался текстовой транскрипцией, то есть это готовый набор размеченных данных для машинного обучения.
Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки.
DeepSpeech is an open-source speech recognition engine developed by Mozilla. It's pretty fast and ranks high, which makes its source code an interesting target for static analysis. In this article, I'll show you some of the bugs found in DeepSpeech's C++ code.
Introduction
We have already scanned a few projects based on machine learning before, so there was nothing new about DeepSpeech to us in this respect. No wonder since the project is quite popular: as of this writing, it has 15k stars on GitHub.
DeepSpeech – это открытый и свободно распространяемый движок распознавания речи, разрабатываемый компанией Mozilla. Движок имеет довольно высокую производительность и хорошие отзывы пользователей, и это делает код проекта интересной мишенью для проверки. Данная статья посвящена разбору ошибок, найденных в C++-коде проекта DeepSpeech.