Metody i narzędzia rozpoznawania mowy w zastosowaniach niekomercyjnych

Jarogniew Rykowski

Abstract

In this paper a problem is discussed of effective development of an automatic voice-recognition system for noncommercial use. The text shows how, at a relatively cheap cost, both from the point of view of the programmer (the cost of preparing the program), as well as the end-user (the cost of learning how to use the system), to obtain effective voice communication with the computer. The goal of the paper is threefold. First, it is shown that automatic voice recognition for amateur usage is at the moment quite easy to achieve – it is enough to utilize standard microphone/speaker of any computer. Second, there are at least two noncommercial software solutions based on popular Java programming language: Sphinx library and Google Voice Translator to be accessed via JARVIS library. In addition, Google offers a possibility of voice synthesis based on any text, in almost any national language. Third, the system easily recognizes voice commands of any speaker, regardless pronunciation, intonation, accent, etc., and the overall effectiveness is sufficient for most amateur applications.
Author Jarogniew Rykowski (WIiGE / KTI)
Jarogniew Rykowski,,
- Department of Information Technology
Other language title versionsMethods and tools for automatic voice recognition for noncommercial use
Journal seriesNapędy i sterowanie, ISSN 1507-7764, (B 5 pkt)
Issue year2014
No6
Pages116-123
Publication size in sheets0.5
Keywords in Polishrozpoznawanie mowy, Internet Rzeczy
Keywords in Englishverbal communication, speech recognition system
Abstract in PolishW artykule przedyskutowano problem zaprojektowania systemu rozpoznawania mowy. W tekście pokazano, jak stosunkowo tanim kosztem, zarówno z punktu widzenia programisty (koszty przygotowania programu), jak i końcowego użytkownika (koszty nauki korzystania z systemu), uzyskać efektywną możliwość komunikacji głosowej z komputerem. Artykuł pokazuje, po pierwsze, że rozpoznawanie mowy na potrzeby amatorskie i półprofesjonalne jest obecnie jak najbardziej możliwe i wymaga minimalnych nakładów na sprzęt audio (w zasadzie wystarczy mikrofon i głośnik wbudowany praktycznie w każdy komputer). Po drugie, dla języka programowania Java są dostępne co najmniej dwa rozwiązania niekomercyjne, za które nie trzeba bezpośrednio płacić: biblioteka Sphinx oraz usługa Google Voice Translator dostępna za pomocą biblioteki Jarvis. Google oferuje ponadto możliwość syntezy (i odtworzenia w głośniku komputera) dowolnego komunikatu głosowego na podstawie przesłanego tekstu. Po trzecie, rozpoznanie mowy jest dostępne dla dowolnego mówcy (systemu nie trzeba uczyć wymowy, intonacji, akcentu, definiować słownika itp.) i przebiega z bardzo dużą skutecznością, która w zupełności wystarcza w większości zastosowań amatorskich.
Languagepl polski
Score (nominal)5
Score sourcejournalList
ScoreMinisterial score = 4.0, 12-12-2019, ArticleFromJournal
Ministerial score (2013-2016) = 5.0, 12-12-2019, ArticleFromJournal
Citation count*4 (2020-09-07)
Cite
Share Share

Get link to the record


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back
Confirmation
Are you sure?