Kontrol suara untuk PC Windows 7. Kontrol suara komputer di Windows: apakah mungkin. Kontrol suara di Google Chrome

Paling sering, saat bekerja di komputer pribadi, kita harus mengetik teks berukuran besar. Duduk tepat di depan monitor, kita membuang banyak waktu, padahal kita bisa mengerjakan beberapa pekerjaan rumah.

Abad terakhir

Mari kita cari tahu apa itu kontrol suara pada komputer. Mari kita membuat analogi. Sebelumnya, dan bahkan sekarang, cara yang sangat umum untuk “membebaskan tangan Anda” dari komputer saat bekerja adalah dengan mempekerjakan karyawan lain - seorang stenograf atau sekretaris. Namun, hanya sedikit orang yang tahu bahwa Anda dapat menghindari pengeluaran yang tidak perlu dengan menginstal sejumlah program dan utilitas di komputer pribadi Anda yang memungkinkan Anda mengontrol komputer Anda dengan suara dalam bahasa Rusia.

Dengan munculnya produk perangkat lunak seperti Gorynych dan WebSpeach, Anda bisa melupakan berapa lama Anda harus duduk dan mengetik beberapa pekerjaan, misalnya ijazah, pesanan, atau dokumentasi lainnya. Dengan berkembangnya teknologi komputer, pilihan untuk menggunakan program pengenalan suara khusus telah muncul.

Utilitas bawaan

Kontrol suara komputer Windows 8 Anda dilakukan menggunakan utilitas Pengenalan Ucapan Windows bawaan. Sayangnya, saat ini komputer tidak dapat dioperasikan dalam bahasa Rusia. Microsoft rupanya mencoba untuk fokus pada bahasa yang paling umum, namun ada kemungkinan dukungan untuk bahasa Rusia akan segera dirilis.

Jika Anda masih ingin mencoba mengontrol teman besi Anda menggunakan bahasa Inggris, ikuti petunjuk berikut.

Buka panel kontrol di sub-item "Bahasa". Anda perlu mengatur bahasa sistem ke bahasa Inggris. Jika Anda tidak memilikinya, Anda perlu mengunduh paket bahasa yang sesuai.
Setelah mengunduh dan menginstal bahasa, buka layar awal dengan “ubin”.
Ketik Windows Speech Recognition ke dalam pencarian dan tekan Enter. Ini memulai program pengenalan suara.
Saat pertama kali memulainya, Anda akan diminta untuk mengatur mikrofon Anda. Pilih variasi Anda dan ucapkan beberapa patah kata.
Anda kemudian akan ditawari kursus pelatihan 20 menit. Ini diadakan dalam bahasa Inggris, jadi jika Anda tidak mengerti bahasanya, silakan lewati. Antarmuka program ini sangat jelas, sehingga anak-anak pun dapat memahaminya.
Untuk mengaktifkan kontrol suara di komputer Anda, Anda perlu mengucapkan kata kunci "Mulai mendengarkan". Artinya "mulai mendengarkan". Sekarang Anda dapat meluncurkan program yang Anda perlukan dan mulai mendiktekan teks.

Secara umum, kemungkinan utilitas ini tidak ada habisnya. Selain menggunakan perintah dasar, Anda juga bisa membuatnya sendiri.

Perkembangan

Banyak aplikasi telah dibuat untuk pengenalan suara Rusia dan Inggris:

"Diktograf 5";
"Ponsel Abadi";
Suara_PE;
Bercahaya;
Tipe Suara;
Sakramen.

Namun yang paling populer adalah:

"Gorynych";
Pidato Web;
Pembicara Nyata;
Pidatoka.

Mari kita lihat lebih dekat.

"Gorynych"

Seperti namanya, aplikasi ini dibuat oleh tim programmer Rusia dan diberi nama sesuai dengan karakter dongeng Rusia bernama Gorynych. Kontrol suara komputer di dalamnya dilakukan dalam bahasa Rusia, namun ada juga dukungan untuk bahasa Inggris. "Gorynych" memungkinkan Anda mengontrol komputer pribadi dalam mode pengguna, yaitu melakukan semua kemungkinan tindakan yang dapat Anda lakukan dengan mouse dan keyboard: bekerja dengan windows, aplikasi, proses yang berjalan di komputer pribadi. Selain itu, “Gorynych” hanya mengenali ucapan satu pemilik, tetapi tidak selalu.

Namun, ada satu kelemahan yang cukup besar. Faktanya adalah Anda harus memasukkan seluruh basis perintah secara manual. Artinya, sebelum Anda dapat melakukan apa pun di komputer dengan suara Anda, Anda perlu membuat seluruh database dengan perintah yang direkam dalam suara Anda. Bahkan jika Anda melakukan ini, jika Anda tiba-tiba menjadi serak atau timbre suara Anda berubah sedikit pun, "Gorynych" akan sepenuhnya menolak untuk memahami Anda.

Jebakan lainnya adalah jika Anda ingin mendiktekan teks ke komputer, pertama-tama Anda harus membuat kamus besar untuk “Gorynych” dengan kosakata yang baik sehingga dia dapat memahami apa yang Anda diktekan.

Pidatoka

Aplikasi pihak ketiga yang diinstal pada komputer pribadi dapat membantu memastikan hal ini. Salah satunya adalah Pidato. Sama seperti Gorynych, produk Rusia yang dibuat berdasarkan teknologi Google, Spichka memungkinkan pengguna mengontrol komputer dengan suara menggunakan serangkaian perintah tertentu. Speechka mengenali ucapan apa pun dengan cukup baik, dan tidak perlu merekam file audio. Cukup dengan memasukkan sebuah kata pada keyboard dan mengaitkannya dengan suatu tindakan. Sederhananya, ini adalah produk yang layak, tetapi masih dalam pengembangan, karena fitur seperti menutup jendela atau meluncurkan program baru saja ditambahkan.

Mengetik

Setelah memahami apa itu kontrol suara pada komputer, mari kita pertimbangkan masalah pengetikan. Seperti yang telah disebutkan, tidak semua aplikasi mengizinkan hal ini. Dalam kebanyakan kasus, ini memerlukan kompilasi kamus lengkap terlebih dahulu, dan jika Anda adalah pengguna Windows 8, maka masalah dalam mendukung ucapan bahasa Rusia juga muncul. Untuk mengatasi masalah ini, ada layanan panggilan suara yang dibuat oleh Google.

Hanya tersedia untuk browser Chrome, aplikasi Google Web Speech mengenali 32 bahasa terkemuka dunia, termasuk bahasa Rusia. Untuk memasukkan teks dengan suara, Anda memerlukan browser, Internet, dan mikrofon yang sesuai. Perkembangan telah cukup maju sehingga utilitas ini mampu memahami ucapan melek huruf Rusia secara keseluruhan dan menerjemahkannya ke dalam teks cetak.

Program lain untuk mengenali ucapan dan mendiktekannya ke komputer pribadi adalah RealSpeaker. Ia menggunakan teknologi modern untuk mengenali ekspresi wajah. Benar-benar semua webcam cocok untuk digunakan. Satu-satunya ketidaknyamanan yang timbul selama bekerja adalah wajah pembicara harus berhadapan langsung dengan kamera, pada jarak tidak lebih dari 40 sentimeter. Program ini memiliki kamus bahasa Rusia, yang dapat diperluas pengguna jika diinginkan. Secara umum, program ini jauh lebih nyaman daripada Gorynych.

Intinya

Jika Anda berpikir untuk mengendalikan komputer dengan suara Anda, percayalah, ini belum berlaku untuk Rusia. Program pengenalan yang memadai saat ini hanya ada dalam bahasa Inggris, dan pengetikan suara otomatis akan mengandung begitu banyak kesalahan sehingga akan lebih mudah untuk menulis teks dari awal daripada memperbaiki semua kesalahan ketik. Tentu saja, Anda dapat mencoba belajar bahasa Inggris dan mengoperasikan komputer di dalamnya, tetapi Anda memerlukan diksi dan pengucapan yang sempurna.

Untuk penyandang disabilitas, dan juga bagi kaum sybarite, pengembang OS telah menciptakan kontrol suara pada komputer. Hal ini memungkinkan pengguna untuk memasukkan informasi menggunakan suara mereka. Setelah mengucapkan kata-kata tertentu, perangkat memulai pengenalan suara - mengubah sinyal audio menjadi informasi digital. Setelah informasi yang dimasukkan dikenali dengan benar, program melanjutkan ke algoritma tindakan yang ditentukan - melakukan fungsi yang melekat pada perintah tertentu.

Semuanya cukup sederhana. Ucapan tidak selalu dikenali dengan benar, sehingga program kontrol suara komputer tidak digunakan secara intensif untuk memecahkan masalah kompleks dalam manajemen sistem operasi. Ini digunakan untuk melakukan fungsi dasar: membuka dan menutup file, pencarian lokal dan jaringan, dll.

Sejarah perkembangan kontrol suara

Sistem pengenalan suara pertama, Audrey, diciptakan pada tahun 50-an abad kedua puluh. Dia hanya menguraikan angka-angka yang diucapkan dalam satu suara.
Pada tahun 1962, sistem pengenalan kata pertama diciptakan. Dia menguraikan 15 kata bahasa Inggris.
Dengan berkembangnya komputer pada tahun 1990, dikembangkanlah program Dragon Dictate. Ia mengenali hingga 100 kata per menit, tapi mahal.
Pada awal tahun 2000-an, aplikasi pengenalan suara Google Voice Search muncul di iPhone. Pada tahun 2010, sistem pencarian ditambahkan ke Android.
Siri disertakan dalam perangkat lunak Phone 4S pada awal Oktober 2011;
Cortana, asisten suara untuk Windows, diperkenalkan pada tahun 2014.

Kemampuan Cortana dan input suara saat ini

Cortana adalah asisten virtual di sistem operasi Windows. Layanan ini membantu pengguna dalam merencanakan tugas dan mengingatkan mereka tentang tugas tersebut.
Untuk permintaan spesifik, layanan akan membantu mengumpulkan informasi spesifik, membuat struktur yang jelas, dan menyajikannya kepada pengguna dalam bentuk yang paling diproses.
Menariknya, saat dihidupkan, asisten virtual mengumpulkan semua informasi tentang permintaan yang dimasukkan dan data pribadi, mencoba beradaptasi sebanyak mungkin untuk setiap pengguna.

Kontrol suara komputer Windows 7 melalui penggunaan asisten virtual tidak dimungkinkan - ini hanya terintegrasi ke dalam versi kesepuluh. Namun sayangnya, pihak pengembang tidak mau repot-repot merilis versi bahasa Rusia.
Peran utama dimainkan oleh pencarian, yang dalam 10 dapat dibuka melalui "Start". Fungsi ini mendeteksi hampir semua permintaan. Jika entri tidak dikenali, Anda dapat memasukkan perintah yang sesuai ke jendela pop-up dan program kontrol suara komputer akan membaca informasi teks.

Hal yang tidak menyenangkan adalah ia mengumpulkan semua data yang dimasukkan melalui keyboard dan mengirimkannya ke Microsoft.

Program pihak ketiga

Jenis

Setelah instalasi selesai, lanjutkan ke langkah berikutnya - buat akun. Di sini Anda perlu membuat frase kunci, setelah itu pemberitahuan aktivasi akan berbunyi.

Selanjutnya Anda perlu membuat dan membuat perintah suara, apa pun tujuannya. Perintah "anjing" dapat meluncurkan aplikasi atau melakukan tindakan yang sangat berbeda.

Anda hanya perlu membuat perintah suara dan menetapkannya untuk tindakan tertentu. Hanya cocok untuk melakukan operasi dasar - membuka file, folder, dll. Fungsinya terbatas.

Pembicara

Fungsionalitas di sini lebih luas daripada di Type.

Kontrol suara pada komputer Windows 10 memberi pengguna kemampuan untuk membuka dan menutup file, mengambil tangkapan layar, dan mematikan PC.

Pengenalan ucapan membutuhkan waktu yang cukup lama, yaitu 3-4 detik. Hal ini disebabkan oleh fakta bahwa ucapan pertama kali diubah menjadi teks, dan perintah dikenali oleh komputer dari informasi teks.

Laitis

Ini adalah program gratis yang memungkinkan Anda mengontrol PC dan mendiktekan teks. Setelah instalasi, Anda perlu mendaftar dan kemudian Anda dapat menggunakannya sesuka Anda.

Fungsi koreksi otomatis saat mengetik memang menarik. Anda dapat mengucapkan "Kutipan" dan simbol terkait akan muncul di teks.

Kemampuan kontrol suara melalui Yandex.string

Dengan menggunakan aplikasi ini, Anda dapat melakukan pencarian informasi dan file lokal atau jaringan, memulai ulang atau mematikan komputer Anda. Ada fungsi untuk membuka program dan situs.
Untuk menggunakan program ini, Anda harus mengunduh dan menginstalnya terlebih dahulu.

Namun selama instalasi, Anda harus menghapus centang pada kotak di sebelah item yang disarankan oleh produsen perangkat lunak untuk menginstal browser dan mengubah pengaturannya. Jika tidak, penginstalan akan memakan waktu lebih lama dan konfigurasi di browser akan berubah.
Pada akhirnya, garis ditempatkan di dekat tombol Start. Ucapkan "Dengarkan Yandex" dan sebuah jendela akan terbuka.

Ucapkan permintaan itu.

Setelah jeda, bilah pencarian akan terbuka di browser. Sangat menyenangkan mengelola pencarian Anda dengan cara ini.
Secara umum, kendali suara pada komputer belum berkembang karena hanya dalam imajinasi kita. Namun fungsi-fungsi yang tersedia saat ini sudah mengesankan dan sangat membantu untuk beralih ke tingkat penggunaan PC yang baru.

Semoga harimu menyenangkan!

Sistem operasi Windows 7 yang baru menggunakan inovasi penting - antarmuka suara. Fungsi ini akan tersedia di versi lain produk perangkat lunak Microsoft, khususnya, di versi suite kantor Microsoft Office 2010 yang akan datang. Pengenalan ucapan akan memungkinkan penggunaan jenis antarmuka baru dalam produk perangkat lunak - suara, yang dengannya Anda dapat mengontrol komputer Anda tanpa keyboard dan mouse.

“Voice adalah jenis antarmuka baru untuk sistem operasi. Jenis antarmuka ini merupakan evolusi alami dari kontrol komputer modern di luar keyboard dan layar sentuh, kata Zig Serafin, pemimpin grup pengenalan suara di Microsoft. — Kontrol suara akan segera menjadi cara yang umum untuk memerintah komputer seperti halnya keyboard dan mouse hingga saat ini. Sebuah konsep yang pertama kali diutarakan oleh Bill Gates lebih dari 10 tahun yang lalu kini telah menjadi kenyataan.”

Fitur pengenalan suara di Windows 7 merupakan kelanjutan dari antarmuka yang muncul di Windows Vista, hanya saja ditingkatkan dan lebih fungsional.

Dengan menggunakan pengenalan suara di Windows, pengguna dapat dengan mudah meluncurkan aplikasi, menjalankan perintah, dan mengubah audio menjadi teks. Anda dapat mengucapkan perintah agar komputer menjalankan dan mendiktekan teks ke komputer. Selain itu, pengembang perangkat lunak dapat menggunakan kemampuan pengenalan suara ini dalam aplikasi mereka.

Sebelum Anda mulai bekerja dengan program pengenalan suara Windows, Anda perlu menghubungkan mikrofon ke komputer Anda dan melatih program pengenalan, membuat profil suara - contoh bagaimana seseorang mengucapkan perintah yang berbeda. Berdasarkan profil, yaitu templat frasa standar, komputer akan melakukan pengenalan.

Menggunakan dikte teks ke komputer, Anda dapat mengonfigurasi transformasi informasi yang diterima di jendela editor teks WordPad. Dengan cara yang sama, Anda dapat mengisi formulir interaktif saat menjelajahi web menggunakan Internet Explorer dan mengedit teks di komputer Anda. Windows 7 OCR memungkinkan Anda mengoreksi teks yang diucapkan sebelumnya menggunakan perintah suara normal “Perbaiki Ini.” Selama proses pengenalan, program dapat membuat kesalahan umum, salah mengenali kata yang sama. Mereka dapat ditambahkan ke daftar pertandingan khusus.

Pengenalan ucapan juga akan hadir di Exchange Server 2010 Beta, dengan fitur Pratinjau pesan suara baru yang memungkinkan Anda mengelola dan mencari pesan yang diterima, serta mendiktekan suara dan mengirim pesan ke alamat tertentu.

Sayangnya, pengenalan suara saat ini tersedia dalam bahasa Inggris, Prancis, Spanyol, Jerman, Jepang, dan China, namun tidak tersedia dalam bahasa Rusia dan Ukraina.

Mereka mengujinya di Ukraina, dan salah satu operator sedang mempersiapkannya.

Seorang pria mendekati saya dengan permintaan untuk menulis sebuah program yang memungkinkan dia mengendalikan mouse komputer menggunakan suaranya. Kemudian saya bahkan tidak dapat membayangkan bahwa orang yang hampir lumpuh total, bahkan tidak dapat menoleh, tetapi hanya dapat berbicara, mampu mengembangkan aktivitas yang giat, membantu dirinya sendiri dan orang lain untuk menjalani kehidupan yang aktif, memperoleh pengetahuan dan keterampilan baru, bekerja dan mendapatkan penghasilan. uang. , berkomunikasi dengan orang lain di seluruh dunia, berpartisipasi dalam kompetisi proyek sosial.

Izinkan saya memberikan di sini beberapa tautan ke situs, penulis dan/atau inspirator ideologisnya adalah orang ini - Alexander Makarchuk dari kota Borisov, Belarus:

Untuk bekerja di komputer, Alexander menggunakan program “Vocal Joystick”, yang dikembangkan oleh mahasiswa Universitas Washington, yang didanai oleh National Science Foundation (NSF). Lihat melodi.ee.washington.edu/vj

Tidak bisa menolak

Omong-omong, di situs universitas (http://www.washington.edu/) 90% artikelnya tentang uang. Sulit untuk menemukan apa pun tentang karya ilmiah. Berikut ini, misalnya, kutipan dari halaman pertama: “Tom, seorang lulusan universitas, terbiasa makan jamur dan mengalami kesulitan membayar sewa. Sekarang dia adalah manajer senior di sebuah perusahaan IT dan meminjamkan uang ke universitas,” “Big Data membantu para tuna wisma,” “Perusahaan telah berkomitmen untuk membayar $5 juta untuk gedung akademik baru.”

Apa hanya aku saja yang menganggap ini menjengkelkan?

Program ini dibuat pada tahun 2005-2009 dan bekerja dengan baik pada Windows XP. Di versi Windows yang lebih baru, program mungkin macet, hal ini tidak dapat diterima oleh seseorang yang tidak dapat bangkit dari kursinya dan memulai ulang. Oleh karena itu, program tersebut harus diulang.

Tidak ada teks sumber, hanya ada publikasi individual yang mengungkapkan teknologi yang menjadi dasarnya (MFCC, MLP - baca tentang ini di bagian kedua).

Sebuah program baru ditulis dengan gambar yang sama (dalam tiga bulan).

Sebenarnya, Anda bisa melihat cara kerjanya:

Anda dapat mengunduh program dan/atau melihat kode sumbernya.

Anda tidak perlu melakukan tindakan khusus apa pun untuk menginstal program, cukup klik dan jalankan. Satu-satunya hal adalah bahwa dalam beberapa kasus diperlukan untuk meluncurkannya sebagai administrator (misalnya, ketika bekerja dengan keyboard virtual "Comfort Keys Pro"):

Mungkin ada baiknya menyebutkan di sini hal-hal lain yang telah saya lakukan sebelumnya untuk memungkinkan pengoperasian komputer secara handsfree.

Jika Anda memiliki kemampuan untuk memutar kepala, giroskop yang dipasang di kepala mungkin merupakan alternatif yang baik untuk eViacam. Anda akan mendapatkan posisi kursor yang cepat dan akurat serta tidak bergantung pada pencahayaan.

Jika Anda hanya bisa menggerakkan pupil mata, Anda dapat menggunakan pelacak arah pandangan dan program untuk itu (ini mungkin sulit jika Anda memakai kacamata).

Bagian II. Bagaimana cara kerjanya?

Dari materi yang dipublikasikan tentang program Vocal Joystick diketahui cara kerjanya sebagai berikut:

Memotong aliran audio menjadi bingkai 25 milidetik dengan tumpang tindih 10 milidetik
Menerima 13 koefisien cepstral (MFCC) untuk setiap frame
Memverifikasi bahwa salah satu dari 6 bunyi yang dihafal (4 vokal dan 2 konsonan) diucapkan menggunakan multilayer perceptron (MLP)
Menerjemahkan suara yang ditemukan menjadi gerakan/klik mouse

Tugas pertama penting hanya karena untuk menyelesaikannya secara real time, tiga thread tambahan harus dimasukkan ke dalam program, karena membaca data dari mikrofon, memproses suara, dan memutar suara melalui kartu suara terjadi secara asinkron.

Tugas terakhir diselesaikan dengan menggunakan fungsi SendInput.

Bagi saya, masalah kedua dan ketiga adalah yang paling menarik. Jadi.

Tugas No.2. Memperoleh 13 koefisien cepstral

Jika ada yang belum mengetahuinya, masalah utama pengenalan suara oleh komputer adalah sebagai berikut: sulitnya membandingkan dua suara, karena dua gelombang suara yang berbeda garis besarnya dapat terdengar serupa dari sudut pandang persepsi manusia.

Dan di antara mereka yang terlibat dalam pengenalan suara, ada pencarian untuk “batu filsuf” – serangkaian fitur yang secara jelas dapat mengklasifikasikan gelombang suara.

Dari fitur-fitur yang tersedia untuk masyarakat umum dan dijelaskan dalam buku teks, yang paling banyak digunakan adalah apa yang disebut Koefisien Cepstral Frekuensi Mel (MFCC).

Sejarah mereka sedemikian rupa sehingga awalnya dimaksudkan untuk sesuatu yang sama sekali berbeda, yaitu untuk menekan gema sinyal (artikel pendidikan tentang topik ini ditulis oleh Oppenheim dan Schafer yang dihormati, semoga ada kegembiraan di rumah para bangsawan ini. Lihat A. V. Oppenheim dan R. W. Schafer, “ Dari Frekuensi ke Quefrency: Sejarah Cepstrum".

Namun manusia dirancang sedemikian rupa sehingga ia cenderung menggunakan apa yang paling ia ketahui. Dan mereka yang mengerjakan sinyal suara mendapat ide untuk menggunakan representasi sinyal kompak yang sudah jadi dalam bentuk MFCC. Ternyata secara umum berhasil. (Salah satu teman saya, seorang spesialis sistem ventilasi, ketika saya bertanya kepadanya bagaimana cara membuat rumah musim panas, menyarankan untuk menggunakan saluran ventilasi. Hanya karena dia mengenalnya lebih baik daripada bahan bangunan lainnya).

Apakah MFCC merupakan pengklasifikasi suara yang bagus? Saya tidak akan mengatakan demikian. Suara yang sama yang saya ucapkan ke mikrofon yang berbeda jatuh ke wilayah ruang koefisien MFCC yang berbeda, dan pengklasifikasi yang ideal akan menggambarnya secara berdampingan. Oleh karena itu, khususnya, saat mengganti mikrofon, Anda harus melatih ulang programnya.

Ini hanyalah salah satu proyeksi ruang MFCC 13 dimensi ke dalam ruang 3 dimensi, tetapi Anda dapat melihat maksud saya - titik merah, ungu, dan biru diperoleh dari mikrofon yang berbeda: (Plantronix, mikrofon array internal, Jabra), namun bunyinya diucapkan sendiri.

Namun, karena saya tidak dapat menawarkan yang lebih baik, saya juga akan menggunakan metode standar - menghitung koefisien MFCC.

Agar tidak salah dalam implementasinya, pada program versi pertama digunakan kode dari program terkenal CMU Sphinx sebagai dasar, lebih tepatnya implementasinya dalam bahasa C yang disebut pocketsphinx yang dikembangkan di Carnegie Mellon University. (damai sejahtera bagi mereka berdua! (c) Hottabych ).

Kode sumber pocketsphinx terbuka, tetapi masalahnya adalah jika Anda menggunakannya, Anda harus menulis teks dalam program Anda (baik dalam kode sumber maupun dalam modul yang dapat dieksekusi) yang berisi, antara lain, berikut ini:

* Pekerjaan ini didukung sebagian oleh pendanaan dari Defense Advanced * Research Projects Agency dan National Science Foundation * Amerika Serikat, dan CMU Sphinx Speech Consortium.
Bagi saya ini tampaknya tidak dapat diterima, dan saya harus menulis ulang kodenya. Hal ini mempengaruhi kinerja program (menjadi lebih baik, meskipun “keterbacaan” kodenya agak menurun). Sebagian besar berkat penggunaan perpustakaan “Intel Performance Primitives”, tetapi saya sendiri juga mengoptimalkan beberapa hal, seperti filter MEL. Namun, pengujian pada data pengujian menunjukkan bahwa koefisien MFCC yang diperoleh benar-benar mirip dengan yang diperoleh dengan menggunakan, misalnya, utilitas sphinx_fe.

Dalam program sphinxbase, penghitungan koefisien MFCC dilakukan dengan langkah-langkah berikut:

Melangkah	fungsi sphinxbase	Inti dari operasi
1	fe_pre_penekanan	Sebagian besar pembacaan sebelumnya dikurangi dari pembacaan saat ini (misalnya, 0,97 dari nilainya). Filter primitif yang menolak frekuensi rendah.
2	fe_hamming_window	Jendela Hamming – memperkenalkan redaman di awal dan akhir frame
3	fe_fft_nyata	Transformasi Fourier Cepat
4	fe_spec2magnitudo	Dari spektrum biasa kita memperoleh spektrum daya dengan kehilangan fase
5	fe_mel_spec	Kami mengelompokkan frekuensi spektrum [misalnya, 256 buah] menjadi 40 tumpukan, menggunakan skala MEL dan koefisien pembobotan
6	fe_mel_cep	Kami mengambil logaritma dan menerapkan transformasi DCT2 ke 40 nilai dari langkah sebelumnya. Kami meninggalkan 13 nilai pertama dari hasilnya. Ada beberapa varian DCT2 (HTK, legacy, classic), berbeda dalam konstanta yang digunakan untuk membagi koefisien yang dihasilkan dan konstanta khusus untuk koefisien nol. Anda dapat memilih opsi apa pun, itu tidak akan mengubah esensinya.

Langkah-langkah ini juga mencakup fungsi yang memungkinkan Anda memisahkan sinyal dari kebisingan dan keheningan, seperti fe_track_snr, fe_vad_hangover, tetapi kami tidak membutuhkannya, dan kami tidak akan terganggu olehnya.

Substitusi berikut dilakukan untuk langkah-langkah mendapatkan koefisien MFCC:

Tugas No.3. Memeriksa apakah salah satu dari 6 suara yang dihafal sedang diucapkan

Program Vocal Joystick asli menggunakan multilayer perceptron (MLP) untuk klasifikasi - jaringan saraf tanpa fitur baru.

Mari kita lihat betapa dibenarkannya penggunaan jaringan saraf di sini.

Mari kita ingat apa yang dilakukan neuron dalam jaringan saraf tiruan.

Jika suatu neuron memiliki N masukan, maka neuron tersebut membagi ruang berdimensi N menjadi dua. Menebas backhand dengan hyperplane. Selain itu, di separuh ruang berfungsi (memberikan jawaban positif), tetapi di separuh ruang lainnya tidak berfungsi.

Mari kita lihat opsi yang [secara praktis] paling sederhana - sebuah neuron dengan dua input. Secara alami ia akan membagi ruang dua dimensi menjadi dua.

Misalkan inputnya adalah nilai X1 dan X2, yang dikalikan neuron dengan koefisien bobot W1 dan W2, dan dijumlahkan suku bebas C.

Secara total, pada keluaran neuron (sebut saja sebagai Y) kita mendapatkan:

Y=X1*W1+X2*W2+C

(mari kita lewati seluk-beluk fungsi sigmoid untuk saat ini)

Kami menganggap bahwa neuron aktif ketika Y>0. Garis lurus yang diberikan oleh persamaan 0=X1*W1+X2*W2+C secara tepat membagi ruang menjadi bagian yang Y>0, dan bagian yang Y<0.

Mari kita ilustrasikan apa yang telah dikatakan dengan angka-angka tertentu.

Misalkan W1=1, W2=1, C=-5;

Sekarang mari kita lihat bagaimana kita dapat mengatur jaringan saraf yang akan bekerja di area ruang tertentu, secara relatif, di suatu tempat, dan tidak berfungsi di semua tempat lainnya.

Terlihat dari gambar bahwa untuk menguraikan suatu luas dalam ruang dua dimensi, diperlukan paling sedikit 3 garis lurus, yaitu 3 buah neuron yang terhubung pada garis tersebut.

Kami akan menggabungkan ketiga neuron ini menggunakan lapisan lain, mendapatkan jaringan saraf multilayer (MLP).

Dan jika kita membutuhkan jaringan saraf untuk bekerja di dua area ruang, maka kita memerlukan setidaknya tiga neuron lagi (4,5,6 pada gambar):

Dan di sini Anda tidak dapat melakukannya tanpa lapisan ketiga:

Dan lapisan ketiga hampir merupakan Pembelajaran Mendalam...

Sekarang mari kita beralih ke contoh lain untuk mendapatkan bantuan. Biarkan jaringan saraf kita menghasilkan respons positif pada titik merah, dan respons negatif pada titik biru.

Jika saya diminta untuk memotong warna merah dari biru dalam garis lurus, saya akan melakukannya seperti ini:

Tetapi jaringan saraf secara apriori tidak mengetahui berapa banyak neuron langsung (neuron) yang dibutuhkannya. Parameter ini harus disetel sebelum melatih jaringan. Dan seseorang melakukan ini berdasarkan... intuisi atau coba-coba.

Jika kita memilih terlalu sedikit neuron di lapisan pertama (tiga, misalnya), kita bisa mendapatkan potongan seperti ini, yang akan menghasilkan banyak kesalahan (area yang salah diberi bayangan):

Namun meskipun jumlah neuron mencukupi, sebagai hasil dari pelatihan, jaringan mungkin “gagal menyatu”, yaitu mencapai keadaan stabil yang jauh dari optimal, ketika persentase kesalahannya tinggi. Seperti di sini, palang atas bertumpu pada dua punuk dan tidak akan menjauh darinya. Dan di bawahnya ada area luas yang menghasilkan kesalahan:

Sekali lagi, kemungkinan terjadinya kasus seperti itu bergantung pada kondisi awal pelatihan dan urutan pelatihan, yaitu pada faktor acak:

- Bagaimana menurut Anda, apakah roda itu, jika itu terjadi, akan mencapai Moskow atau tidak?
- Menurut Anda apakah jaringan saraf akan berfungsi atau tidak?

Ada momen tidak menyenangkan lainnya yang terkait dengan jaringan saraf. "Kelupaan" mereka.

Jika Anda mulai memberi makan jaringan hanya pada titik-titik biru, dan berhenti memberi makan pada titik-titik merah, maka jaringan dapat dengan mudah mengambil bagian dari area merah, memindahkan batasnya ke sana:

Jika jaringan saraf memiliki begitu banyak kekurangan, dan seseorang dapat menarik batasan jauh lebih efisien daripada jaringan saraf, lalu mengapa menggunakannya?

Dan ada satu detail kecil namun sangat penting.

Saya dapat dengan baik memisahkan hati merah dari latar belakang biru dengan segmen garis lurus dalam ruang dua dimensi.

Saya dapat dengan baik memisahkan patung Venus dari ruang tiga dimensi yang mengelilinginya dengan bidang-bidang.

Tapi di ruang empat dimensi saya tidak bisa berbuat apa-apa, maaf. Dan di dimensi ke-13 - terlebih lagi.

Namun bagi jaringan saraf, dimensi ruang bukanlah suatu kendala. Aku menertawakannya di ruang berdimensi kecil, tapi begitu aku melampaui batas biasanya, dia dengan mudah menghajarku.

Namun demikian, pertanyaannya masih terbuka: seberapa dibenarkan penggunaan jaringan saraf dalam tugas khusus ini, dengan mempertimbangkan kelemahan jaringan saraf yang tercantum di atas.

Mari kita lupakan sejenak bahwa koefisien MFCC kita berada dalam ruang 13 dimensi, dan bayangkan koefisien tersebut adalah dua dimensi, yaitu titik-titik pada bidang. Bagaimana seseorang dapat memisahkan satu suara dari suara lainnya dalam kasus ini?

Misalkan titik-titik MFCC bunyi 1 mempunyai simpangan baku R1, yang [secara kasar] berarti bahwa titik-titik yang tidak menyimpang terlalu jauh dari mean, titik-titik yang paling berkarakteristik, berada di dalam lingkaran dengan jari-jari R1. Dengan cara yang sama, titik-titik yang kita percayai pada bunyi 2 terletak di dalam lingkaran dengan jari-jari R2.

Perhatian, pertanyaan: di mana menggambar garis lurus yang paling baik memisahkan bunyi 1 dari bunyi 2?

Jawabannya muncul sendiri: di tengah-tengah antara batas lingkaran. Ada keberatan? Tidak ada keberatan.
Koreksi: Dalam programnya, batas ini membagi ruas yang menghubungkan pusat-pusat lingkaran dengan perbandingan R1:R2, mana yang lebih tepat.

Dan terakhir, jangan lupa bahwa di suatu tempat di luar angkasa terdapat titik yang mewakili keheningan total di ruang MFCC. Tidak, ini bukan 13 angka nol, seperti yang terlihat. Ini adalah salah satu titik yang tidak boleh memiliki standar deviasi. Dan garis lurus yang kita potong dari ketiga suara kita dapat ditarik langsung di sepanjang batas lingkaran:

Pada gambar di bawah, setiap suara sesuai dengan bagian ruang dengan warnanya sendiri, dan kita selalu dapat mengatakan suara mana yang dimiliki (atau bukan milik titik mana pun):

Baiklah, sekarang mari kita ingat bahwa ruang itu 13 dimensi, dan apa yang tadinya bagus untuk digambar di atas kertas kini ternyata menjadi sesuatu yang tidak sesuai dengan otak manusia.

Ya, tapi tidak begitu. Untungnya, dalam ruang dimensi apa pun masih ada konsep seperti titik, garis lurus, bidang [hiper], bola [hiper].

Kami mengulangi semua tindakan yang sama dalam ruang 13 dimensi: kami menemukan dispersi, menentukan jari-jari bola [hiper], menghubungkan pusat-pusatnya dengan garis lurus, memotongnya dengan bidang [hiper] pada titik yang sama jauhnya dari titik batas-batas bidang [hiper].

Tidak ada jaringan saraf yang dapat memisahkan satu suara dari suara lainnya dengan lebih tepat.

Namun di sini, reservasi harus dilakukan. Semua ini benar jika informasi tentang suara adalah awan titik-titik yang menyimpang dari rata-rata secara merata ke segala arah, yaitu, informasi tersebut cocok dengan hipersfer. Jika awan ini adalah sosok yang bentuknya rumit, misalnya sosis melengkung 13 dimensi, maka semua alasan di atas salah. Dan mungkin, dengan pelatihan yang tepat, jaringan saraf dapat menunjukkan kekuatannya di sini.

Tapi saya tidak akan mengambil risiko. Dan saya akan menggunakan, misalnya, kumpulan distribusi normal (GMM), (yang, omong-omong, dilakukan di CMU Sphinx). Akan lebih menyenangkan jika Anda memahami algoritme spesifik mana yang memberikan hasil. Tidak seperti di jaringan saraf: Oracle, berdasarkan berjam-jam mengolah data pelatihan, memberitahu Anda untuk memutuskan bahwa suara yang diminta adalah suara #3. (Ini terutama mengganggu saya ketika mereka mencoba mempercayakan kendali mobil ke jaringan saraf. Lalu bagaimana, dalam situasi yang tidak biasa, seseorang dapat memahami mengapa mobil berbelok ke kiri dan tidak ke kanan? Apakah Neuron Yang Mahakuasa memerintahkan?).

Namun kumpulan distribusi normal adalah topik besar tersendiri yang berada di luar cakupan artikel ini.

Semoga artikelnya bermanfaat dan/atau membuat otak Anda berderit.

Pengguna komputer mana yang tidak ingin mengontrolnya secara handsfree, yakni tanpa menyentuh keyboard dan mouse, melainkan hanya menggunakan suaranya? Dan bagi penyandang disabilitas, fungsi ini tidak tergantikan. Versi Windows 7 asli (bukan Russified) memiliki fungsi ini, tetapi dirancang hanya untuk pidato bahasa Inggris. Namun, bahkan dalam versi Russified Windows 7, kemampuan untuk mengontrol suara komputer yang menjalankan Windows 7 dapat diperkenalkan. Ada beberapa program pihak ketiga untuk ini.

Ini adalah salah satu utilitas paling umum untuk kontrol suara di komputer Windows 7. Ini dapat diunduh dari Internet. Ini memiliki dua versi - gratis dan berbayar (premium). Di bawah ini kita akan berbicara tentang versi gratisnya.

Setelah meluncurkan program, ini akan menampilkan jendela utamanya:

Di dalamnya Anda perlu menentukan nama pengguna dan isi teks perintah. Kemudian Anda harus menekan tombol merah (rekam) dan mengucapkan perintah yang diinginkan ke mikrofon, misalnya, “buka zip tujuh”. Kemudian klik tombol “tambah”. Tindakan ini membuat gambar suara dari perintah kontrol di utilitas.

Langkah selanjutnya adalah menghubungkan gambar suara yang ditentukan ke program atau file tertentu di komputer. Untuk melakukan ini, klik tombol di jendela utama

Dan centang kotak yang kita butuhkan:

Daftar program komputer yang diinstal akan muncul, dan Anda harus memilih 7-Zip File Manager. Kemudian Anda perlu mengklik “rekam” dan “Tambah”.

Setelah ini, perintah yang dibuat akan ditambahkan ke profil pengguna di jendela utama:

Sekarang yang tersisa hanyalah memeriksa implementasinya. Untuk melakukan ini, Anda perlu mengklik "Mulai berbicara" di jendela utama dan ucapkan frasa yang disukai "Buka zip tujuh, setelah itu utilitas 7-zip akan terbuka.

Sayangnya, Type tidak dapat dikatakan mengenali ucapan bahasa Rusia dengan benar di semua kasus, tetapi ini merupakan kelemahan sebagian besar program pengenalan suara.

Program Speechka untuk kontrol suara komputer dengan Windows 7

Speechka adalah program sederhana dan nyaman yang mengenali bahasa Rusia. Utilitas ini memungkinkan Anda membuka program, file, folder, dan halaman Internet dengan suara, dan mencari di Internet. Program ini gratis dan mudah diunduh dan dipasang.

Seperti inilah tampilan jendela utamanya:

Tergantung pada niatnya, pengguna harus mengklik salah satu tombol di jendela utama. Setelah mengklik salah satunya, sebuah jendela muncul di sebelah kanan jendela utama untuk mengatur parameter perintah suara. Misalnya, ketika Anda mengklik “Internet”, jendela seperti ini akan terbuka:

Itu sudah menunjukkan pengaturan yang diperlukan untuk meluncurkan halaman Yandex dengan ramalan cuaca. Setelah mengklik tombol “Tambah”, Anda harus menyuarakan perintah ini. Hal ini dilakukan, seperti yang ditunjukkan pada halaman utama, dengan menekan "Ctrl" dan "Menang" secara bersamaan, setelah itu Anda perlu mengucapkan kata atau frasa ke mikrofon, misalnya "cuaca", dan melepaskan tombol. Dalam pengaturan program, dimungkinkan untuk mengaktifkan perekaman suara menggunakan kombinasi “Ctrl” + “Win”, atau cukup dengan level suara.

Omong-omong, Anda dapat memeriksa pengoperasian utilitas ini dengan mikrofon dan menyesuaikan volumenya segera setelah memulai program dengan mengucapkan beberapa kata ke mikrofon. Jika indikator level tidak merespons, berarti ada masalah dengan sambungan mikrofon atau volume tidak mencukupi.

OTOMATIS