1. PENGERTIAN SPEECH RECOGNITION
Speech
Recognition adalah proses identifikasi suara berdasarkan kata yang
diucapkan dengan melakukan konversi sebuah sinyal akustik, yang
ditangkap oleh audio device (perangkat input suara).
Speech Recognition juga merupakan sistem yang digunakan untuk mengenali
perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
Keuntungan
dari sistem ini adalah pada kecepatan dan kemudahan dalam
penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai
hasil akhir, untuk sebuah aplikasi seperti command & control,
penginputan data, dan persiapan dokumen. Parameter yang dibandingkan
ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan
template database yang tersedia. Sedangkan sistem pengenalan suara
berdasarkan orang yang berbicara dinamakan speaker recognition. Pada
makalah ini hanya akan dibahas mengenai speech recognition karena
kompleksitas algoritma yang diimplementasikan lebih sederhana daripada
speaker recognition. Algoritma yang akan diimplementasikan pada bahasan
mengenai proses speech recognition ini adalah algoritma FFT (Fast
Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan
sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini
mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya.
Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis
waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa
upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan
dengan cara melakukan pencocokan pola digital suara.
2. SEJARAH SPEECH RECOGNITION
Biometrik,
termasuk di dalamnya speech recognition, secara umum digunakan untuk
identifikasi dan verifikasi. Identifikasi ialah mengenali identitas
subyek, dilakukan perbandingan kecocokan antara data biometric subyek
dalam database berisi record karakter subyek. Sedangkan verifikasi
adalah menentukan apakah subyek sesuai dengan apa yang dikatakan
terhadap dirinya.
Biometrik
merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu
atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric
Recognition atau biasa disebut dengan Sistem pengenalan biometric
mengacu pada identifikasi secara otomatis terhadap manusia berdasarkan
psikological atau karakteristik tingkah laku manusia. Ada beberapa jenis
teknologi biometric antara lain suara (speech recognition).
Metode
Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun
1960, metode yang berupa model statistik dari rantai Markov ini semakin
banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech
recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam
laporannya yang berjudul “A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition”
Proses
dalam dunia nyata secara umum menghasilkan observable output yang dapat
dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit
(karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan
musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah
terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap
waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat
dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam
sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara
garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu :
model deterministik dan model statistikal. Model deterministik
menggunakan nilai-nilai properti dari sebuah signal seperti : amplitudo,
frekuensi, fase dari gelombang sinus. Sedangkan model statistikal
menggunakan nilai-nilai statistik dari sebuah signal seperti: proses
Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
· N,
yaitu jumlah state dalam model. Secara umum state saling terhubung satu
dengan yang lain, dan suatu state bisa mencapai semua state yang lain
dan sebaliknya (disebut model ergodic). Namun hal tersebut tidak mutlak,
terdapat kondisi lain dimana suatu state hanya bisa berputar ke diri
sendiri dan berpindah ke satu state berikutnya, hal ini bergantung pada
implementasi dari model.
· M,
yaitu jumlah observation symbol secara unik pada tiap statenya,
misalnya: karakter dalam alfabet, dimana state adalah huruf dalam kata.
· State Transition Probability { } -> ij A a
· Observation Symbol Probability pada state j, { } () -> j Bb k
· Initial State Distribution -> i p p
Dengan
memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai
generator untuk menghasilkan urutan observasi. dimana tiap observasi t o
adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam
suatu sequence.
3. SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam sistem pengenalan suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
· Validasi identitas pengguna.
Secara
umum, speech recognizer memproses sinyal suara yang masuk dan
menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut
kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa
dengan membandingkannya dengan template suara pada database sistem.
Gambar 2. Spektrum Suara
Sebelumnya,
data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan
urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan
secara paralel. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah
berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
· Transformasi gelombang diskrit menjadi array data.
· Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika
mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang
diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan
agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan.
Namun, efek buruknya ialah array of array data yang terbentuk akan lebih
banyak.
Gambar 3. Contoh Hasit Konversi Sinyal Diskrit
Dari
tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan
biner. Data biner tersebut yang nantinya akan dibandingkan dengan
template data suara.
Proses divide and conquer:
Proses divide and conquer:
· Pilih
sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan
ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
· Bagi
dua data diskrit secara (dengan menerapkan algoritma divide and
conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
· Objek data dimasukkan ke dalam table (sebagai elemen tabel).
· Untuk
setiap eiemen data, dicocokkan dengan data pada template (pada data
template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit,
dengan cara yang sama dengan proses digitaiisasi data masukan bam yang
ingin dicocokkan).
· Setiap
upa masalah disatukan kembali dan dianalisis secara keseluruhan,
kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai
dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
4. IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam implementasi Speech Recognition :
· Sound
card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang
fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal
elektrik, menjadi analog maupun menjadi digital.
· Microphone
: Perangkat input suara yang berfungsi untuk mengubah suara yang
melewati udara, air dari benda orang menjadi sinyal elektrik.
· Komputer
atau Komputer Server : Dalam proses suara digital menterjemahkan
gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner
yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan
database yang berisi berkas suara agar dapat dikenali.
Contoh Implementasi teknologi Speech Recognition :
Saat
ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech
recognition telah disertakan dalam system operasinya . sebagaimana
fungsi dari speech recognition menterjemahkan pengucapan kata – kata
kedalam bentuk teks digital. Salah
satu implementasi speech recognition adalah pada konfrensi PBB dimana
seluruh Negara tergabung dalam keanggotaan nya , fungsi speech
recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu
Negara kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain
speech recognition adalah Perawatan kesehatan.
Dalam
perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi
pengenalan suara, transcriptionists medis (MTs) belum menjadi usang.
Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan
pembicaraan dapat diimplementasikan di front-end atau back-end dari
proses dokumentasi medis. Front-End SR adalah salah satu alat untuk
mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat setelah
mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia
menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan
melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan
bersama dengan file suara yang asli ke MT / editor, yang mengedit draft
dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam
industri saat ini.
Banyak
aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif
dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan
pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua
bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan
menggunakan keyboard.
SUMBER :
http://nda-kamal.blogspot.com/2011/11/speech-recognition.html
Tidak ada komentar:
Posting Komentar