Apa itu Speech Synthesis?
Speech
synthesis adalah sebuah kemampuan bicara manusia yang dibuat oleh
manusia (artificial). Sebuah sistem komputer digunakan untuk tujuan ini
yang disebut sebagai speech synthesizer, dan dapat diimplementasikan ke
dalam software atau hardware. Sebagai contoh sebuah sistem
text-to-speech (TTS) yang dapat mengkonversikan teks dengan bahasa biasa
menjadi suara.
Synthesized
speech dapat diciptakan dengan menggabungkan beberapa potongan-potongan
dari pembicaraan/pidato yang sudah direkam dalam sebuah basis data.
Kualitas dari sebuah speech synthesizer dilihat dari kemiripannya dengan
suara manusia dan kemampuannya untuk bisa dipahami. Program TTS yang
jelas dapat membantu orang dengan gangguan visual atau ketidakmampuan
membaca, untuk mendengarkan pada pekerjaan yang tertulis dalam komputer.
Banyak Sistem Operasi komputer yang telah dimasukkan speech synthesizer
sejak tahun 1980-an.
Teknologi Speech Synthesis
Yang
paling penting dalam kualitas sistem speech synthesis adalah kealamian
dan kejelasannya. Kealamaian menjelaskan bagaimana dekatnya suara output
dengan suara manusia, sementara kejelasan adalah dengan kemudahan di
mana output tersebut dapat dipahami. Speech synthesizer yang ideal
adalah yang alami dan jelas. Sistem speech synthesis biasanya mencoba
untuk memaksimalkan kedua karakteristik.
Dua
teknologi utama dalam pembuatan gelombang suara synthetic speech adalah
Concatenative Synthesis dan Formant Synthesis. Setiap teknologi
mempunyai kekuatan dan kelemahannya, dan penggunaan yang ditujukan dari
sistem synthesis akan menentukkan pendekatan mana yang digunakana.
Concatenative Synthesis
Concantenative
synthesis didasarkan dengan penggabungan dari segmen-segmen dari
pembicaraan yang sudah direkam. Secara umum, concatenative synthesis
memproduksi synthesized speech dengan suara yang paling alami. Tetapi,
perbedaan antara variasi alami dalam pembicaraaan dan sifat dari teknik
otomasi untuk pensegmentasian gelombang suara terkadang menghasilkan
kesalahan suara dalam output.
Formant Synthesis
Formant
synthesis tidak menggunakan pembicaraan manusia sebagai sample pada
runtime. Daripada itu, synthesized speech yang dihasilkan dibuat dengan
additive synthesis dan sebuah model akustik (physical modelling
synthesis). Parameter seperti frekuensi dasar, penyuaraan, dan tingkat
kebisingan di variasikan dari waktu ke waktu untuk menciptakan gelombang
buatan (artificial) dari sebuah pembicaraan. Banyak sistem yang
berdasarkan formant synthesis menciptakan pembicaraan yang seperti robot
yang tidak mungkin dapat dikenal sebagai suara manusia. Tetapi,
kealamian maksimum bukan selalu tujuan dari sebuah sistem speech
synthesis, dan sistem formant synthesis mempunyai keuntungan dari sistem
concatenative. Pembicaraan yang di-formant synthesis-kan dapat menjadi
sangat jelas, bahkan dalam kecepatan yang tinggi, sehingga menghindari
kesalahan suara yang sering dialami sistem concatenative. Formant
synthesis biasanya program yang lebih kecil dari concatenative sistem
karena ia tidak menggunakan basis data dari sampel-sampel pembicaraan.
Oleh karena itu formant synthesis dapat ditanamkan dalam sistem yang
mempunyai memory dan microprosesor yang terbatas. Karena sistem yang
berdasarkan formant mempunyai kendali penuh dari sluruh aspek dari hasil
pembicaraan, variasi yang luas dari prosodi dan intonasi dapat
dihasilkan, menyampaikan tidak hanya pertanyaan dan pernyataan tetapi
juga emosi dan nada suara.
sumber:
http://ranggaadhityap.blogspot.com/2011/11/speech-synthesis.html
Tidak ada komentar:
Posting Komentar