Síntese de voz é o processo de produção artificial de
voz humana. Um sistema informático utilizado para este propósito é denominado
sintetizador de voz, e pode ser implementado em
software ou
hardware. Um sistema
texto-voz (ou
TTS em
inglês) converte texto em linguagem normal para voz; outros sistemas interpretam representação lingüística simbólica (como
transcrição fonética) em voz.
Voz sintetizada pode ser criada concatenando-se pedaços de
fala gravada, armazenada num
banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenadas; um sistema que armazene
fones ou
alofones fornecem a maior faixa de saída, mas podem carecer de clareza. Para usos específicos, o armazenamento de palavras ou frases inteiras possibilita uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal (caminho percorrido pela voz) e outras características da voz humana, para criar como saída uma voz completamente "sintética".
A qualidade de um sintetizador de voz é determinada por sua similaridade com a voz humana e por sua capacidade de ser entendida. Um programa TTS inteligível permite que pessoas com
deficiência visual ou com problemas de leitura possam ouvir obras escritas num
computador pessoal. Muitos
sistemas operacionais têm incluído capacidade de síntese de voz desde o início da
década de 1980.