Seminário
Os professores do Seminário são:
– Pedro Manuel dos Santos Quelhas Taumaturgo de Brito.
– João Carlos de Matos Paiva.
Para o curso seminário, entre outras coisas, devemos apresentar dois artigos científicos atentos aos nossos temas de pesquisa, além de realizar duas entrevistas non estruturadas com pessoas relevantes.
Além disso, este espaço está conectado a todos os demais cursos de forma a integrar as lógicas técnicas, práticas e críticas presentes no projeto.
Em particular, está intimamente relacionado com a iteração prática desenvolvida para o curso Tópicos Avançados, ministrado pelo Dr. Antonio Coelho, onde procuramos desenvolver interações contínuas.
Como ponto de partida e de acordo com as recomendações dos relatores, meu primeiro (e posterior) processo consistiu na busca e classificação da documentação necessária para poder fazer uma primeira iteração do meu projeto.
Step 1: Define Topic
Em uma decomposição básica poderíamos reformular o projeto de uma forma mais específica como.
Step 2: Formulate Research Questions.
Existe alguma relação entre este imaginário visual:
O bem:
Existe uma ontologia própria das linguagens de programação?
Quais são as técnicas mais eficazes para reconhecimento de voz?
É possível atribuir valores de emoção em um registro de áudio digital? Como?
Quais são as possibilidades da Realidade Estendida?
Existe um histórico de prática de reconhecimento de fala em ambientes virtuais?
Quais plataformas de computador são usadas para desenvolver essas tecnologias?
Existem alternativas de código aberto?
Para que a comunidade usa essas plataformas e recursos?
Qual é o pano de fundo dos ambientes virtuais e da criação artística?
É possível criar ambientes virtuais usando reconhecimento de voz?
Podemos programar usando comandos de voz?
Existe uma conexão entre o grau de emoção e a percepção do real?
Que ligação existe entre poesia e código?
A poesia pode criar realidades?
Existe alguma relação entre a poesia latino-americana e as raízes da tradição oral?
Existe uma poesia latino-americana? Existe um código latino-americano?
Qual é a relação entre código, hactivismo e código aberto?
Existe um código descolonial?
Step 3 Identify keywords.
Step 4 Identify and search database.
Do geral ao específico
Em minhas primeiras abordagens, obtive muitas informações relevantes sobre o assunto. Atualmente, existem vários algoritmos que são usados com maior ou menor existência para o reconhecimento automático de voz.
Entre os abundantes conteúdos que encontrei, acho sensato assistir alguns vídeos e procurar alguns guias de pesquisa. Encontrei este resumo publicado pela Microsoft em 2017, de autoria de Preethi Jyothidel do IIT em Bombaim.
Nesse mesmo sentido, encontrei um livro intitulado Automatic Speech Recognition: A Deep Learning Approach, de Li Deng, Dong Yu, que me ajudará a girar os avanços e técnicas no assunto. Outra boa abordagem, também Li Deng para a microsoft, é “An Overview of Modern Speech Recognition”.
Como es sensato, debemos partir por el inicio….
Do ponto de vista técnico, as bases teóricas convencionais nesta área são derivadas do modelo acústico GMM-HMM. Assim, em Modelos de Mistura Gaussiana podemos implementar princípios como máxima similaridade (máxima verossimilhança) e treinar o algoritmo para a maximização do valor esperado (expectativa-maximização). No modelo oculto de Markov, entretanto, a técnica mais proeminente no reconhecimento de voz moderno, encontramos uma resposta para o problema do comprimento variável de um sinal e um complemento potencial com os algoritmos de treinamento forward-backward e de Viterbi. decodificação.
Porém, antes mesmo de executar os modelos acústicos descritos, é prudente processar o sinal para extrair, de forma ótima, suas características.
Nesse sentido, os processos MFCC e Cepstrum Features são interessantes para otimizar o reconhecimento de fala.
https://www.researchgate.net/publication/270337602_Development_of_Intelligent_Virtual_Environment_by_Natural_Language_Processing
https://developer.ibm.com/patterns/create-a-virtual-reality-speech-sandbox/
Step 5: Read and assess information
Neste ponto, como primeira tarefa que tentarei explicar (a mim mesmo), tentarei esboçar idéias e conceitos interessantes à medida que leio os artigos selecionados.
Transformando sons em bits.
Espaço Tempo x Espaço Freqüência
Reconhecendo caracteres de sons curtos.
O algoritmo aproximadamente descrito aqui para lidar com áudio de comprimento variável é chamado de Classificação Temporal Connectionist ou CTC. Você pode ler o artigo original de 2006.
Hidden Markov Model
Mel-frequency cepstral coefficients (MFCC) which have 39 features.
A/D conversion
A/D conversion samples the audio clips and digitizes the content, i.e. converting the analog signal into discrete space. A sampling frequency of 8 or 16 kHz is often used.
Pre-emphasis
Boosting the high-frequency energy makes information in higher formants more available to the acoustic model.This improves phone detection accuracy.
Windowing
Windowing involves the slicing of the audio waveform into sliding frames.
Let’s say w is the window applied to the original audio clip in the time domain.
A few alternatives for w are the Hamming window and the Hanning window.
Discrete Fourier Transform (DFT)
…
…
…
My interviewees will be:
Celeste Betancur.
Felipe Weason Y Sean Moscoso.