noise suppression for voice Descargar - noise suppression for voice Descarga de código fuente

noise suppression for voice

Otro código fuente

v1.10 (VST2, VST3, LV2, LADSPA, AU, AUv3)

Descargar

Complemento de supresión de ruido en tiempo real

VST2, VST3, LV2, LADSPA, AU, AUv3

Un complemento de supresión de ruido en tiempo real para voz basado en RNNoise de Xiph. Más información sobre la biblioteca base.

El complemento está destinado a suprimir una amplia gama de orígenes de ruido (del documento original): ventiladores de computadora, oficina, multitud, avión, automóvil, tren, construcción.

En mis pruebas, siempre se suprime el ruido de fondo leve, los sonidos fuertes, como el clic de un teclado mecánico, se suprimen mientras no hay voz, sin embargo, solo se reduce el volumen cuando hay voz presente.

Tenga en cuenta que este complemento no puede mejorar la calidad de la voz con un micrófono defectuoso, incluso podría empeorar las cosas al clasificar erróneamente la voz como un ruido que reduciría la ya no tan buena calidad de voz.

El complemento funciona con uno o más canales, entrada de audio de 16 bits y 48000 Hz.

❗ ❗ ❗ NO utilice ninguna otra frecuencia de muestreo, utilice SÓLO 48000 Hz, asegúrese de que su fuente de audio sea de 48000 Hz y fuercela a que sea de 48000 Hz si no es así.

Hay una GUI minimalista con todos los parámetros y estadísticas de diagnóstico:

Lanzamientos

Últimos lanzamientos

Cómo hacerlo

Configuración del complemento

VAD Threshold (%) : si la probabilidad de que el sonido sea una voz es inferior a este umbral, se silenciará. En la mayoría de los casos, el umbral entre 85% y 95% estaría bien. Sin el VAD, es posible que algunos ruidos fuertes aún sean un poco audibles cuando no hay voz.
VAD Grace Period (ms) : durante cuánto tiempo después de la última detección de voz no se silenciará la salida. Esto ayuda cuando se cortan los finales de palabras/oraciones.
Retroactive VAD Grace Period (ms) : similar al VAD Grace Period (ms) pero para inicios de palabras/oraciones. ️ ¡Esto introduce latencia!

Windows + Ecualizador APO (VST2)

Para verificar o cambiar la configuración del micrófono, vaya a "Dispositivos de grabación" -> "Grabación" -> "Propiedades" del micrófono de destino -> "Avanzado".

Para habilitar el complemento en Equalizer APO, seleccione "Complementos" -> "Complemento VST" y especifique la DLL del complemento.

Consulte la guía detallada proporcionada por @bssankaran.

v1.0: Ahora hay una GUI, por lo que resultó fácil cambiar los parámetros.

linux

TuberíaAlambre

Desde la versión 0.3.45 PipeWire utiliza la configuración de archivos divididos, lo que hace que sea extremadamente fácil configurar complementos y modificar la configuración.

Para una versión anterior de PipeWire, tendría que copiar /usr/share/pipewire/pipewire.conf en ~/.config/pipewire/pipewire.conf y luego agregar la siguiente configuración a context.modules ya existente.

Para PipeWire >= 0.3.45 deberías:

Crear directorio de configuración: ~/.config/pipewire/pipewire.conf.d/
Crear configuración para el complemento: ~/.config/pipewire/pipewire.conf.d/99-input-denoising.conf
Pegar configuración:

 context.modules = [
{   name = libpipewire-module-filter-chain
    args = {
        node.description =  "Noise Canceling source"
        media.name =  "Noise Canceling source"
        filter.graph = {
            nodes = [
                {
                    type = ladspa
                    name = rnnoise
                    plugin = /path/to/librnnoise_ladspa.so
                    label = noise_suppressor_mono
                    control = {
                        "VAD Threshold (%)" = 50.0
                        "VAD Grace Period (ms)" = 200
                        "Retroactive VAD Grace (ms)" = 0
                    }
                }
            ]
        }
        capture.props = {
            node.name =  "capture.rnnoise_source"
            node.passive = true
            audio.rate = 48000
        }
        playback.props = {
            node.name =  "rnnoise_source"
            media.class = Audio/Source
            audio.rate = 48000
        }
    }
}
]

Cambie /path/to/librnnoise_ladspa.so a la ruta real de la biblioteca
Si está absolutamente seguro de que necesita salida estéreo, cambie noise_suppressor_mono -> noise_suppressor_stereo . Incluso si su micrófono dice que es estéreo, probablemente no necesite salida estéreo. También consumiría el doble de recursos.
Configure los parámetros del complemento: VAD Threshold (%) , ...
Reinicie PipeWire: systemctl restart --user pipewire.service
Ahora debería poder seleccionar Noise Canceling source como dispositivo de entrada

Para obtener más información, consulte la documentación de PipeWire sobre cadenas de filtros.

Solución de problemas:

TODO, cómo cambiar la frecuencia de muestreo del micrófono.

Soluciones alternativas para la configuración de PipeWire/PulseAudio que también utilizan RNNoise:

EasyEffects: una solución general para GUI de efectos de audio para PipeWire. Fácil de configurar y usar. Menos configuraciones para eliminar ruido. Disponible en Flathub.
NoiseTorch: fácil de configurar, funciona con PulseAudio y Pipewire. Menos configuraciones para eliminar ruido.

PulsoAudio

TLDR: use PipeWire... o siga las instrucciones a continuación.

Instrucciones (haz clic en mí)

La idea es:

Cree un receptor del que las aplicaciones tomarán audio más tarde y que será el receptor final de la cadena.
Cargue el complemento que genera un receptor ya creado (parámetro sink_master ) y tiene un receptor de entrada (parámetro sink_name , se creará el receptor).
Cree un bucle invertido desde el micrófono ( source ) al receptor de entrada del complemento ( sink ) con 1 canal.

Por ejemplo, para crear un nuevo dispositivo mono con audio con reducción de ruido desde su micrófono, primero busque el nombre de su micrófono usando, por ejemplo:

pactl list sources short

Luego, crea el nuevo dispositivo usando:

pacmd load-module module-null-sink sink_name=mic_denoised_out rate=48000
pacmd load-module module-ladspa-sink sink_name=mic_raw_in sink_master=mic_denoised_out label=noise_suppressor_mono plugin=/path/to/librnnoise_ladspa.so control=50,20,0,0,0
pacmd load-module module-loopback source= < your_mic_name > sink=mic_raw_in channels=1 source_dont_move=true sink_dont_move=true

Esto debe ejecutarse cada vez que se inicia PulseAudio. Puedes automatizar esto creando un archivo en ~/.config/pulse/default.pa con el contenido:

 .include /etc/pulse/default.pa

load-module module-null-sink sink_name=mic_denoised_out rate=48000
load-module module-ladspa-sink sink_name=mic_raw_in sink_master=mic_denoised_out label=noise_suppressor_mono plugin=/path/to/librnnoise_ladspa.so control=50,200,0,0,0
load-module module-loopback source=your_mic_name sink=mic_raw_in channels=1 source_dont_move=true sink_dont_move=true

set-default-source mic_denoised_out.monitor

El orden de las configuraciones en control=50,200,0,0,0 es: VAD Threshold (%) , VAD Grace Period (ms) , Retroactive VAD Grace Period (ms) , Placeholder1 , Placeholder2 .

Si está absolutamente seguro de que desea una entrada estéreo, utilice estas opciones:

label=noise_suppressor_stereo
channels=2

Si tiene problemas con el audio entrecortado o una latencia alta o que aumenta periódicamente, agregar latency_msec=1 al loopback podría ser útil:

 load-module module-loopback source=your_mic_name sink=mic_raw_in channels=1 source_dont_move=true sink_dont_move=true latency_msec=1

️ Chrome y otros navegadores basados en Chromium ignorarán los dispositivos de monitoreo y no podrá seleccionar el "Monitor de salida nula". Para solucionar este problema, utilice pavucontrol para asignar la entrada a Chrome o reasigne este dispositivo en PulseAudio para crear una fuente normal:

pacmd load-module module-remap-source source_name=denoised master=mic_denoised_out.monitor channels=1

Es posible que aún necesite configurar la entrada correcta para la aplicación; esto se puede hacer en el panel del mezclador de audio (si tiene uno) en la pestaña "Grabación", donde debe configurar el "Monitor de salida nula" como fuente.

Lectura adicional:

Información útil y detallada sobre la lógica de PulseAudio en adjaune/pulseaudio-config.
El hilo que me ayudó a postprocesar la salida del micrófono y ponerla a disposición de las aplicaciones.

Mac OS

TODO, ¡las contribuciones son bienvenidas!

Estado

El complemento se prueba con:

Ecualizador APO v1.2 x64 (ecualizador de código abierto para todo el sistema para Windows)
PipeWire en Arch Linux
Carla (en Linux)
Audacia (en Linux)

No estoy asociado con el trabajo original de RNNoise y NO tengo ningún conocimiento de las redes neuronales recurrentes en las que se basa.

Contribuyendo

Las dependencias externas se venden a través de git-subrepo. De modo que no es necesario utilizar submódulos y parchear los subrepos es fácil (por el momento tenemos varios parches para JUCE).

¡Las mejoras son bienvenidas! Sin embargo, si desea contribuir con algo importante, primero abra una edición.

Compilando

Compilando para x64:

cmake -Bbuild-x64 -H. -GNinja -DCMAKE_BUILD_TYPE=Release
ninja -C build-x64

Compilando para x32:

cmake -D CMAKE_CXX_FLAGS=-m32 -D CMAKE_C_FLAGS=-m32 -Bbuild-x32 -H. -GNinja -DCMAKE_BUILD_TYPE=Release
ninja -C build-x32

Compilación cruzada para Windows x64 (las compilaciones de MinGW están fallando en este momento debido a ciertas incompatibilidades en JUCE):

cmake -Bbuild-mingw64 -H. -GNinja -DCMAKE_TOOLCHAIN_FILE=toolchains/toolchain-mingw64.cmake -DCMAKE_BUILD_TYPE=Release
ninja -C build-mingw64

Compilando solo complementos seleccionados

De forma predeterminada, se están creando todos los complementos compatibles con una plataforma. Puede desactivar deliberadamente los complementos con las siguientes opciones de CMake:

BUILD_LADSPA_PLUGIN
BUILD_VST_PLUGIN
BUILD_VST3_PLUGIN
BUILD_LV2_PLUGIN
BUILD_AU_PLUGIN (solo macOS)
BUILD_AUV3_PLUGIN (solo macOS)

Por ejemplo:

cmake -DBUILD_VST_PLUGIN=OFF -DBUILD_LV2_PLUGIN=OFF

Licencia

Este proyecto tiene la licencia pública general GNU v3.0; consulte el archivo de LICENCIA para obtener más detalles.

Bibliotecas utilizadas:

JUCE se utiliza bajo licencia GPLv3
FST-GPLv3
captura 2 - BSL-1.0

Expandir

Información adicional

Versión v1.10 (VST2, VST3, LV2, LADSPA, AU, AUv3)
Tipo Otro código fuente
Fecha de actualización 2025-01-01
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
joder por

2024-06-19
Interfaz SMS ilimitada de GOOGLE VOICE

2009-11-07
iTunes para Windows

2009-06-03
Ajax para tontos

2009-05-23

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo