Enregistrement vocal intelligent: Demande d'idées

https://stackoverflow.com/questions/1724679

19-09-2019
|

Question

Disons que vous avez une salle de conférence et des réunions ont lieu à des moments improvisés arbitraires. Vous souhaitez conserver un enregistrement audio de toutes les réunions. Afin de le rendre aussi facile à utiliser que possible, aucune mesure ne serait requise de la part de rencontrer pratiquants, ils savent juste que quand ils ont une réunion dans une salle spécifique, ils auront un dossier de celui-ci.

Il est évident que tout enregistrement non-stop serait inefficace, car il serait un gaspillage de stockage de données et une douleur à éplucher.

Je figure il y a deux façons de s'y prendre.

L'enregistrement démarre simplement et arrête en fonction de son niveau de seuils.
L'enregistrement est continu, mais divisé en blocs X minute. Les blocs trouvés pour contenir aucun contenu sont mis au rebut.

J'aime la deuxième meilleure façon parce que je pense qu'il ya moins de risque de perte de données en raison de l'ouverture tardive, ou déclenche à défaut.

Je voudrais mettre en œuvre en Python et sous Windows, si possible.

suggestions de mise en œuvre?

considérations de bonus qui méritent probablement leurs propres questions:

meilleur format de compression audio et à cette fin
aucune façon de déterminer le nombre de haut-parleurs sont présents, en supposant l'identification est irréaliste

La solution

Ceci est l'un de ces projets où le chemin va être défini plus sur ce qui est à portée de main pour être réutilisé prêt.

Vous trouverez probablement plus facile d'enregistrer en continu et enregistrer les données hors de morceaux (par exemple, heure de longues pièces).

Format va dépendre de ce que vous sous la forme d'outils d'enregistrement et de la bibliothèque de traitement audio. Vous pouvez même trouver que vous utilisez deux. Un format, comme PCM WAV codé pour l'enregistrement et le traitement, mais MP3 compressé pour le stockage.

Une fois que vous avez un flux audio, vous aurez besoin d'y accéder sous une forme PCM (liste de valeurs d'amplitude). Une approche simple de la moyenne sera probablement assez bon pour détecter quand il y a une conversation. Attributs de réglage typique: * Niveau d'énergie moyen pour déclencher * Montant de temps vous devez être au niveau d'énergie ou ci-dessous pour identifier et arrêter commencer (je recommande deux valeurs différentes) * Taille de la fenêtre d'analyse pour établir la moyenne

En ce qui concerne le nombre de participants, à moins de trouver une bibliothèque qui fait cela, je ne vois pas une solution facile. Je l'ai utilisé les moteurs de reconnaissance vocale avant et également fait une quantité raisonnable de traitement audio et je ne l'ai pas vu de façon « facile » de le faire. Si vous deviez regarder, rechercher les universités qui font des recherches d'analyse de la parole. Vous trouverez peut-être quelques prototypes que vous pouvez modifier pour donner à votre logiciel quelques indices.

Autres conseils

Je pense que vous aurez des difficultés à le faire entièrement en Python. Vous parlez de faire fréquence / analyse d'amplitude des fichiers MP3. Vous devrez ouvrir le fichier et la recherche d'un seuil de volume, puis coupez-les portions qui vont au-dessous de ce seuil. Déterminer le nombre de haut-parleurs sont présents nécessiteraient un traitement de signal très avancé.

Une recherche Google rapide n'a rien donné pour moi. Vous pourriez avoir plus de chance à la recherche d'une solution impromptu.

En tant aside- il peut y avoir des complications juridiques d'avoir un enregistreur en cours d'exécution 24/7 sans laisser les gens savent.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow