mathstodon.xyz is one of the many independent Mastodon servers you can use to participate in the fediverse.
A Mastodon instance for maths people. We have LaTeX rendering in the web interface!

Server stats:

2.7K
active users

#speech2text

0 posts0 participants0 posts today

#Speech #Note#Notizen und mehr -

Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

linuxnews.de/speech-note-notiz

Speech Note
LinuxNews.de · Speech Note – Notizen und mehr
More from LinuxNews.de

New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

Blog post by Pete Warden: petewarden.com/2024/10/21/intr

GitHub: github.com/usefulsensors/moons
Paper: arxiv.org/abs/2410.15608

Pete Warden's blog · Introducing Moonshine, the new state of the art for speech to textCan you imagine using a keyboard where it took a key press two seconds to show up on screen? That’s the typical latency for most voice interfaces, so it’s no wonder they’ve failed…

I'm extracting speech from audio files in French using Wav2Vec2.
the result is really not great, barely readable
"nerla sene reste trop oulué pour les épreuves notiques des gios "

But adding a LLM layer to correct it works like a charm
"La Seine reste trop polluée pour les épreuves nautiques des JO."

So much time saved. No need to tinker with the models and audio anymore.
#speech2text #data #audio

The implementation of the new @deepgramai „nova-2“ speech recognition model in my self-developed #app "Anruf Fee" has now brought me the hoped for #speech2text improvements for the #German language in this app.

The attached example of an incoming spam call shows how well it works. It saves me having to answer annoying unknown callers, but at the same time ensures that I don't miss anything important by recognizing the caller's topic.
apps.apple.com/de/app/anruf-fe

There is a free #opensource tool called #Whisper, based on OpenAI. It can convert speech to text even in offline mode. it works with many languages and can even translate output to English, generate subtitles and more. It only works on WAV files, but you can convert to WAV with ffmpeg. Make sure to download and use the large model for best results, you will have to compile the program yourself: github.com/ggerganov/whisper.c #AI #speech2text

GitHubGitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++Port of OpenAI's Whisper model in C/C++. Contribute to ggerganov/whisper.cpp development by creating an account on GitHub.
Continued thread

Sur le site de Vosk (alphacephei.com/vosk/models), je vois deux gros modèles, celui de Vosk, et un de #LINTO, et sur le site de LINTO (doc.linto.ai/#/services/linstt) il y a :
- des modèles v1, 4 différents
- des modèles v2 (a priori meilleurs ?), dont 2 "acoustic models" et 2 "decoding graphs".

Lesquels servent à quoi ?

À l'usage, vous en avez trouvé un meilleur ? (et en quoi ?)
Ou c'est pareil ?

Je ne m'y retrouve pas dans tous ces modèles de #Speech2Text 😅

VOSK Offline Speech Recognition APIVOSK ModelsAccurate speech recognition for Android, iOS, Raspberry Pi and servers with Python, Java, C#, Swift and Node.

Question pour les gens qui ont testé la transcription automatique de la parole (#Speech2Text) intégrée à #Kdenlive : quel modèle #Vosk choisir ?

Je compte prendre un des "gros" modèle pour avoir la meilleure fidélité de la retranscription.

Mais pour retranscrire du français, quel modèle est le plus performant ?

Plus de détails ⬇️

@Chocobozzz (et peut-être) @booteille

Hey hey, j'avais une petite question à propos de #peertube. En m'impliquant sur #commonvoice de Mozilla, je me suis demandé si des projets s'en servaient pour du #speech2text (j'ai dû mal cherché et rien trouvé d'utilisable pour un end user...), et donc je me demandais si peertube envisageait d'implémenter ça?

Même avec des trad approximatives, ce serait d'une grande aide pour gagner du temps sur les traductions en général je suppose?