批量語音轉文字小工具是一款非常不錯的文字語音轉換工具,軟件主要用來進行MP3文件批量上傳,進行語音轉文字的功能,依托於百度AI軟件的識別率還是非常不錯的。
我們嚴格按照如下步驟來進行操作:
1、KEY的申請
軟件上方的APIKEY和SECRETKEY需要去百度AI網頁的語音識別板塊上申請,完全免費的申請。
如下,打開短語音識別網頁:https://ai.baidu.com/tech/speech/asr,點擊立即使用。
百度賬號登錄,進入如下界麵,按照箭頭先都領取了。
然後創建應用,按照箭頭指示隨便寫即可:
然後查看應用詳情裏,就能看到APIKEY和SECRETKEY了,複製到軟件中即可。
2、選擇識別語種
軟件一共可選:極速版普通話、免費版普通話、免費版英文、免費版粵語、免費版四川話這幾種,其中第一個極速版普通話正確率最高。
3、選擇音頻轉換
點擊按鈕可批量選擇多個mp3音頻,然後自動進行轉換,識別完成後自動保存識別結果到軟件目錄的音頻轉換結果文件夾中
1、批量音頻轉文字
可以批量選擇要轉換的音頻即可自動識別,不限時長,免費,識別速度尚可,需要耐心等待。
(1)例如批量識別小學生課文
(2)例如識別長達五分鍾的《荷塘月色》
2、文字轉語音
這個沒什麼好說的,輸入文字,選擇發音人、語速、音調之類的,可以試聽,可以生產mp3格式的音頻文件
3、截圖OCR
點擊截圖按鈕即可截圖,自動彈出識別文字。
4、圖片批量識別
在截圖OCR下拉按鈕有個圖片批量文字識別功能,這都屬於OCR功能,簡單又粗暴,批量選擇圖片,即可識別所有圖片中的文字。
5、複製翻譯
看英文文獻,有時懶,要是可以有置頂懸浮窗,實時監測剪切板,遇到想要翻譯的段落,直接複製,即可給出多國語言翻譯結果也是剛需;當然有些論文文本無法複製,因此還複用了截圖OCR的功能,對OCR結果進行翻譯
6、圖種製作
沒什麼意思,就是將一張圖和一個壓縮文件合並成一個圖片文件,這個生成的圖片文件打開是一張圖,要是後綴修改為zip,解壓以後就可以看到原先的壓縮文件
1,音頻到文字:當前,市麵上的大部分音頻文字都是收費的。音頻到文本的需要是:上傳一段音頻,直接將其識別為文本,對於會議記錄更好,注意不要實時語音識別。
2,文字到聲音:聲音不應太僵硬。
3,截圖文本識別(OCR):屏幕截圖完成後,屏幕截圖中包含的圖片中的文字將會彈出。
4,批量圖片文字識別:選擇多張圖片,直接識別每張圖片的文字。
5,複製翻譯:看看英文文獻,有時候懶,如果可以有天花板浮動窗口,實時監控剪貼板,遇到你要翻譯的段落,直接複製,可以給多語言翻譯結果隻是需要;當然,有些文章的文字無法複製,因此屏幕截圖的OCR功能也被重用來翻譯OCR結果。
6,圖片製作:這不具有影響力,純粹是個人愛好,沒有技術含量。
去年我用Python編寫過幾款小工具,解決了一些剛需,比如音頻轉文字這種大多數都需要收費的場景。
通過在吾愛破解論壇上的熱度可以看到,這幾款小工具確實挺受歡迎的。
不過,最近很多網友反映軟件的各種bug,諸如音頻轉文字生成空文件夾,我也是最近發現百度AI的申請網頁發生了變化,所以幹脆將原先的這個音頻功能獨立出來,獨立起來好處多,修複了很多bug,所以今天就要說說這款工具了。
這款獨立版的軟件去除了原先的黑框,修複了很多bug