欢迎光临
我们一直在努力

微软文本转语音 python 命令行工具

本帖最后由 天空宫阙 于 2022-3-19 10:52 编辑

文本转语音的简单demo

另外制作了 tampermonkey 脚本 见 https://www.52pojie.cn/thread-1606432-1-1.html

仓库地址 https://github.com/skygongque/tts/tree/main/python_cli_demo

使用代码可以不用录音直接MP3文件

做了一个简单的视频教程 【【无需录音完全免费】有感情的文本转语音 基于微软tts的python小工具-哔哩哔哩】 https://b23.tv/abLjH4G

官方的地址
https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/#overview[/color]

声明

仅用于学习交流禁止商用

项目的目的和相关说明

  • 项目的核心功能是,可以直接转换后的MP3文件,微软官方的网页版demo不能直接转换后的MP3文件(直接录音对于转换文字较多时不是很方便)

使用方法

安装依赖

pip install -r requirements.txt

运行

python tts.py --input SSML.xml

使用python 运行tts.py,通过参数input传入SSML.xml文件的路径

或者可以通过传入output 传入希望保存的文件名

python tts.py --input SSML.xml --output 保存文件名

SSML.xml文件的示例如下

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xmlns:emo="http://www.w3.org/2009/10/emotionml" version="1.0" xml:lang="en-US">
    <voice name="zh-CN-XiaoxiaoNeural">
        <prosody rate="0%" pitch="0%">
        这个是 SSML 语音合成标记语言
        </prosody>
    </voice>
    <voice name="zh-CN-XiaoxiaoNeural">
        <prosody rate="0%" pitch="0%">
        这个是晓晓的声音
        </prosody>
    </voice>
    <voice name="zh-CN-YunyangNeural">
        <prosody rate="0%" pitch="0%">
        这个是云扬的声音。
        </prosody>
    </voice>
</speak>

voice name 声音的名字
rate 速度
pitch 语调  

如果对js逆向感兴趣

核心的请求是这个 wss://eastus.tts.speech.microsoft.com/cognitiveservices/websocket/v1

微软文本转语音 python 命令行工具

这个请求有两个参数AuthorizationX-ConnectionId
其中Authorization来自网页源代码token,可以直接用正则取

微软文本转语音 python 命令行工具

X-ConnectionId稍微复杂一点,搜索 cognitiveservices/websocket/v1定位到如下位置,发现已经生成,往下追一步

微软文本转语音 python 命令行工具

发现是createNoDashGuid生成的

微软文本转语音 python 命令行工具

继续追发现是一个uuid4

微软文本转语音 python 命令行工具

python 模拟非常简单

import uuid
print(uuid.uuid4().hex.upper())

websocket部分

上述请求之后,改成websocket传递

客户端发送文本,服务端返回二进制

发送的内容示例

Path: speech.config
X-RequestId: 1570E9705B67461494126EE84ED36CD9
X-Timestamp: 2022-03-13T10:48:30.067Z
Content-Type: application/json

{"context":{"system":{"name":"SpeechSDK","version":"1.19.0","build":"JavaScript","lang":"JavaScript"},"os":{"platform":"Browser/Win32","name":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36","version":"5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36"}}}
Path: synthesis.context
X-RequestId: 1570E9705B67461494126EE84ED36CD9
X-Timestamp: 2022-03-13T10:48:30.068Z
Content-Type: application/json

{"synthesis":{"audio":{"metadataOptions":{"bookmarkEnabled":false,"sentenceBoundaryEnabled":false,"visemeEnabled":false,"wordBoundaryEnabled":false},"outputFormat":"audio-24khz-160kbitrate-mono-mp3"},"language":{"autoDetection":false}}}

第三个发送的包中包含需要转换的文本

Path: ssml
X-RequestId: 1570E9705B67461494126EE84ED36CD9
X-Timestamp: 2022-03-13T10:48:30.068Z
Content-Type: application/ssml+xml

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xmlns:emo="http://www.w3.org/2009/10/emotionml" version="1.0" xml:lang="en-US"><voice name="en-US-JennyNeural"><prosody rate="0%" pitch="0%">You can replace this text with any text you wish. You can either write in this text box or paste your own text here.

Try different languages and voices. Change the speed and the pitch of the voice. You can even tweak the SSML (Speech Synthesis Markup Language) to control how the different sections of the text sound. Click on SSML above to give it a try!

Enjoy using Text to Speech!</prosody></voice></speak>

然后服务器返回一段二进制,只需要提取Path:audio后面的内容拼接就是我们需要的mp3文件。

微软文本转语音 python 命令行工具

完整代码

https://github.com/skygongque/tts
赞(0) 打赏
未经允许不得转载:哈哈网 » 微软文本转语音 python 命令行工具

评论 抢沙发

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫打赏

微信扫一扫打赏