大家好，这里是程序员晚枫，正在all in AI编程实战。

第19讲：AI语音处理——让AI听懂你说的话

AI语音的两大方向

语音转文字（STT）：录音→文字
文字转语音（TTS）：文字→语音

1、安装语音库

1	pip install openai python-office

2、语音转文字（STT）

from openai import OpenAI

client = OpenAI(api_key="你的Key", base_url="https://api.deepseek.com")

# 使用OpenAI兼容的Whisper模型
with open("录音.mp3", "rb") as audio_file:
    # 注意：DeepSeek不支持音频，需用其他平台
    # 这里以硅基流动为例
    client_silicon = OpenAI(
        api_key="你的硅基Key",
        base_url="https://api.siliconflow.cn/v1"
    )
    transcript = client_silicon.audio.transcriptions.create(
        model="FunAudioLLM/SenseVoiceSmall",
        file=audio_file
    )

print(transcript.text)

3、文字转语音（TTS）

from openai import OpenAI

client = OpenAI(
    api_key="你的硅基Key",
    base_url="https://api.siliconflow.cn/v1"
)

response = client.audio.speech.create(
    model="fishaudio/fish-speech-1.5",
    voice="中文女声",
    input="大家好，这里是程序员晚枫，欢迎来到AI编程训练营！"
)

前3讲可以试听，试听链接：https://pan.quark.cn/s/8f7886f79569


with open("output.mp3", "wb") as f:
    f.write(response.content)

print("语音已生成：output.mp3")

4、实战：会议纪要生成器

from openai import OpenAI

client = OpenAI(api_key="你的Key", base_url="https://api.deepseek.com")
client_silicon = OpenAI(
    api_key="你的硅基Key",
    base_url="https://api.siliconflow.cn/v1"
)

def meeting_minutes(audio_path):
    # 第1步：语音转文字
    with open(audio_path, "rb") as f:
        transcript = client_silicon.audio.transcriptions.create(
            model="FunAudioLLM/SenseVoiceSmall",
            file=f
        )
    text = transcript.text
    print(f"转录完成，共{len(text)}字")
    
    # 第2步：AI生成会议纪要
    response = client.chat.completions.create(
        model="deepseek-chat",
        messages=[{
            "role": "user",
            "content": f"""请根据以下会议录音内容，生成会议纪要：
1. 会议主题
2. 参与者
3. 关键讨论点（3-5条）
4. 决议事项
5. 后续行动

录音内容：
{text}"""
        }]
    )
    return response.choices[0].message.content

minutes = meeting_minutes("会议录音.mp3")
print(minutes)

5、实时语音助手

import office

def voice_assistant():
    """简单的语音助手"""
    while True:
        user_input = input("请输入问题（输入'退出'结束）：")
        if user_input == "退出":
            break
        
        response = client.chat.completions.create(
            model="deepseek-chat",
            messages=[{"role": "user", "content": user_input}]
        )
        answer = response.choices[0].message.content
        print(f"AI：{answer}")

voice_assistant()