AI音声文字起こし

GPT-4o Transcribeちゃん(https://platform.openai.com/docs/models/gpt-4o-transcribe)、なかなかの認識精度でして、お気に入りでしたが、2,000 max output tokes という結構な縛りがありまして…

短い音声入れている間は気づかなかったのですが、12分ぐらいの音声を入れると、妙に出力が短くて、気づいたという…

提案段階で気づいてよかったわぁ

 "usage": {
        "type": "tokens",
        "total_tokens": 9714,
        "input_tokens": 7666,
        "input_token_details": {
            "text_tokens": 0,
            "audio_tokens": 7666
        },
        "output_tokens": 2048
    }

JSONレスポンスのoutput_tokensが妙にきれいな数字だなと…