Tôi không hiểu tại sao nhận diện giọng nói (STT) của Byte lại có giá thấp nhất, trong khi chuyển đổi văn bản thành giọng nói (TTS) lại có giá cao nhất trong các công ty lớn. Có phải là do chi phí thu thập và tổng hợp giọng địa phương cao hơn không? Giá trong hình chỉ là giá tham khảo hôm nay, không đảm bảo tính kịp thời và chính xác. Giá của Alibaba chỉ mang tính chất tham khảo, không phù hợp cho các nhà phát triển thông thường.