除准确率外哪些指标关键?
P99延迟(实时场景<500ms)、鲁棒性(噪声下性能衰减<10%)、校准性(置信度与正确率匹配)、可重复性(温度=0时输出一致)。综合评分需加权。

如何设计对比测试?
抽取1000条真实业务数据+200条边界案例,盲审按“正确/部分/错误/有害”四级评分。计算综合得分=0.5×典型准确率+0.3×边界准确率-0.2×有害率。
开源vs闭源长期成本?
闭源API年费12~18万美元(1000万次/月),无运维人力。开源自托管硬件6~8万美元,但需2~3名ML工程师(20~30万美元人力)。有团队选开源。
