情感分析

1. requirements

2. pipeline

3. data collection

  • 收集data

    • GDPR(privacy),数据脱敏,数据加密

  • 分析data。考虑label的distribution

  • 考虑feature是不是只有text的,还是有numeric,nominal的。missing data怎么处理

4. feature

  • text的feature怎么生成embedding,好处坏处有哪些。(word embedding, fasttext, BERT)

  • numeric的missing data,如何normalize

  • 实际工作中,都是每个ML组都有自己不同的embedding set。互相使用别人的embedding set。怎么pre-train, fine-train, 怎么combine feature

5. model

  • 模型选择【传统的模型还是神经网络】

  • 考虑系统方面的constraint, 如prediction latency, memory. 怎么合理的牺牲模型的性能以换取constraint方面的benefit

模型蒸馏

6. evaluation

  • train, test, validation split data

  • evaluation matrix

  • feature的ABtest怎么做

问答

  • train/test data和product上distribution不一样怎么办

  • data distribution 随着时间改变怎么办

reference

Last updated