(参考报价篇)
数据标签需求公司的特点通过阅读上一篇,我们应该已经有了一个比较明晰的认识,本文想要分享的是数据标注公司在与需求公司进行沟通合作时应该如何更加科学的进行报价。
所有行业的报价都是基于成本,因为数据标注员在数据标注公司的日常运营中成本占比最高,人工自然也就成为了数据标注公司运营中最大的成本因素。
同时数据标注行业与其他劳动密集型行业还有着一定区别。不同于工厂流水线上的工人,数据标注公司所对接的资源公司的需求是千变万化的,这就要求数据标注员需要有很宽阔的视野、较强的理解能力;不同于从事单一繁重体力劳动的人工,数据标注公司所对接的资源公司对于数据的质量和准确度是否符合模型训练的预期有着非常高的要求,这就要求数据标注员需要有敏锐的观察能力、较强的耐心和一丝不苟的工作态度。
通过上面的分析,我们可以清晰的了解,在数据标注公司的日常运营中人工就是最大的支出。既然人工是数据标注公司最大的支出,那么问题来了,我们应该基于人工从哪些方面进行科学合理的报价呢?
因为员工每日的工时都是固定的,从效率角度出发,所以我们的报价需要从以下几个方面进行综合考量。
数据
这里的数据指的是资源合作方提供的需要标注的各类数据,在基于数据进行成本预估的时候,我们最重要的是需要注意以下2点:
1. 标注时间:这里指的标注时间就是按照资源需求公司的标注方法对图片进行特征的标注,标注的方法可以按照从简单到复杂的难易程度进行排序。如下所示:2D拉框<多边型拉框<LandMark<点云拉框<语义分割<VR打标,关于上述标注方法详细解释请参考“如何运营一家数据标注公司(数据处理分类篇)”。同时在标注的基础上,我们还需要对标注对象进行一个分类打标,也就是给每个固定的被标注元素设置一个唯一的标签。按照标签从少到多进行排序,如下所示:
- 单级唯一标签:比如,图中只需要对人或车等唯一元素属性进行打标,有且只有一个需要进行打标的对象
- 单级多个标签:比如,图中需要对人、车、动物等多个元素属性进行打标,同时可以存在多个(不超过10个)被标注对象
- 单级复杂标签:比如,图中需要对众多(超过10个)元素属性进行打标
- 多级复杂标签:比如,图中需要对人、车等众多元素进行打标的同时需要标注出车的种类,人的行进方向等等
标注时间方面的成本核算就是基于以上两个重要因素,难度越高当然在实际标注中耗费的时间也就越长。
2. 判断时间:这里指的判断时间就是在实际标注前,对应标注元素进行识别和判断,因为篇幅有限,这里对哪种判断更为困难不做过多介绍,这里只对影响判断的因素进行一个大致概括,其中包括有:
- 被标注图片的清晰程度:一般指图中被标注元素是否可以清晰辨别
- 被标注元素的专业化程度:类似于金融相关专业知识的快速判定、医学影像中病变区域的打标,各类复杂地貌名称的打标
- 被标注元素关联场景的复杂程度:这里关联场景的复杂程度主要指光线场景(包括逆光、高亮等)、重叠场景(多个被标注元素相互重叠)、颜色场景(只有黑白色)
- 被标注元素标签的细化程度:这里的细化程度主要指被标注元素与采集镜头形成角度的需要标注出具体角度、被标注元素之间有遮挡关系的需要标注遮挡百分比、被标注元素包含复杂颜色的需要对复杂颜色进行区分等等
判断时间方面的成本核算也是基于上面提到的几点。同样的,判断难度越高,实际操作中花费的时间也就越长。
标注工具
这里的标注工具指的是数据标注中的操作时使用的工具,在基于软件进行成本预估的时候,我们最重要的是需要注意以下2点:
1. 操作方面这里指标注软件在实际标注过程中操作环境是否流畅,操作功能是否便捷。
2. 统计方面这里指标注软件在标注完成后对实际标注的各类元素的分类统计是否足够精确,对于各个标注员的产能是否能够做到有效统计。
在实际使用标注软件进行标注时,操作环境越流畅、功能越便捷,单位时间的产量也就越高,同时越强大的统计功能也同样可以大大降低大规模标注人员的管理成本
规则
这里指和需求公司获取的相关标注规则,在基于规则进行成本预估的时候,我们最重要的是需要注意以下2点:
1. 规则明确这里指需求公司能够提供完整的规则文档,保证在标注过程中需求边界清晰,不会让标注员在同一个被标注元素的某个方面的判断上左右为难。同时在明确的规则中又分为粗线条的规则和细线条的规则:
- 粗线条的规则主要指需求方能在一般场景中将标注规则清晰的阐述出来,但是在很多情况下需求方并没有进行过自测和相关标注,在标注中可能出现的若干特殊场景使得一般场景的规则并不适用。
- 细线条的规则主要指需求方前期同样花费了巨大的精力对相关数据进行标注,同时对各种特殊场景都做出了详细的描述。
2. 规则笼统这里指需求公司在筹备研发某项产品时按照预计的设想进行一个大致的规则整理,需要数据标注公司辅助需求公司在标注的过程中不断完善相关规则
规则的明晰与否直接决定了数据标注生产的连续性,一边对规则进行细化,一边标注就会在实际标注环节走走停停,从而影响标注效率。
沟通
这里指和需求公司之间报价前的沟通,在基于沟通进行成本预估的时候,我们按照沟通成本的从低到高进行排序:
1. 沟通反馈迅速(这里指和需求公司沟通过程中能够做到时时通话,这说明需求公司是有专门负责人对此项目进行对接)
2. 反应良好(这里指和需求公司沟通过程中会有时间延时,一般不超过2个小时,说明需求公司同样有专门负责人,但负责人可能同时负责了多个不同项目)
3. 沟通反应不佳(这里指和需求公司沟通过程中有较长时间延迟,一般超过6个小时,说明需求公司可能没有专门负责人或者专门负责人的工作重心并不在此项目上)
4. 沟通反应较差(这里指和需求公司沟通过程中存在无回复等情况,说明需求公司大概率只是对于项目的合作有一个初步的想法,并没有确定是否需要一定实施)。
良好的沟通是数据标注行业最最重要的一环。良好的沟通可以省去重复、返工等众多的低效行为。同样的,较差的沟通会使数据标注公司在标注的各个环节上成本极大的上升。
以上就是参考篇的所有内容,因为篇幅有限,这里基于数据、软件、规则、沟通四个大
类的内容并没有完全展开进行逐一讲解,特别是在关于软件如何有效提高标注效率和管理
这个方面只是做了笼统的介绍,如果你想了解,请经常来看看