AI | AI三件套之数据(2)— 数据标注产业
作者:微信文章《AI | AI三件套:数据、算法、算力》
《AI | AI三件套之算力(1)— 芯片》
《AI | AI三件套之算力(2)— 服务器》
《AI | AI三件套之算力(3)— 网络设备》
《AI | AI三件套之数据(1)— 数据的特征》
数据是AI的三件套之一,它是AI的信息来源和学习材料,见图1:AI三件套。
数据标注是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理。而数据标注产业就是基于AI人工智能对与数据高质量要求而发展起来的新商业形态,培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。(《国家发展改革委等部门关于促进数据标注产业高质量发展的实施意见—发改数据〔2024〕1822号》)。
数据标注产业是人工智能发展的基石,呈现出高价值、高技术、高知识的特征。
https://mmbiz.qpic.cn/sz_mmbiz_png/NDibvhd0FEzVqib6KIE7HyCU7WYB4uib00KKomsTKFexCztcicNECTTEwFKYe6lUwoypyC9pJUO1MtYYicsJgs73sAw/640?wx_fmt=png&from=appmsg&watermark=1&wxfrom=5&wx_lazy=1&tp=webp#imgIndex=0
图1:AI的三件套
一、为什么进行标注
数据标注的主要目的是为AI人工智能模型提供“学习资料”。只有标签化的数据才能被AI理解和学习,而没有标签化的数据,大多数AI模型就无法理解和学习其中的规律。简单理解,对数据打标签就是数据标注。
有如下案例:猫狗识别的AI模型。你想训练一个能自动识别图片、视频等中是猫还是狗的AI模型。
如果只给AI看一万张猫和狗的图片,它无法自己理解“猫”和“狗”的概念和特征。因为这些图片中,可能有跳着的猫和狗、趴着的猫和狗、仅露着头的猫和狗、品种各异的猫和狗等等。因此需要将这些图片事先进行标准答案的标记,这样AI才能认得他们。
简单来说,数据标注就是为每一张图片打上“这是猫”或“这是狗”的标签。这个过程就是在明确地告诉AI:“这张图片的正确答案是猫,而那张是狗。”
通过学习和分析这些带有标准答案的图片,AI模型才能逐渐学会区分猫和狗的特征,最终具备识别未知图片的能力。
二、对什么进行标注
上述例子中,仅仅说了对图片进行标注,而能代表“猫和狗”的数据不仅仅有图片,还有音频(猫和狗的叫声)、视频(猫和狗的视频)、文字(把猫比喻为老虎的师傅、把狗比喻为人类忠实的朋友)等,所以数据标注的对象包括:文字、图片、音频、视频等,当然还有一些其他数据类型(如3D模型、多模态数据等)。
1. 图像
分类:为整张图片打上“猫”或“狗”的标签。
拉框:在图片中精确框出每只猫或狗的位置。
分割:精确勾勒出猫或狗的轮廓。
2. 视频
行为识别:在视频片段中标注动物的行为,如“猫喝水”、“狗奔跑”。
目标追踪:在一段视频里,持续追踪某一只特定的猫或狗,标记其运动轨迹。
3. 音频
语音转写:将猫的“喵喵”叫和狗的“汪汪”叫声转写为文字“猫叫”和“狗叫”。
声音事件检测:标注出一段音频中,何时出现了猫叫或狗叫声。
4. 文字
文本分类:判断一段用户评论的情感是“喜欢猫”还是“喜欢狗”。
实体识别:从新闻中提取宠物品种,如“我家的金毛很温顺”中的“金毛”则是狗的一个品种。
三、谁进行标注
数据标注产业已经形成了一个成熟的分工链条,每个环节负责不同的事项。仍以上述猫狗识别为例,其参与者主要包括:。
1、需求方:开发猫狗识别APP的客户,其提供数据并提出场景识别需求。
2、平台公司:提供标注技术平台研发及解决方案。
3、供给方:
专业数据标注公司:承接该项目,负责项目管理、质量控制。
众包平台/标注基地:提供具体的标注人员。
4、标注员:
可能是标注公司的专职员工,负责图像拉框、视频追踪等任务。也可能是通过众包平台招募的兼职人员,处理文本分类等相对简单的任务。
对于音频标注,可能需要听力更敏锐或经过特殊培训的标注员。
5、质检员:负责审核标注结果,确保“猫咪”不会被标成“狗”,猫叫声的起止时间精准无误。
四、怎么进行标注
有一套数据标注制度和流程是保证数据质量。
1、制定规则:
首先会制定一份极其详细的《猫狗多模态标注规则书》。例如:
图像:“中华田园犬统一标为狗”
视频:“把小区里爬树的橘色的、黑色的标注为猫”
音频:“环境音中的模糊犬吠,如能分辨,则需标注。”
文本:“我讨厌掉毛的动物归类为负面情感,不区分猫狗。”
2、使用工具:标注员使用专业的在线标注平台,平台集成了图像框、视频逐帧播放器、音频波形编辑器、文本标注界面等多种工具。
3、标注与质检流程:
一审(标注):
图像/视频标注员:在视频第一帧,框出狗和猫,并打上标签。随后启用目标追踪功能,让系统自动追踪,人工进行微调。
音频标注员:听这段视频,在音轨上标记出狗叫的起始时间点。
文本标注员:为用户上传视频时配的文字“我家狗子在追猫!”打上狗和猫的实体标签。
二审(复核):质检员检查所有标注结果。发现视频中猫咪跳出画面后,标注员没有及时结束追踪框,于是驳回修改。
三审(抽检):项目经理随机抽查,确保整体准确率达标(如>99%)。
4、交付与应用:
最终交付的是一个结构化的数据集,包含了:
视频文件及其对应的追踪框坐标序列和行为标签。
音频文件及其对应的声音事件时间戳。
文本内容及其对应的实体标签和情感分类。
5、最后使用:
客户公司的算法工程师利用这个多模态数据集,训练出一个能同时理解画面、声音和文字的智能宠物AI。
五、标注产业龙头
1、海天瑞声:A股“数据标注第一股”,是行业龙头。它主要为AI算法训练提供数据资源、产品和解决方案,服务对象包括全球各大科技公司、高校及科研机构。其优势在于多语种语音数据和自然语言处理数据,技术实力和合规性都很强。
2、标贝科技:专注于智能语音和计算机视觉领域,在语音合成、语音识别、图像标注等方面有深厚积累。以其高质量的数据和先进的数据处理平台闻名。
3、数据堂(DataTang):国内最早一批从事数据服务的公司之一,积累了丰富的数据资源和完善的数据处理体系。业务覆盖自动驾驶、智能安防、智能家居等多个领域。
4、Testin云测(及旗下品牌“云测数据”):在业内知名度很高,尤其专注于自动驾驶、智能家居和手机等领域的高质量场景化数据。他们强调通过自建数据基地和标注工具来保证数据质量和安全,是很多头部AI公司和车企的合作伙伴。
5、龙猫数据(LMData):通过“众包+自营标注基地”的模式,提供数据采集和标注服务。在图像、文本、音频等领域都有布局,以其灵活的调度能力和成本控制著称。
6、百度众测(及旗下的“百度数据标注基地”):百度不仅在内部有巨大的数据标注需求,也通过在全国多地(如山西、山东等地)建立实体标注基地,将任务分发出去,形成了庞大的标注生态。
7、阿里众包:与百度类似,依托阿里生态的数据需求,通过平台整合社会资源进行数据标注。
8、Appen(澳鹏)中国:虽然是外企,但其在中国市场深耕多年,通过收购本土公司(如北京传思)等操作,建立了强大的本土化团队和标注能力,属于全球龙头在中国市场的延伸。
【本文的AI生成比例约为50%】
https://mmbiz.qpic.cn/sz_mmbiz_png/NDibvhd0FEzWFLBKzxWpM27KAXWDpZYKBIiclwCVqGpuEiazQR8FhpQKUrZn89vkLHCROUSQC1jbxYHYbIf1mtYsA/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp#imgIndex=0
页:
[1]