人民网
人民网>>教育

人工智能训练师: 让机器学习“通人性” 

2018年12月27日08:46 | 来源:广州日报
小字号

人工智能训练师是一个全新的职业,他们制定数据标注规则,再将数据“喂”给机器人,对其进行“调教”、不断优化,让机器人“通情理、懂人性”,更好地为人类服务。

Shana是追一科技的人工智能训练师,她以语言学的学科背景“闯进”了人工智能领域,从数据标注成长为人工智能训练师。在工作中,她赋予机器人“人格”,给企业客服配备了闲聊的服务功能,客户可以跟它调侃、闲聊,提升机器人写诗、做对联的技能,让它更通人性。

Shana是北方人,在北京待了三年攻读研究生,专业学的是语言学专业。在北京读书的时候,她曾在一家互联网巨头公司有过两段实习经历:一段经历是做产品经理,另一段经历是做数据标注。

坚决要进互联网行业

那时是2013年。“当时标数据标注是在NLP(自然语言处理)部门做的,算是开始接触这个行业。”与局外人认知不同,数据标注并不是理工科学生的天下,反而是文科生施展拳脚的舞台。Shana观察到,和她一同实习的小伙伴基本上是语言学背景的同学,“因为数据标注要求处理数据的时候比较细心,甚至有时需要一定的语言学背景知识”。

当时这份实习更多的是偏重技术性的操作,数据标注的规则已制定好了,实习生按部就班完成,没有太多主观能动性发挥的空间,“数据标注基于提供的语料,然后你在语料上做一定的处理,它的一个很重要的规则就是统一性,所以你不能够有更多的创造性”。

她感觉“AI落地生花其实也是两年前左右的事情”。刚刚毕业,Shana在深圳没有发现非常对口的人工智能方面的岗位,偶然的一个契机,她在朋友的推荐下,前往追一科技面试,然后正式开始了数据标注的工作,从而打进了理工科学生的领域。

成为人工智能训练师

工作后,Shana正式跨入人工智能领域,那时的她对技术的理解还比较浅。“我只是单纯地从兴趣出发,我学的是语言学,虽然不想做老师,但我还是希望自己的专业能够有所用。”在她看来,数据标注是给机器人提供语料,这属于机器人教育,它不是教人而是教机器人学习某个东西,这与她的专业相近,能让她发挥所长。传统语言学的研究一直处在一个不温不火的状态,但AI的兴起让我觉得传统语言学有了一个新发展的方向——怎么样把语言学研究的成果应用到机器人的教育当中来。这个方向其实也是Shana最感兴趣的一个点。

传统NLP需要词性标注、语法树的标注,这都可以用到语言学的一些东西,虽然用得比较浅,但是在深度学习领域可以怎么用?她也在思考,“最近发现机器人智能化的表现是趋向于用对话来解决问题,而不是像以前需要点击屏幕。智能化发展的一个方向是对话交互,那怎样可以增加对话的轮次,让机器好像有了主动意识,从而更好地实现人机交互,可以持续性地聊下去,这是一个难点”。比如,通过智能客服订机票或是询问某只基金的情况,这样的应用场景就需要开展多轮对话,因为这样相对复杂的业务流程不是简单的对话就能完成的。

Shana的工作主要是根据客户的需求对数据进行标注。这通常跟项目有关,有金融类型的,也有互联网的企业,也有传统企业。她的工作范畴也远超出数据标注,而是跨入人工智能训练师的全流程作业——首先要跟客户对接需求,明确要做一个怎样的机器人,然后需要跟客户去沟通训练机器人语料的问题,这需要保质保量,之后对数据进行清洗,再制定规则进行数据标注和训练机器人,这些都由AI训练师来做。

Shana从数据标注自然而然转身成为人工智能训练师。在她印象中,人工智能训练师其实也是大概两年前的时候才诞生的新兴职业,刚开始并没有AI训练师这个叫法,这个称呼是从一家互联网巨头公司传出来的。此后,人工智能训练师成为特定的一个岗位,这也是大量需求背后促进社会分工进一步细化。

如今,人工智能训练师成为一种炙手可热的新职业,人工智能训练师赫然出现在许多互联网科技公司的招聘名单之中。甚至有城市向人工智能训练师发出招贤令,获得高级专项能力认证的人工智能训练师有机会申请公租房及落户加分等政策福利。

让机器人更懂人性

人工智能训练师的工作说通俗点,就是把机器训练得更加“通情理、懂人性”,让它更加适应人类。

比如关于态度情绪标注任务,标注类型是情绪厌恶,“我讨厌你,你走开”和“哎哟,我讨厌你”(这是撒娇的语气),中文的文法表达多样,主体词组相同,而不同的语气和声调可能表达的意思却有天壤之别。人类很容易辨别,那机器如何通人性,懂得人类的情感呢?

Shana说,在这个例子中,两组数据很明显的区别在于是否有语气词,那么针对这个特征可以制定一个规则。如果将这个案例进一步延伸,可能会有更多类似的表达,但意思可能大不相同,这些人工智能训练师往往通过词语和句式两方面加以区分。“你要理解机器学习,它最根本的是学习人类的文字表达,它最底层的逻辑就是统计,统计和概率没有逻辑推理,所以你要从字面上去尽量找区别特征,其实通过文字特征已经可以解决大量的问题了。”

让机器更通人性是人工智能训练师的重要工作,但现在大背景是目前人工智能还处于弱人工智能时代,在业界,人工智能训练师也处于尝试阶段,“像刚刚提到的情感分析,还有怎么样去赋予一个机器人性格,其实都是可以提升人性的”。Shana说,提升机器人性有两个层次,好比人跟人对话沟通首先要理解,第二个才是表达。“理解这一块之于机器人就是识别的准确率,所以训练的第一步是要先提升识别准确率,机器人先要知道人说的是什么,然后第二步才是表达方式。”具体到客户需求,她会根据企业不同属性和类别而做不同的训练,她举例说,金融行业的智能客服(机器人)会更加严肃一些,而互联网企业可能就会比较活泼,对合作伙伴式表述风格可以更多样,甚至可以用淘宝体,“所以针对不同的行业、不同的企业,它的表述的风格是可以不一样的”。

为了让智能客服更通人性,Shana还给企业客服配备了闲聊的服务功能,客户可以跟它调侃、闲聊。“你可以问它今天天气怎么样,你叫什么名字,你是男生女生等一些比较有意思的问题。”在人工智能训练师的手笔之下,原本死板的机器增加了人性的感觉和元素,而不是只能回答专业问题。

“机器人通过敏感情感识别之后,它会根据用户的状态,做一些情绪安抚。”她说,在这个层次上,机器人对人类语言的理解超越说的话是什么意思,而进入第二层次——理解你的情绪。机器人从人的语音、文字当中感知情绪,甚至感知人话语中是否有敏感的信息。她举例说,出行行业的智能客服对车祸这类字眼或者事件会比较敏感,机器人也可以理解客户的情绪,理解他目前的处境是否有危险。如果他有情绪的话,可以对他进行安抚;如果遇到车祸可以帮他紧急处理。“其实还是非常通情达理的一种方式。”

“我们的闲聊功能也会不断增加机器人的一些技能,你为什么喜欢跟这个人交流,其中一个因素就是这个人很博学,假如机器人能够回答你的问题越多,你会觉得它很聪明,然后愿意跟它交流。”Shana和其他人工智能训练师会增加机器人写诗、做对联的功能,让它更通人性。

文科生在AI领域挥洒才能

在行业浸染中,Shana摸爬滚打逐渐淬炼成“老兵”。“成为人工智能训练师你需要具备数据分析能力、熟悉产品能力、沟通能力、对AI技术理解力以及行业背景知识。”Shana以文科生的身份进入,在工作中不断去磨练技能,特别是数据分析能力。

目前,Shana“调教”的机器人它主要应用到客户咨询、新员工培训、还款提醒、满意度回访等,“客服这个领域就比较确定,它是很明确的一个场景。智能客服应用最多的是金融领域,然后是电商。”

Shana看好人工智能训练师的前景。“对这个岗位的需求量肯定是会越来越大的,因为AI时代确实已经到来了,现在全行业都在尝试AI怎么样去落地,怎么样去跟当前的场景结合,这个结合都离不开技术,离不开数据,所以对训练师的需求量肯定会越来越大。同时对训练师的技能要求也会越来越高。”

Shana以文科生的身份“闯进”人工智能理工科学生的天地,占据了一席之地,在人工智能训练师这样一个非技术类“新职位”中,文科生有了挥洒才能的机会。

“技术这一块确实还是理工科学生的天下,但是为算法模型提供数据,是文科生更加适合一些,尤其是涉及一些对话交互这种比较细致的工作。”(李华)

(责编:陈艺娴(实习生)、吴亚雄)

分享让更多人看到

返回顶部