“考拉阅览CEO:怎么利用AI、语言学做出国内首个中文分级阅览系统?”
本篇文章3342字,读完约8分钟
深圳汽车抵押贷款最大的那家【科技在线】 在一批在线教育试水者当中,赵梓淳带领的考拉阅览有点不太一样。 因为国内做分级阅览的虽然不多,但是做中文的分级阅览,国内目前却仅有他们一家。 考拉阅览ceo赵梓淳 在在线教育这个行业,考拉阅览算是一名新人 成立不足1年,团队堪满60人,刚完成3000万的pre-a轮融资。在创始人赵梓淳眼中,阅览教育是一项非常庞大的产业,ai+教育的未来仍存在很多不明确性。考拉阅览也还处于摸索阶段。 为什么要做中文的分级阅览标准? 事实上,在国内,如好未来、vipkid等一点在线教育公司已经在做英文的分级阅览,虽有其物,但一直没多大水花。赵梓淳向雷锋网(公众号:雷锋网)透露,对于考拉阅览来讲,做英语的分级阅览标准并没有太大的技术难度,但他们并不想做。 原因很简单,海外已有一套很成熟的英文分级阅览标准系统,不仅运行了将近40年且已覆盖了美国90%的学校,如lexile分级(蓝思分级)、ge分级等。而在国内,中文阅览不仅连分级标准都未树立,很多教师甚至连分级阅览都没听过,尤其是在重要的k12教育行业,很多书店给童书分级,只能给出诸如 适合8岁以下孩子阅览的童话书 等基于感性、经验基础的文案建议。此外,教师、家长对孩子的阅览水平的了解也一直处于空白状态,因为获取这一数据的渠道不是没有,就是非常非常有限。 在这两大刚需的驱使下,再加上 全民阅览 、二胎等关联政策的颁布,以及人工智能、机器学习和大数据的快速发展,又给前者提供了更充分的条件,这一切都让赵梓淳觉得:做一套中文的分级阅览标准很有必要,而且,时机也来了。 瞄准ai,树立基于er framework的中文分级阅览系统 丨中英文差异 考拉阅览cto任易透露,在欧美,英文的分级阅览首要有两个维度: ▪ 语义:首要看词频,如果一个单词出现的频次很低,则系统会判定这个词相对较难。 ▪ 句法:首要看句子长度,长句通常较难去拆析和理解。而句子难度跟从句、副词、介词等的采用也密切关联。 在这两个维度上,欧美国家通过统计学的做法来完成分级阅览标准的树立。任易表示,考拉阅览的中文分级阅览标准(er framework )借鉴了海外的 词、句 的拆析思想,因而和其有一定的相似性。但是,由于中文相较英文的「天生多而杂性」,决策了考拉阅览必需做得更加深入。 据赵梓淳介绍,中文和英文的三大本质区别首要在于: ▪ 基础单元:英文的基础是26个字母,中文的常用汉字达3500个,这就决策了中文阅览的拆析必然需要一个规模化的语料库。 ▪ 分词:英文不需要分词,仅需空格即可判定词语的边界,但汉字脱离不了分词。如「量子自旋效应」这个词,有人可以将其分为「量子」、「自旋」、「效应」三个词,也有人认为这就是一个词。但在英文中就无此类困扰。 ▪ 句式结构:在句式结构上,英文要严谨得多,如主从句之间会有that、which、what等来界定。中文的行文风格则较为随意,嵌套结构也要混乱得多。 丨「字词句段篇」五大维度+ai技术 鉴于这三大区别,考拉阅览基于er framework的分级阅览标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度,并实现段落、主题等的拆析。如在「字」其下还有常用性、构形、组合性三个特征,「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。 赵梓淳表示几百万字的非平衡语料库和几亿字的平衡语料库。考拉阅览的非平衡语料库首要来自每个版本的小学教材及其教辅资料,其是指垂直于某一品类的语料库,如小说、历史传记各有其对应的语料库;平衡语料库即指一个孩子在日常生活中需要真实接触的语料,如,按照一位10岁小孩需要看20%的名着小说、50%的课文和20%的漫画这种比例来配语料库。 因为中文的的句子相较英文要多而杂得多,机器在理解中文的第一步就会遇到词性拆析、语言模型上的困难。所以,有赖于现在流行的ai技术,如rnn、lstm等深度学习技术,可以弥补中文在nlp上的缺失。 任易表示, 现在我们可以做到,将一个句子按照句法树、依靠相关等予以拆解,以拆析每一个成分在句子中的比重,从而实现阅览文案的难度分级。 而区别于欧美英文分级阅览,考拉阅览的分级阅览系统大的特点即在于ai在此发挥的作用。赵梓淳向雷锋网透露,随着客户数量的增加,产生的数据越多,该系统中的模型可实现自主学习,不断优化,从而对文案阅览的难度感知越发准确。 以教育局切入,「从上至下」走to b路线 据了解,目前赵梓淳带领其团队共开发了三款产品: ▪ 基于er framework的个性化分级阅览系统; ▪ 基于er framework和 新课标 的阅览能力测评; ▪ 对比公立学校的阅览整体处理方案,包括教师培训、分级短文材料等。 其中,考拉阅览的分级阅览系统现在已经进入天津市200余所中小学,被全市上百万的小学生采用。赵梓淳称,考拉阅览的客户群首要为小学阶段的孩子,目标是利用ai和语言学的结合,全面提升这些孩子的阅览能力。 在企业战术决定的制定上,赵梓淳显得非常冷静而果断,其称,考拉阅览的业务从一开始就是围绕to b在展开,不会对比c端采用。原因有两点: 1、普通民众并不明白什么是分级阅览。对于考拉阅览这种体量的创业企业来说,要转变他们对分级阅览的认识,任务实在过于繁重。所以,更好的方法就是在一开始就从to b端的公立学校、教育机构去切入,让教育局、教师等为分级阅览背书,且还能增强企业产品的公共信服力。 2、目前获取c端客户的价钱依然较高。 基于此,赵梓淳表示, 所以我们还是想在b端稳扎稳打下去。后期企业快速发展到一定程度之后,必定会走向to c端,毕竟to b的天花板一定是可以预见的。 丨牵手200余所中小学 然而,在在线教育这一慢热的市场,特别是在很多教育资源都被政府等关联机构紧紧攥在手里的情况下,考拉阅览又是怎么打通这些壁垒,与教育局,以及地级市200余所学校成功牵手的呢? 赵梓淳告诉雷锋网,事实上,考拉阅览一开始走这条路也不太顺利 先其采取对每家学校进行单点突破的方法,却发现效率非常低下。 赵梓淳带领其团队注意到这样一个现象,国内很多中小学都很重视学生的测评,但在阅览能力的测评上却处于相对空白的状态。于是,考拉阅览联合北京师范大学基础教育评测中心合作「搞」了一件大事:在国内的一线到四线城市,对近10万学生进行了基于er framework和 新课标 的阅览能力测试,并对关联数据进行拆析,终出具了一份中国学生的阅览能力量表。在测评的助攻下,考拉阅览成功打通了和中小学合作的路径。 丨开设教师培训课程 并且,在推进分级阅览标准的过程中,考拉阅览发现「教师」这一角色反而是整个推进过程的关键角色。因为虽然已经开发出中文分级阅览标准及其配套工具和产品,但在赵梓淳看来,这些工具和产品依然需要人来采用,需要教育者来向这些孩子传播教育的温度和理念。但是,国内教育理念跟不上,语文教师对整个前沿教育的趋势掌握不到位......这些都是问题。 对比这一痛点,考拉阅览还和学校合作开展了20课时和40课时不同版本的对比教师的培训课程,由其团队里具有深厚教研经验的成员进行研发,分为线下集中辅导和线上远程支持两种路径,以培训教师们及时更新各种新兴教育理念的能力,从而及时掌握教育阅览的新快速发展趋势。 分级阅览进入国内的这些年,不是没有遭受过质疑之声,有人认为分级阅览不适应中国国情,比如有些孩子从小耳濡目染四大名着,可能会对超出分级阅览系统推荐的书目以外的书籍兴致趣,当然不能排除这种可能性。 面对这一问题,赵梓淳如此表示: 分级阅览系统只是一种工具,它并不能喧宾夺主说可以取代老师。我们做分级阅览的意义就在于,想告诉家长和老师,哪种文案难度的书目是适合你的孩子或学生去阅览的。至于读还是不读,依然需要家长和老师去做出评估。随后,在谈及推进分级阅读教学过程的体会时,赵梓淳坦率地表示,教育是一个大事件,它与人性直接相关,因此并不是只做产品就能实现“通吃”。 大家总是说“科技教育”而不是“科技教育”。 因为教育一定是第一位的。
标题:“考拉阅览CEO:怎么利用AI、语言学做出国内首个中文分级阅览系统?”
地址:http://www.aq6w.com/xaxw/25496.html
免责声明:西安新闻网是西安知名度和影响力较大的本地门户网站,本网部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,西安新闻网将予以删除。