在 AI 阅卷领域,文科题目的批改相对容易,而理科题目(数学、物理、化学)一直是难以攻克的“高地”。这主要归因于理科答案中包含了大量的二维公式、特殊符号以及科学图形。闪阅技术团队迎难而上,通过一系列算法创新,在复杂理科识别领域取得了突破性进展。
二维结构的拓扑分析
普通的文字是线性排列的(从左到右),而理科公式是二维结构的。例如,分数的分子和分母是上下关系,积分限在积分号的右上角和右下角,矩阵则是一个行列结构。传统的 OCR 模型擅长处理序列数据,面对这种拓扑结构往往束手无策。
闪阅采用了基于图神经网络(GNN)的拓扑分析算法。系统将公式中的每个字符视为一个节点,字符之间的位置关系(上下、包含、并列)视为边。通过构建字符关系图,AI 能够准确地理解公式的结构。例如,它能区分 $x^2$(指数关系)和 $x2$(并列关系),也能准确还原复杂的化学苯环结构及其取代基的位置。
形近符号的精细化区分
理科符号中存在大量形近字,如英文字母 $x$ 与乘号 $\\times$,数字 $0$ 与字母 $O$,希腊字母 $\\rho$ 与字母 $p$。在手写体中,这些区别更加模糊。
为了解决这一痛点,我们建立了专门的“理科形近符号库”,并训练了细粒度的分类器。更重要的是,我们引入了学科领域的先验知识(Prior Knowledge)。例如,在物理力学题目中,$\rho$ 通常代表密度,而在几何题目中,$O$ 通常代表圆心。系统会根据题目所属的学科和知识点,动态调整符号识别的概率权重,从而大幅提升识别准确率。
从图像到可计算模型
闪阅不仅仅是将公式识别为文本,更将其转化为可计算的数学模型。这意味着系统可以对识别出的公式进行代数运算和验证。例如,当学生写下 $\\int x dx = \\frac{1}{2}x^2 + C$ 时,系统不仅识别了这些符号,还在后台进行了求导验证,确认等式两边在数学上是等价的。这种“识别+计算”的双重验证机制,是闪阅实现智能评分的核心保障。