APP推广合作
联系“鸟哥笔记小乔”
奇富科技发布评测基准,想让信贷AI告别“黑箱竞技”
2026-01-13 10:23:32

奇富科技,为何此刻站出定义标准?这家科技公司的底气来自于哪里?是否有能力为行业定义一把公认的“标尺”?

要回答这些问题,不妨先审视行业正面临的真实挑战。

过去三年,大模型如风暴般席卷了信贷领域,掀起了一场以“效率革命”为名的技术浪潮。

在这过程中,逐渐形成了由互联网大厂引领、传统银行跟进和垂直玩家深耕的三足鼎立的格局。

随着大模型技术的收敛,信贷行业也陷入了“冷静期”。技术上的先进性与落地效果间形成了鸿沟。当众多厂商纷纷标榜自身的AI能力领先,一个根本性问题日益凸显:究竟该如何客观衡量,谁的技术更扎实、更可信?

近日,奇富科技给出了自己的答案,联合复旦大学与华南理工大学研究人员,共同发布首个面向信贷场景的多模态评测基准FCMBench-V1.0。

该基准基于真实信贷业务场景,抽象科学问题,设计多模态评估任务与挑战,以期构建来源于业务、服务于业务的实用性评测体系。同时,奇富科技宣布开源数据集与评测工具,为行业共建AI基础设施提供关键支撑。

至此,热闹纷繁的信贷AI赛道,终于有了一把清晰的“标尺”和一条公认的“基准线”,技术实力高低,终于有了可比较的刻度。

信贷AI的“无标之痛”

金融行业素有“练兵场”之称,一方面是场景下的各种需求比较复杂,所涉及的流程繁多;另一方面是对数据保密性、审核合规和交易安全等指标的低容错率。

奇富科技多模态负责人杨叶辉博士向我们介绍,“信贷审核涉及几十类证件、每类证件有多种模板、审核流程涉及多个环节和任务,以及多证件的交叉推理验证,用户拍摄的场景和上传的文件也多种多样。信贷场景的这些挑战对于多模态大模型的能力是非常好的试金石。”

但当信贷AI从演示验证走向深度应用时,却遭遇了一系列痛点问题。最突出的表现是大模型对专业场景的失焦,大模型往往更注重通用的能力,而缺乏了对信贷场景的适配性。

例如,一般行业评测多聚焦于“图片识别”或“文本分类”,但信贷审核员最头疼的,并非识别“这是不是一张图片”,而是判断这张身份证与当前操作人的其他材料,历史留存证件是否一致,且证件本身是否可疑。所谓的专业任务,是从数百页银行流水中识别出隐性负债、可疑的关联方交易等,这需要深度的领域知识和复杂的推理逻辑,通用大模型经常出现失灵。

数据的合规问题,在信贷行业尤为棘手。最需要被衡量的风控模型,其训练数据因涉及用户隐私、企业商业机密,无法被共享。这导致了一个悖论,学术界无法获取高质量脱敏的真实信贷数据,研究只能停留在真空环境下,训练出的模型沦为“纸上谈兵”。

工业界则因为数据敏感性,只能进行“黑箱竞赛”,各家均宣称自家模型在私有数据部署效果卓越,却无法在第三方统一的数据集上同台竞技,不仅信任无法建立,行业也无法通过统一标准测试水平。

即便走过了模型、数据的测试,在真实生产环境中还是会遇到许多突发和个性化的问题。例如,模型在执行扫描PDF、高清标准照等相对标准化任务上表现优异。但在真实世界中,客户上传的营业执照可能边缘有褶皱,因年份过长可能出现褪色;手持身份证照片可能背景杂乱、光线昏暗;远程面审时,网络延迟和视频压缩会导致语音断续、面部模糊。这些在实验室被过滤掉的噪音,恰恰是线上场景的常态,专门针对此类场景的鲁棒性测评目前严重缺失。

专业场景失焦、数据之困和鲁棒性盲区,三大痛点交织,共同将行业推入一个负向循环。

机构和企业选型时只能看Demo和通用打榜成绩,存在一定盲目性。各家都在自己的“孤岛”上重复建设相似能力,并宣称自己领先,市场充斥着劣币驱逐良币的担忧。因鲁棒性在上线前得不到充分检验,许多项目在落地效果不及预期,投入产出比低下。

现阶段,信贷行业呈现出投入大、选型盲和验证难的困境,大量资源被消耗在解决相同的基础问题上。要打破此循环,亟需一个统一的“标尺”和一场评估范式革命。

FCMBench,一把来自“战场”的尺子

为了解决行业的普遍性问题,奇富科技在设计FCMBench时设定了三大核心目标。

强调实用性,与真实信贷审核流程对齐,提供标准化评估指标。重要的是,理想情况下,若模型在该基准测试中取得良好成绩,可直接应用于实际场景,而不仅仅是满足实验室指标。

据悉,FCMBench-V1.0构建了与真实银行审核流程高度一致的评测框架,涵盖18类核心信贷证件,如身份证、收入证明、银行流水、房产证等,包含4043张合规图像和8446个测试样本,问题覆盖信贷审核全链条。

评测尽可能全面覆盖所有实际应用场景和需求。其创新的“感知-推理-鲁棒性”三维评测体系,对信贷AI模型所需的实战核心能力提出了全面的考核。

感知维度包含文档类型识别、关键信息提取、图像质量评估三大任务,考验模型从复杂图像中提取基础信息的能力;推理维度涵盖一致性校验、有效性校验、数值计算、合理性审核四类任务,模拟信贷员交叉验证信息、判断材料有效性的核心工作;鲁棒性维度则设置十类真实采集干扰,如倾斜拍摄、光照不均、反光等,测试模型在真实应用场景中的稳定性。

在数据层面,在保证多样性的基础上,满足合规性要求。数据采集支持单图像和多图像格式中的一种或多种证件,涵盖信贷审核中遇到的各类数据类型。以真实信贷材料为基础,在保证文档格式高度仿真的同时,手动生成一系列信贷相关证件,其中所有敏感信息均为虚构。

整体看下来,FCMBench取之于奇富科技常年的业务经验和数据积累,并将成果直接用于实战场景。首个版本做到了“对症下药”,其推出就是为了针对性地解决“无标可依”“无据可考”的AI落地痛点,让AI模型的性能评估有统一的标尺。

FCMBench并非是一个孤立的现象,而是整个金融行业转向实用性的信号。去年,一些大厂已经率先行动起来。

蚂蚁数科同样认同专业性和统一的标准。其构建的金融任务分类体系,包括了六大类、六十六小类场景,覆盖银行、证券、保险、基金、信托等金融全场景。此外,蚂蚁数科还联合行业内专业机构推出Finova大模型金融应用评测基准,深度考察智能体能力、复杂推理以及安全合规能力。

蚂蚁消金基于通义千问基座训练“消费信贷垂类风控大模型”,将任务详细拆解为授信、审批、专项优化反欺诈和信用评估等指标。京东科技则依托供应链生态,强化票据、合同、仓单等多模态单据的结构化识别与交叉验证,针对金融语义进行了专项重构。这些操作都在一定程度上,弥补了通用大模型“专而不精”的劣势。

落实到业务上,各家的目标也高度一致,追求价值落地。无论是蚂蚁的秒级授信、京东的供应链金融快审,还是奇富科技的AI全流程审批,本质上都是将模型性能指标转化为,包括坏账率降低、客群覆盖扩大、审核人工成本节约等实际业务价值。

通过对23个主流多模态模型的全面评测,FCMBench展现出了专业的鉴别能力。在FCMBench的首轮评测中,谷歌的Gemini 3 Pro(64.61)位列商业模型榜首,阿里云Qwen3-VL-235B(57.27)成为最佳的开源基模。基于奇富实际业务场景研发的信贷垂类多模态大模型,Qfin-VL-Instruct以64.92的F1分数斩获综合第一。

测试结果显示,Qfin-VL-Instruct感知任务精准度行业顶尖,一致性校验能力突出,低延迟部署适配在线审批场景,是专为信贷审核优化的“场景化模型”。

其中,在感知任务维度实现全面领先,文档类型识别、关键信息提取和图像质量评估三个子指标均超过Gemini 3 Pro。在有效性校验、数值计算、合理性审核等任务上,还可通过启用轻量级思维链推理进一步缩小与Gemini 3 Pro的差距。

Qfin-VL-Instruct的成绩,证明了通用模型能力无法完全覆盖专业场景,通过“场景数据+专业领域知识”积累能够突破现有模型的上限,奇富科技在垂类模型上的成功,也为行业指明了一条可复制的路径。

从“技术竞技场”到“行业共同体”

目前,奇富科技宣布开源了FCMBench的数据集与评测方法,有关FCMBench的数据集、评测工具以及Qfin-VL-Instruct的试用接口已开放获取。

FCMBench的开源,标志着金融AI发展逻辑的一次根本性转向:信贷行业正从各家闭门的“黑箱竞赛”,走向基于公共标准的“生态共建”。

这一举措将彻底打破领域壁垒,推动信贷AI从“单点优化”迈向“产学研协同创新”。高质量、合规的开放数据集,让学术界拥有了触及真实金融问题的“合法接口”。产学研合作得以从务虚的技术对接会,转向务实的问题攻坚,共同攻克“可解释AI”“小样本鲁棒性”“公平性验证”等既具学术深度,又攸关业务落地的真问题。

拥有可量化、可复现的评测工具后,金融机构的技术评估体系得以重构。选型决策将从依赖厂商的“案例包装”与“榜单大比拼”,转向客观的能力跑分与场景适配度分析,极大降低决策风险与试错成本,并倒逼大模型厂商回归价值竞争本质。

公开基准如同一面“照妖镜”,迫使所有厂商在同一把“尺子”下接受检验。这意味着以前公说公有理,婆说婆有理的局面即将终结。当各家同拿一份考卷答题,坐在考场答题时,谁的分数更高,成绩则一目了然。

金融AI的终局并非技术炫技,而是建立稳固的信任体系。公开、透明的评测基准,正是建立这种信任的第一步。它为信贷行业未来建立AI模型合规认证、金融垂类领域能力测试和监管标准,都提供了有效的思路和实践基础。

杨叶辉博士告诉我们,“FCMBench -V1.0只是一个开始,未来会持续完善评测基准,希望打磨好一把公平、公正,面向实战需求的尺子”。

这不仅仅是一次技术开源,更是一次行业共识的重塑。只有当技术能力可衡量、可比较、可验证时,信贷AI才能进一步走向技术应用的深水区,推动整个行业走向更安全、可靠、可控的智能化未来。

关键词
光子星球
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
光子星球
光子星球
发表文章357
细微之处,看见未来。公众号:光子星球(TMTweb)
确认要消耗 羽毛购买
奇富科技发布评测基准,想让信贷AI告别“黑箱竞技”吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接