OCR技术的应用并不止于为视障人群修建盲道
听取顾客发来的评论意见、发布最新制作的商品介绍图片,这是淘宝店主小峰 5 年来每天起床后必做的两件事。
来自浙江的小峰自幼双目失明,2015 年在淘宝开了一家专卖电子产品的店铺。通过“手耳并用”的方式,小峰可以和明眼人一样,毫无障碍地和众多买家进行沟通交流。
这一切得益于 OCR(光学字符识别)技术。在阿里达摩院读光 OCR 团队的努力下,数十万盲人登陆淘宝时,只要手指划过相关页面和商品,手机就会准确地读出的信息 。
OCR 技术的应用并不止于为视障人群修建“盲道”,小峰和数以百万计的商家每天会在淘宝发布超过 1 亿张商品图片。
广告发布是否违规?商品图片是否侵权?在每天为海量图片“把脉”的过程中,锻造了读光 OCR 强大的能力,这项原本只专注于商品治理的安全技术,逐渐进化为不同行业提供人工智能服务的全能识图产品。
不久前,阿里达摩院和阿里安全成立联合实验室,意味着“读光”这一高精尖技术将在更多场景落地,而在“新基建”快速发展的当下,数字技术将展示出前所未有的普惠性。
每天为数亿张图片把脉
每天在淘宝新增的商品图片达数亿张。
如果用相纸把这些图片打印出来,假设每张相纸厚度为 0.2 毫米,摞在一起的厚度超过 20 公里。
从这些图片中找出违规发布的商品和信息,依靠人的肉眼,即使每秒钟能查看一张图片,24 小时内看完这些商品图,需要 1158 人团队不间断持续作业才能完成。
在商品图片内容丰富、场景复杂多样的状况下,读光 OCR 技术的出现大大提高了平台治理的效率。
读光 OCR 团队负责人、高级算法专家永攀介绍说,“读光”的前身是成立于 2011 年的“图像把脉团队”。
阿里的追光者:每天为数亿张图片把脉帮数十万盲人“听图”
部分读光 OCR 团队成员合影
彼时,淘宝商品主要信息传递方式是图片,消费者搜索任何商品,映入眼帘的是首先是各个搜索结果的商品主图,这张图片传递的信息可以在很大程度上影响用户的购买判断。
当图片成为抢夺消费者注意力最直接的手段,很商家把商品主图和呈现文字做得异常夸张,就像电线杆上的“牛皮藓”广告。
为了改善淘宝的商品呈现,“图像把脉团队”上线治理“牛皮癣”的专项技术,判断商品图片中的文字以及整体图片是否违规。
对图片的识别、判定的意义并不只是是否美观和夸张。更重要的是,通过对商品发布图片的审核,可以及时发现销售假货侵权产品的商家。
今年 2 月 2 日,身在重庆的永攀在药店买口罩时,发现线下要点的口罩已经被抢购一空。永攀很快意识到,大量口罩购买需求涌入线上,很多不法商家也可能会趁机混水摸鱼。
与此同时,淘宝、天猫成立了“保卫口罩小分队”,他们的任务就是守住口罩商品上线的关口。
这一天,读光 OCR 团队紧急优化技术,确保有货源的商家能发布商品的同时,让疑似假冒伪劣的商品无法上线。
“由于口罩以前是个小众产品,突然爆发的需求和商品发布量,让图片扫描以及识别的工作量非常大。”永攀回忆说,这一仗把能调用的全部服务器都用上了。有了每天检测数亿张图片的磨砺,读光 OCR 在口罩保卫战这一役圆满的完成了任务。
在阿里安全图灵实验室负责人薛晖看来,读光 OCR 技术在知识产权保护领域的应用,不仅可以对商品发布进行检测,配合其他技术的应用,还能对制售假分子予以限制。
一名曾因店铺售假被淘宝关店,为再上淘宝开店,伪造了 8 次假身份,连户籍地址都配套换了 8 次。但每次都被系统识别拦截,无缘再上淘宝的他,终于选择放弃。
从管理到服务的有温度治理
2015 年 9 月 1 日,新广告法开始执行,这为“读光团队”带来了巨大的挑战。
新广告法禁用“最佳”、“最优秀”、“世界级”、“独家”、“史上第一”等多种“极限词”表达。
淘宝的存量商品超过了 15 亿个,每个商品平均有 17 张描述图片,90% 的商品描述都在图片中。由于很多商家并不具备专业知识,根本无法判断自己是否违反了广告法。
很多商家违法了但却不自知,不但面临处罚,还会遭遇恶意索赔团伙的敲诈勒索。
阿里安全在集团内部拉几支团队一起 PK 解决方案,最终“读光团队”接下了这个难题。
永攀回忆说,当时统计发现,淘宝存量商品图多达数百亿张,图片上的文本内容非常复杂,常用字体就有 100 多种,还有一些非常个性艺术创造的字体。此外,图片中经常会有各种透明半透明的背景,识别难度很高。
为了实现高效提速,“读光团队”做出了有别于市面通用的解决方案。
如果说外界当时处理一张主图需要 3 到 5 秒,处理复杂图需要 1 分钟的话,“读光团队”提出的解决方案可将识别图片的平均时间降到 0.25 到 0.3 秒。产品上线后,所有违规图片可以在 24 小时内被处理。
一年之内,“读光团队”将技术能力进化到了实时处理,让商家发布的违规图片根本无法上线。
“当我们的安全技术能力从单纯的管控变成风险服务,可以帮助到那些无意犯错的商家,让违反广告法的图片在没有产生任何影响的情况下就被拦截下线。”永攀说,通过技术打击作恶的坏人,而让无意犯错的商家“少踩坑”,这是“有温度治理”的应有之义。
为数十万盲人修建网络盲道
在数字经济时代,依托人工智能技术的治理模式和经验,不仅在解决商业问题上发挥作用,创造新的商业机遇,在参与社会治理和解决各类社会问题上,提供了更多的想象空间,为社会创造更多新价值。
从 2011 年开始,“读光团队”为视障群体提供文字识别服务。不过,很多盲人朋友反馈依然存在理解障碍和错误的情况。
永攀解释说,淘宝的图片版式包括了广告图、商品图、表格图、图文注解图等,不同页面的阅读方式差异很大,绝不仅是把所有文字从左到右、从上到下阅读一遍这么简单。这就需要研究将文字以合理的顺序进行组织后,为视障人士阅读,帮助他们正常理解。
团队一边与浙江大学、残联合作,共同研究商品图片无法被视力残疾人阅读的问题,一边邀请盲人测试者参与研发。
2019 年,“读光团队”开始研发和落地版式分析和阅读顺序的深度学习技术,盲人商家小峰参加了无障碍工作组的测试,并以团队成员的身份参与到优化读光 OCR 的文本语序识别算法的工作中。
“对普通人来说,新兴互联网技术的发展很多时候发挥着锦上添花的作用,但对盲人而言,具备着雪中送炭的意义,实实在在的帮助我们回归社会、融入社会、参与社会。”小峰感慨。
阿里的追光者:每天为数亿张图片把脉帮数十万盲人“听图”
借助手机旁白功能,视障者用耳朵购物
截至 2019 年,数十万视障人士因为“读光”团队的努力,在淘宝享受着足不出户,购遍全球的互联网新生活。2019 年双 11 期间,淘宝对“盲道”进行升级后,视障人士在实现无障碍购物的基础上,首次可以用手机在双 11 参加游戏互动体验,并得到更多实惠。
在数字时代主动寻找未来的光
2019 年底,阿里达摩院与阿里安全成立联合实验室,读光团队与阿里安全图灵实验室实现了“握手”。
事实上,在日常平台治理的业务中,两个团队早已并肩战斗多年,联合实验室的负责人薛晖与永攀更是老相识了。
阿里的追光者:每天为数亿张图片把脉帮数十万盲人“听图”
永攀(左)与薛晖(右)在阿里
两人同毕业于浙江大学光电系,永攀是薛晖隔壁实验室的师妹,永攀所在的实验室为嫦娥四号探测器提供了的相机光学技术,让嫦娥四号向地球顺利传回世界上第一张近距离拍摄的月背影图像。
在隔壁实验室技术“上了天”的时候,薛晖正在阿里安全死磕 AI 图像识别技术,将其落地应用在线下新零售场景中,两人开玩笑地说这样的场景恰好印证了人工智能“上天入地”的说法。
如今,两人的愿景是让高精尖的视觉技术在更多场景中落地。
“这个联合实验室要在数字化浪潮下,开拓‘AI+ 办公’、‘AI+ 教育’等新模式,为新基建铸就城墙;在技术上要以建设高效、通用、安全的 OCR 系统为抓手,聚焦小样本学习、迁移学习与领域自适应、模型可解释性研究、对抗鲁棒性等课题,探索下一代人工智能技术,为新基建构建安全的技术底座,这也是阿里提出的新一代安全架构的核心理念。”薛晖为团队规划出了大的方向,接下来团队的重点将聚焦在图片、视频治理和办公数智化两个方面。
薛晖说,人们在日常看到的是清朗网络空间,这背后其实是安全算法团队与违法违规图片视频的持续对抗。而 OCR 技术具有非常强的办公属性,如财务票据报销、文件电子化、证件审核等,未来的办公数智化解决方案可以辐射金融、司法、教育、医疗等行业,将人们从机械的、重复性的工作中解脱出来。
“我们想要两条线推进,为 OCR 技术找到对业务、社会真正有价值的新方向。”永攀说,中兴起的非接触式会议和教学已经证明,AI 技术已经改变了传统的内容生成方式。
这也是“合并”赋予读光 OCR 团队的新意义:不仅要读光、追光,更要在数字时代主动寻找未来的光。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
-
在2023年,大众探影以其时尚的设计和出色的性能赢得了众多消费者的青睐。作为一款小型SUV,探影凭借其紧凑的车...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤