首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

Python正则表达式提取车牌号

编程知识
2024年08月22日 22:09

在Python中使用正则表达式(Regular Expressions)来提取车牌号是一个常见的任务,尤其是在处理车辆信息或进行图像识别后的文本处理时。中国的车牌号格式多种多样,但通常包含省份简称、英文字母和数字。以下是一个使用Python正则表达式来提取常见中国车牌号(包括新能源车牌)的示例代码。

1.简单代码示例

首先,我们需要导入re模块,这是Python中用于处理正则表达式的标准库。然后,我们可以编写一个函数来匹配并提取车牌号。

import re  
  
def extract_license_plates(text):  
    """  
    从给定的文本中提取车牌号。  
    支持普通车牌(如京A12345)和新能源车牌(如京AD12345F)。  
      
    :param text: 包含车牌号信息的字符串  
    :return: 提取到的车牌号列表  
    """  
    # 定义车牌号的正则表达式  
    # 普通车牌:[省份简称][A-Z][A-Z0-9]{4}[A-Z0-9挂学警港澳]  
    # 新能源车牌:[省份简称][A-DF][A-Z0-9]{5}[DF][A-Z0-9挂学警港澳]  
    plate_pattern = re.compile(r'[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z][A-Z](?:(?:[A-Z0-9]{5}[DF])|(?:[DF][A-Z0-9][A-Z0-9]{4}))[A-Z0-9挂学警港澳]')  
      
    # 查找所有匹配的车牌号  
    plates = plate_pattern.findall(text)  
      
    return plates  
  
# 示例文本  
text = "今天在路上看到了一辆车牌号为京A12345的车和另一辆新能源车牌京AD12345F的车。"  
  
# 调用函数并打印结果  
plates = extract_license_plates(text)  
print("找到的车牌号:", plates)

注意

(1)正则表达式说明:

  • 普通车牌号以省份简称开始,后面跟着一个大写字母,然后是5位数字或字母(最后一位可以是挂、学、警、港、澳等特殊字符)。
  • 新能源车牌在省份简称后有一个特定的字母(A、D、F),然后是5位数字或字母,最后以D或F开头,再跟一个字符(同样可以是挂、学、警、港、澳等特殊字符)。
  • 本示例中简化了省份简称的匹配,直接列出了所有可能的省份简称(如“京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领”),实际应用中可能需要更新或动态生成这部分内容。

(2)性能考虑:

  • 如果需要处理大量的文本数据,考虑正则表达式的优化和性能影响。
  • 正则表达式编写时,尽量保持简洁和精确,避免不必要的回溯和复杂匹配。

(3)实际应用:

  • 在实际应用中,车牌号的格式可能会因地区、时间等因素有所不同,因此正则表达式需要根据实际情况进行调整。
  • 如果车牌号信息来自图像识别结果,可能需要先对识别结果进行预处理(如去除噪点、归一化等),以提高正则表达式的匹配准确率。

2.进阶代码示例

以下是一个更详细的代码示例,它包含了处理多种情况的车牌号提取功能。这个示例中,我将对正则表达式进行微调以更好地匹配普通车牌和新能源车牌,并且会添加一些注释来解释代码的各个部分。此外,我还会在示例文本中增加一些复杂的情况来测试我们的函数。

import re  
  
def extract_license_plates(text):  
    """  
    从给定的文本中提取车牌号。  
    支持普通车牌(如京A12345)和新能源车牌(如京AD12345F)。  
      
    :param text: 包含车牌号信息的字符串  
    :return: 提取到的车牌号列表  
    """  
    # 定义车牌号的正则表达式  
    # 普通车牌:[省份简称][A-Z]([A-Z0-9]{5}[A-Z0-9挂学警港澳])  
    # 新能源车牌:[省份简称][A-DF]([A-Z0-9]{4}[DF][A-Z0-9挂学警港澳])  
    # 注意:这里简化了新能源车牌的正则,因为新能源车牌第二位可能不是字母D或F,但通常后面会有DF组合  
    # 为了更准确地匹配,我们可以将两个模式分开  
    normal_plate_pattern = r'[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领][A-Z][A-Z0-9]{5}[A-Z0-9挂学警港澳]'  
    new_energy_plate_pattern = r'[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领][A-DF][A-Z0-9]{4}[DF][A-Z0-9挂学警港澳]'  
      
    # 合并为一个正则表达式,使用 | 表示“或”  
    plate_pattern = re.compile(f'({normal_plate_pattern})|({new_energy_plate_pattern})')  
      
    # 查找所有匹配的车牌号  
    plates = plate_pattern.findall(text)  
      
    # 由于findall返回的是一个元组的列表,其中每个元组包含一个或多个匹配项(取决于正则表达式中有多少捕获组)  
    # 在这个例子中,我们有两个捕获组,但只关心其中一个有值的情况(即匹配到的是普通车牌还是新能源车牌)  
    # 因此,我们需要从每个元组中提取出实际的车牌号  
    clean_plates = [match[0] if match[0] else match[1] for match in plates]  
      
    return clean_plates  
  
# 示例文本,包含多种车牌号  
text = "今天在路上看到了车牌号为京A12345的燃油车,还有新能源车牌京AD12345F和一辆苏B23456警的警车。"  
  
# 调用函数并打印结果  
plates = extract_license_plates(text)  
print("找到的车牌号:", plates)

注意:

(1)我将新能源车牌的正则表达式进行了调整,以更准确地匹配新能源车牌的常见格式。但请注意,实际中的新能源车牌格式可能更加多样,因此这个正则表达式可能需要进一步调整以适应所有情况。

(2)在处理findall返回的结果时,我使用了列表推导式来遍历所有匹配项,并从每个元组中提取出实际的车牌号。这是因为当正则表达式中有多个捕获组时,findall会返回一个包含元组的列表,每个元组包含与每个捕获组相匹配的文本。在这个例子中,每个元组要么第一个元素有值(匹配到普通车牌),要么第二个元素有值(匹配到新能源车牌),因此我们使用条件表达式来从中提取出车牌号。

(3)示例文本中包含了多种车牌号,包括普通车牌、新能源车牌和特殊车辆(警车)的车牌,以测试函数的健壮性。

From:https://www.cnblogs.com/TS86/p/18374931
本文地址: http://www.shuzixingkong.net/article/1357
0评论
提交 加载更多评论
其他文章 WPF 模拟UWP原生窗口样式——亚克力|云母材质、自定义标题栏样式、原生DWM动画 (附我封装好的类)
先看一下最终效果,左图为使用亚克力材质并添加组合颜色的效果;右图为MicaAlt材质的效果。两者都自定义了标题栏并且最大限度地保留了DWM提供的原生窗口效果(最大化最小化、关闭出现的动画、窗口阴影、拖拽布局器等)。接下来把各部分的实现一个个拆开来讲讲。 一、使用窗口材质特效 先粗略介绍一下目前win
WPF 模拟UWP原生窗口样式——亚克力|云母材质、自定义标题栏样式、原生DWM动画 (附我封装好的类) WPF 模拟UWP原生窗口样式——亚克力|云母材质、自定义标题栏样式、原生DWM动画 (附我封装好的类) WPF 模拟UWP原生窗口样式——亚克力|云母材质、自定义标题栏样式、原生DWM动画 (附我封装好的类)
C# WebSocket Fleck 源码解读
最近在维护公司旧项目,偶然发现使用Fleck实现的WebSocket主动推送功能,(由于前端页面关闭时WebSocket Server中执行了多次OnClose事件回调并且打印了大量的关闭日志,),后来我特地看了源码,这里做一些分享 github: https://github.com/s
C# WebSocket Fleck 源码解读 C# WebSocket Fleck 源码解读 C# WebSocket Fleck 源码解读
JAVA IO流-小白版
I/O流原理 I/O 是 Input / Output 的缩写,I / O 流技术是非常实用的技术,用于处理数据传输。如读/写文件,网络通讯等; Java中对于数据的输入/输出操作以"流(stream)"的方式进行; Java.io 包下提供了各种"流"类和接
为什么重写hashCode一定也要重写equals方法?
这是一个经典的问题,我们先从==开始看起 == "==" 是运算符 如果比较的对象是基本数据类型,则比较的是其存储的值是否相等; 如果比较的是引用数据类型,则比较的是所指向对象的地址值是否相等(是否是同一个对象)。 Person p1 = new Person("123
为什么重写hashCode一定也要重写equals方法?
在VS Code中使用Snippet Craft扩展提高编码效率
Snippet Craft 一个VS Code代码片段管理插件 功能 创建和插入代码片段 在编辑器区域右键菜单中点击插入Snippet,或在代码片段视图中点击条目,则会将代码片段插入到当前激活文档的光标位置。 代码片段编辑 代码片段在左侧栏中,根据创建时的文件内容类型,分组显示代码片段,可编辑已有的
在VS Code中使用Snippet Craft扩展提高编码效率 在VS Code中使用Snippet Craft扩展提高编码效率 在VS Code中使用Snippet Craft扩展提高编码效率
LeetCode300.最长递增子序列
LeetCode300.最长递增子序列 力扣题目链接(opens new window) 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,7] 是数组 [0,3,1,6,2,2,7
除了按值和引用,方法参数的第三种传递方式
参数在方法种具有按“值(by value)”和“引用(by ref)”两种传递方式,这是每个.NET程序员深入骨髓得基本概念。但是我若告诉你,.NET规定的参数传递形式其实是三种,会不会颠覆你的认知。一、官方描述 二、TypedReference结构体 三、三个特殊的方法 四、三种参数传递方式 一、
什么?!90%的ThreadLocal都在滥用或错用!
最近发现系统里面在使用到了 ThreadLocal,乍一看,好像很高级的样子。再仔细一看,完全就是一个 ThreadLocal 滥用的典型案例啊!甚至,日常的业务系统中,90%以上都在滥用或者错用啊
什么?!90%的ThreadLocal都在滥用或错用! 什么?!90%的ThreadLocal都在滥用或错用! 什么?!90%的ThreadLocal都在滥用或错用!