\d
表示匹配任意数字,[a-zA-Z]
表示匹配任意字母,+
表示前面的字符出现一次或多次。这些基础符号组合起来,就能实现复杂的数据清洗任务。^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
。这个表达式会检查邮箱是否以字母、数字或特殊符号开头,中间包含 @
符号,后面跟着域名和至少两位的顶级域名。1(3[0-9]|4[5-9]|5[0-35-9]|6[2567]|7[0-8]|8[0-9]|9[0-35-9])\d{8}
。这个表达式能精准匹配国内所有运营商的手机号码格式。\d+
提取所有连续的数字串,然后根据长度区分不同类型的数据:18 位的是身份证号,16-19 位的是银行卡号,11 位的是手机号。对于开户行信息,可以用 (?<=行).+?(?=市|省)
这样的表达式来提取银行名称。1\d{10}
来匹配 11 位数字,然后用 \s+
替换掉前后的空格。清洗地址时,可以用 [\u4e00-\u9fa5]+
来提取中文地址,再用 \d{6}
匹配邮政编码。(?<=诊断:).+?(?=建议)
这样的表达式来匹配 “诊断:” 和 “建议” 之间的内容。[A-Za-z0-9()]+
来匹配药品的通用名和剂型,再用 \d+(\.\d+)?
提取药品的剂量。(https?://|www\.)[^\s]+
来匹配 URL,然后用 \?.*$
替换掉 URL 中的参数部分。(敏感词1|敏感词2|敏感词3)
这样的表达式来匹配,然后替换为 [敏感内容]
。requests
和 BeautifulSoup
)抓取数据,同时用正则表达式清洗掉 HTML 标签和广告代码。pandas
或 numpy
处理缺失值和重复数据,再用正则表达式清洗文本字段。timeit
)优化匹配速度。Pattern.compile()
方法预编译正则表达式,避免重复编译带来的性能损耗。比如,在处理百万级日志时,预编译可以将匹配时间从 3200ms 缩短到 28ms。?
符号实现非贪婪匹配,避免过度匹配导致的性能问题。比如,.*?
会尽可能少地匹配字符,而 .*
则是贪婪匹配,会尽可能多地匹配。(?:...)
代替 (...)
来创建非捕获组,提高匹配效率。^Error:.+
这样的表达式,并解释其含义。1\d{10}
匹配 11 位数字,再用 \s+
替换掉前后的空格。^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
验证邮箱格式,去除无效邮箱。[\u4e00-\u9fa5]+
提取中文地址,再用 \d{6}
匹配邮政编码,将地址和邮编分开存储。^\s+|\s+$
去除前后空格,再用 [^a-zA-Z0-9\u4e00-\u9fa5]
替换掉特殊符号。import re
# 清洗电话号码
def clean_phone(phone):
return re.sub(r'\s+', '', re.findall(r'1\d{10}', phone)[]) if re.findall(r'1\d{10}', phone) else None
# 清洗邮箱地址
def clean_email(email):
pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
return re.match(pattern, email).group() if re.match(pattern, email) else None
# 清洗地址
def clean_address(address):
chinese_pattern = r'[\u4e00-\u9fa5]+'
zip_pattern = r'\d{6}'
chinese = re.findall(chinese_pattern, address)
zip_code = re.findall(zip_pattern, address)
return {'address': ''.join(chinese), 'zip_code': zip_code[] if zip_code else None}
# 清洗姓名
def clean_name(name):
return re.sub(r'^\s+|\s+', '', re.sub(r'[^a-zA-Z0-9\u4e00-\u9fa5]', '', name))
🔍 工具核心功能解析 腾讯朱雀大模型检测工具是腾讯混元安全团队推出的一款 AI 生成内容检测利器,主要包含文本检测和图像检测两大核心功能。先说文本检测,它通过对海量 AI 生成文本和人类写作内容的学
在自媒体领域,广告阅读单价是衡量内容价值的重要指标,直接关系到创作者的收益。无论是公众号还是头条号,提升广告阅读单价都需要从内容质量、用户互动、平台规则等多个维度入手。下面结合最新平台政策和实战经验,
论文查重率飙到 30% 以上,对研究生来说简直是 “致命打击”。别慌,现在 AI 工具这么给力,用对方法完全能把重复率压下来。但可不是随便扔给 AI 就完事,里面的门道多着呢。📌 先搞懂:查重率
🔍 2025 年论文查重必读 | 免费工具与付费工具的组合使用技巧 写论文的时候,查重绝对是让人头大的环节。既要保证重复率达标,又得避免被 AI 检测出机器痕迹,这可太难了。不过别担心,我这儿有一套
现在做自媒体的新手越来越多,都想靠 AI 爆文生成器走捷径。但说实话,选错工具不仅浪费时间,还可能让账号起不来。我见过太多人刚入行就踩坑,今天就把最常见的三个错误拎出来说说,都是实打实的经验教训。�
? 2025 升级款 Charm AI:多语言文案生成提升 SEO 效果教程 在跨境电商和全球化业务蓬勃发展的当下,多语言内容营销已成为提升 SEO 效果的关键策略。2025 升级款 Charm AI
? 精准分类体系:多领域博客一目了然BlogFinde 和其他平台相比,最大的优势之一就是它那套精准的分类体系。很多平台在博客分类上比较粗放,要么按大行业简单划分,要么干脆让用户自己瞎搜,找起来特别费
? 深度测评:2025 Super Prompt 新版核心升级解析 ? 一、技术突破:递归求解与模式识别的底层逻辑 2025 年发布的 Super Prompt 新版彻底颠覆了传统提示词的设计框架,其