沙滩星空的博客沙滩星空的博客

python爬虫解析多国语言的日期时间格式

需求分析

同事提出抓取亚马逊商品评论的需求,涉及 amazon.com, amazon.co.uk, amazon.fr, amazon.de 多个国家。

单评论时间的数据就有多种写法,如下所示:

  • 评论于 2022年8月3日 在美国 us 发布
  • Reviewed in the United States on April 11, 2021
  • Reviewed in the United Kingdom on 27 March 2022
  • Rezension aus Deutschland vom 17. April 2020
  • Commenté en France FR le 27 août 2021

发现整理日期格式添加的规则越来越多,有没有一劳永逸的方法呢?
网上发现python的 dateparser 模块可以专门解决此问题。

安装 dateparser 模块

  • 使用 pip install dateparser 命令安装
  • 添加 dateparser 到 项目的 requirements.txt 文件中,使用命令 pip install -r requirements.txt 安装

如系统中安装了多个版本的python解释器,pip install 命令请替换为 python -m pip install

解析日期时间字符串

py脚本文件示例:

import dateparser

time_text = "27 août 2021"
# 解析为 datetime.datetime 格式
time_parse = dateparser.parse(time_text)
# 解析为UNIX时间戳
print(time_parse.timestamp())
# 解析为 datetime.date 格式
print(time_parse.date())

python交互模式示例:

>>> import dateparser
>>> dateparser.parse("27 août 2021")
datetime.datetime(2021, 8, 27, 0, 0)
>>> dateparser.parse("April 11, 2021")
datetime.datetime(2021, 4, 11, 0, 0)
>>> dateparser.parse("2009年8月7日")   
datetime.datetime(2009, 8, 7, 0, 0)
>>> dateparser.parse("2009年8月7日").date()
datetime.date(2009, 8, 7)
>>> dateparser.parse("2009年8月7日").timestamp() 
1249574400.0

https://stackoverflow.com/questions/26294333/parse-french-date-in-python

未经允许不得转载:沙滩星空的博客 » python爬虫解析多国语言的日期时间格式

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址