需求分析
同事提出抓取亚马逊商品评论的需求,涉及 amazon.com
, amazon.co.uk
, amazon.fr
, amazon.de
多个国家。
单评论时间的数据就有多种写法,如下所示:
- 评论于 2022年8月3日 在美国 us 发布
- Reviewed in the United States on April 11, 2021
- Reviewed in the United Kingdom on 27 March 2022
- Rezension aus Deutschland vom 17. April 2020
- Commenté en France FR le 27 août 2021
发现整理日期格式添加的规则越来越多,有没有一劳永逸的方法呢?
网上发现python的 dateparser
模块可以专门解决此问题。
安装 dateparser 模块
- 使用
pip install dateparser
命令安装 - 添加
dateparser
到 项目的requirements.txt
文件中,使用命令pip install -r requirements.txt
安装
如系统中安装了多个版本的python解释器,pip install
命令请替换为 python -m pip install
解析日期时间字符串
py脚本文件示例:
import dateparser
time_text = "27 août 2021"
# 解析为 datetime.datetime 格式
time_parse = dateparser.parse(time_text)
# 解析为UNIX时间戳
print(time_parse.timestamp())
# 解析为 datetime.date 格式
print(time_parse.date())
python交互模式示例:
>>> import dateparser
>>> dateparser.parse("27 août 2021")
datetime.datetime(2021, 8, 27, 0, 0)
>>> dateparser.parse("April 11, 2021")
datetime.datetime(2021, 4, 11, 0, 0)
>>> dateparser.parse("2009年8月7日")
datetime.datetime(2009, 8, 7, 0, 0)
>>> dateparser.parse("2009年8月7日").date()
datetime.date(2009, 8, 7)
>>> dateparser.parse("2009年8月7日").timestamp()
1249574400.0
https://stackoverflow.com/questions/26294333/parse-french-date-in-python