PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统(ORDBMS),是以加州大学计算机系开发的POSTGRES,4.2版本为基础的对象关系型数据库管理系统。POSTGRES的许多领先概念只是在比较迟的时候才出现在商业网站数据库中。PostgreSQL支持大部分的SQL标准并且提供了很多其他现代特性,如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制等。同样,PostgreSQL也可以用许多方法扩展,例如通过增加新的数据类型、函数、操作符、聚集函数、索引方法、过程语言等。另外,因为许可证的灵活,任何人都可以以任何目的免费使用、修改和分发PostgreSQL。
以前抽数据都是从其他数据库抽取到postgres数据库的所以选择kettle。新项目需求里需要把客户给的csv文件数据抽到postgresql,其中还需要对相关字段进行清洗。先声明下kettle也可以实现,但是总感觉依赖第三方软件抽数据不如直接操作数据库,除非逼不得已,尽量不用(纯属个人见解)。于是就研究linux直接连接数据库处理这部分需求。代码如下
#!/bin/bash
#*****************************************************
#**linux_schedule_test
#*****************************************************
#\copytestfrom'/etl-script/test.csv'delimiter','csvheaderencoding'UTF8';
#copytest_copyto'D:\test_copy1.csv'delimiter','csvheaderencoding'GBK';
exportPATH=/usr/pgsql-10/bin:/usr/bin;
psql"host=127.0.0.1port=5434user=adminpassword=123456dbname=linux_schedule_test"<<EOF#2>/dev/null
\copytestfrom'/etl-script/test.csv'delimiter','csvheaderencoding'GBK';
createtabletest$(date+%Y%m%d_%H%m%S)asselect*fromtest;
\q
EOF
exportPATH=/usr/pgsql-10/bin:/usr/bin:因为环境作用域问题,最好在脚本开始处将要用到的命令添加PATH路径。
psql"host=127.0.0.1port=5434user=adminpassword=123456dbname=linux_schedule_test":连接数据库
<<EOF:通过重定向,停留在psql客户端。
#2>/dev/null脚本出错不输出,调试时建议注释掉,不然都不知道脚本为什么没有跑。
\copytestfrom'/etl-script/test.csv'delimiter','csvheaderencoding'GBK';:通过copy命令抽取csv文件数据。
createtabletest$(date+%Y%m%d_%H%m%S)asselect*fromtest;:备份test表数据,测试用的。
\q:退出psql。这个不写也可以最后的EOF也会接受psql客户端的。
EOF:结束重定向。
|