lianyeyu wrote:恩,那一般来说做法是怎么样呢? 自己创建日志表,把需要记录的不合理数据记录插进去么?那是不是每一个业务的需要过滤的部分都要换成router组件,合理的数据正常抽取,不合理的数据进入日志表?这样的解决办法是否合理和正确?希望指教。 另抽取程序运行失败如何去捕获? 另如在抽取的时候源表中有重复姓名的数据,而客户要求目标表中要只抽取一条最新的,这个如果处理?是事先用临时表或类似的方式处理好数据,从处理好的数据进行抽取,还是正常抽取,在PowerCenter中进行处理。如果在PowerCenter中进行处理,如何做可以解决?源表的数据量是千万级。
1.是不错的解决思路,而且在实际的工作中往往也是这样做的,因为这样可以更加方便客户追溯错误的数据,提高数据质量,不过最关键是看你判断不合理数据的逻辑,如果是很简单的逻辑,比如字段为空,字段过长,等,也可以采用informatica自带的一种捕捉不合理数据的纪录,“Reject File“ 2.抽取程序如果失败,你想捕捉什么信息,如果是错误信息,可以通过session log找到。 3.如果有重复的姓名,又想找出最新的一条,首先你需要知道在源表里面有没有标示这条数据是最新的flag字段,如果没用,你只能通过时间来判断,就需要做聚合操作,建议与处理这种类型,你用临时表也好,用什么都好,然后再进行正常的抽取,千万级的数据量,也是个不小的数字,针对informatica来说,除非你们的server是超好,集群,网格计算。
这篇文章被编辑了 2 次. 最近一次更新是在 2008-10-29 03:51:13
|