[Logo] MyDWBI---致力于打造最专业的中文数据仓库,商务智能社区
  [Groups]首页  [Blog] 博客   [Search] 搜索   [Recent Topics] 最新主题   [Hottest Topics] 热门主题   [Hottest Download] 热门下载   [Members]  会员列表  
[Register] 会员注册 / 
[Login] 登入 
自定义日志  XML
论坛首页 » Informatica
前往:   
发表人 内容
lianyeyu

中级会员

注册时间: 2008-08-29 08:20:13
文章: 29
离线

不知道大家关于日志是怎么解决的?

如如果在抽取过程中发现不合法的数据(当然不合法的依据是客户依据具体业务定的),应该怎么把这些不合法的数据形成日志表?用rounter,合理数据正常抽取,不合理的进日志表?这样工作量会很大。

希望大家能给点建议,我对etl本身一点经验没有,实在苦恼。
lynx286
一失足成千古风流人物!


论坛CEO
[Avatar]

注册时间: 2008-04-22 11:52:00
文章: 652
来自: 四海为家
离线

日志当然要记录的,工作量大也没办法.
根据业务逻辑和需求的复杂程度,一般抽取失败的数据有的只记录主键和失败原因, 有些记录争行数据和失败原因.

唯大英雄能本色,是真名士自风流.
[WWW]
lianyeyu

中级会员

注册时间: 2008-08-29 08:20:13
文章: 29
离线

恩,那一般来说做法是怎么样呢?
自己创建日志表,把需要记录的不合理数据记录插进去么?那是不是每一个业务的需要过滤的部分都要换成router组件,合理的数据正常抽取,不合理的数据进入日志表?这样的解决办法是否合理和正确?希望指教。

另抽取程序运行失败如何去捕获?

另如在抽取的时候源表中有重复姓名的数据,而客户要求目标表中要只抽取一条最新的,这个如果处理?是事先用临时表或类似的方式处理好数据,从处理好的数据进行抽取,还是正常抽取,在PowerCenter中进行处理。如果在PowerCenter中进行处理,如何做可以解决?源表的数据量是千万级。
killandylove

论坛CTO
[Avatar]

注册时间: 2008-04-23 08:51:09
文章: 58
来自: 不透露
离线

lianyeyu wrote:恩,那一般来说做法是怎么样呢?
自己创建日志表,把需要记录的不合理数据记录插进去么?那是不是每一个业务的需要过滤的部分都要换成router组件,合理的数据正常抽取,不合理的数据进入日志表?这样的解决办法是否合理和正确?希望指教。

另抽取程序运行失败如何去捕获?


另如在抽取的时候源表中有重复姓名的数据,而客户要求目标表中要只抽取一条最新的,这个如果处理?是事先用临时表或类似的方式处理好数据,从处理好的数据进行抽取,还是正常抽取,在PowerCenter中进行处理。如果在PowerCenter中进行处理,如何做可以解决?源表的数据量是千万级。


1.是不错的解决思路,而且在实际的工作中往往也是这样做的,因为这样可以更加方便客户追溯错误的数据,提高数据质量,不过最关键是看你判断不合理数据的逻辑,如果是很简单的逻辑,比如字段为空,字段过长,等,也可以采用informatica自带的一种捕捉不合理数据的纪录,“Reject File“

2.抽取程序如果失败,你想捕捉什么信息,如果是错误信息,可以通过session log找到。

3.如果有重复的姓名,又想找出最新的一条,首先你需要知道在源表里面有没有标示这条数据是最新的flag字段,如果没用,你只能通过时间来判断,就需要做聚合操作,建议与处理这种类型,你用临时表也好,用什么都好,然后再进行正常的抽取,千万级的数据量,也是个不小的数字,针对informatica来说,除非你们的server是超好,集群,网格计算。

这篇文章被编辑了 2 次. 最近一次更新是在 2008-10-29 03:51:13


本人中科院高级潜水院院士,诺贝尔长期掉线奖,奥斯卡终身隐身奖!!!
[Email] [WWW] [MSN]
lianyeyu

中级会员

注册时间: 2008-08-29 08:20:13
文章: 29
离线

十分感谢。
看完lynx286和killandylove的回复,我对日志这块终于有点了了解。
那我还想问个问题,日志展现的时候一般怎么做。
是否应该去查询元数据表,我的想法是自己做个视图,能够把workflow的每次运行状态都查询出来,然后在展现的时候就可以把抽取的运行记录列表出来,然后如果用户想看指定workflow运行出错的数据,就用其sessionid和sessionStartTime去自定义的日志表中查询,就可以查询出对应的所有问题数据了。
这样是否可行?当然,这需要存入日志的时候,写入sessionStartTime和指定的sessionId,这样需要制定一个任务运行和sessionId的映射表。
希望给些意见。
 
论坛首页 » Informatica
前往:   

网站地图 |  联系我们 |   |  招聘版主 |  免责声明 |  意见建议 |  系统帮助 | 
Copyright © 2008, mydwbi.com, All Rights Reserved | Powered by JForum 2.1.8 © JForum Team