Think Space

LCL's Blog

My Links

Blog Stats

News

2006年8月23日 #

Thinkpad为什么是Thinkpad

最近总看到有人使用一些乱七八糟,花里呼哨的笔记本,很是痛心,特总结Thinkpad几处优点。此文是自说自话,你要不同意,我也不会改,你就飘过~~
1、风扇声音小,在晚上如果不是到深夜你就没机会听到风扇的声音;
2、键盘手托热量小,我觉得这是最关键的地方,尤其是现在的高温季节,Thinkpad开机运行一天下来只有微热感觉;
3、系统指示灯的颜色,不知道大家注意到没有Thinkpad是淡绿色的指示灯,你在看看其他品牌的指示灯,比如Dell D410是使用蓝色的亮而且刺眼睛;
4、黑色的机身,不是说黑色是IBM传统或者不易磨损之类,而是实际使用的时候的感觉就是这是为工作需要设计的,让你时刻能全心关注于屏幕;
5、丰富的随机软件,尤其是Access Connection这款小软件,可以定义多个网络设置,对于经常拿着笔记本跑的人就太合适了;
6、屏幕的金属轴,很多笔记本使用时间长了后屏幕轴特别松,结果没法支撑屏幕;
7、键盘舒适度,这个是对Thinkpad好评最多的地方,但是实话实说R系列和T系列的键盘还是有差距的,但是还是比DELL之流好的多的多;
8、ThinkLight键盘灯,深夜不用开灯,环保又不扰民。
总结结果就是Thinkpad是专业的给你用来工作工具。

posted @ 2006-08-23 23:15 lcl 阅读(373) 评论(0) 编辑

2006年3月23日 #

转:Oracle EBS借贷关系

摘要: Oracle ERP系统借贷关系表 阅读全文

posted @ 2006-03-23 13:47 lcl 阅读(826) 评论(0) 编辑

2006年3月15日 #

Blog工具:Zoundry blog writer and GreatNews RSS reader

donews 推荐了一款离线Blog写作工具:Zoundry blog writer  软件显示支持Wordpress/MSN Space/Blogger等共11种常用的Blog服务或软件。
软件的可以从Zoundry官方站点www.zoundry.com 下载,当前最新版本是Ver 0.9 beta。经过测试对Wordpress的 支持较好如my.downs.com,而MSN Space始终没有测试通过,估计和 MSN Space最近做过更新有关系。
Zoundry一些资料:

GreatNews的作者称呼其为Intelligent,至少其在内存管理上比现在大多数的Rss Reader要聪明,在加载了近万条RSS新闻后其内存占用只有12M——比一个IE窗口都要省内存。内存占用过大是现在功能教全的RSS Reader的通病,可见作者是个程序控制的好手所以整个程序表现的非常稳定。

其他优点:

 

posted @ 2006-03-15 21:51 lcl 阅读(260) 评论(0) 编辑

2006年2月14日 #

中文分词的应用——网站热点分析

摘要: 在进行中文分词的分析中对网络中网页进行关键词分类时,意外发现可以使用此方式统计网络的热点词汇并且可以延生出各种相关应用。阅读全文

posted @ 2006-02-14 00:26 lcl 阅读(2426) 评论(7) 编辑

2006年1月27日 #

中文分词的简要实现

前段时间在摆弄Lucene(Lucene is a high performance, scalable Information Retrieval (IR) library. It lets you add indexing and searching capabilities to your applications.)理所当然的在 Google的带领下进入车东的《在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介》一文,在此文的引导下,了解做Lucene相关中文应用第一步即要实现中文分词——好在前人已经做了几十年的研究、好在有Google和网络。

为何要中文分词:

说到为何要中文分词有必要将中文和英文对比一下,英文中对于有天然的空格区分,而中文中只有短句使用标点符号区分(远古的时候的文章连标点都无)——所以古文有断句一说。中文分词的作用即是在短语中增加人工的空格如“SAP是大型ERP软件分为“SAP 是大型 ERP 软件,目前我们常接触这种技术是MS Office中的Word,在一段文字上做双击操作时会选中一个词而在记事本中同样的操作对于中文只会是一个汉字;同样在金山快译、金山词霸以及各种搜索引擎我们会看到中文分词的作用。目前中文分词还是一个难题——对于需要上下文区别的词以及新词(人名、地名等)很难完美的区分。国际上将同样存在分词问题的韩国、日本和中国并称为CJK(Chinese Japanese Korean),对于CJK这个代称可能包含其他问题,分词只是其中之一。

对于分词更多资料请见:Google资料Google英文资料

其中微软亚洲研究院的李东 张湘辉:汉语分词在中文软件中的广泛应用一文说的比较清晰。

中文分词的简略实现:

Lucene已有先人实现了中文分词功能,但实在是看别人的代码太痛苦,而且越难的事情总是能激起人们的好奇心和虚荣心,所以做了一个劳而无功的决定:自己来丰衣足食——同时乘机把Unicode,GB2312之类的编码弄明白。

先从简单的开始,实现的方式是基于最大匹配词典的中文分词算法,经过测试效果一如意料中的差强人意,如下所示:

来源于新华网首页的新闻(部分):

旧时的中国通多指维护西方利益的外交官和传教士等。

而今在商业领域出现了众多新中国通。以下就是四个新中国通在中国的经历。他们总结在中国做生意的成功经验是:耐心、乐观,对在中国发展有强烈的兴趣。

在华美国人:在中国做生意需亲临

理查德·麦考姆斯2003年开始在中国投资。如今,59岁的麦考姆斯是首席财务师,每年来中国十几次,负责广州一家中美合资的塑料回收公司。他说:你可不能仅靠遥控管理中国公司,要事必躬亲,亲自到现场。

分词结果(部分)*号为分词标记
旧时**中国通*多指*维护*西方*利益**外交***传教***而今**商业*领域*出现**众多**中国通*以下*就是*四个**中国通**中国**经历*他们*总结**中国*做生意**成功*经验**耐心*乐观***中国*发展**强烈**兴趣**华美*国人**中国*做生意**亲临*理查德*麦考***2003**开始**中国*投资*如今*59***麦考****首席*财务**每年**中国*十几**负责*广州*一家*中美*合资**塑料*回收*公司****可不****遥控*管理*中国*公司*要事**躬亲*亲自**现场

但测试可以看到如*麦考***要事**躬亲这样姓名和短语是区分错误的,目前需要改进的地方:

l         对新词的区分:新词对算法而言即是词库中没有的词,对于此类词的区分将会逆向考虑,不在词库的词排除常用字后即为专有名词,这也意味着要对常用“字”进行词性分类如“姆”“斯”只会和其他字结合不单独出现,所以“麦考姆斯”是专业名词。而对于“在”、“和”“了”之类的字可以单独出现。

l         对于基于最大匹配算法的改进:

目前采用的算法是基于左侧的最大匹配算法,即词的匹配是自左向右,如“要事必躬亲”结果先匹配了“要事”。需要结合右侧匹配,但是匹配后的词选择又是一个棘手的算法。

l         对算法速度的提高:

现有算法的瓶颈经过测试在于文章的分句和中英文区分,对于万字的分词约在280毫秒,其中前面提到的原因约占用200毫秒。预计采用的算法将是对文章进行按字符筛选中文、符号、英文。

l         远期计划:目前基于词表匹配的算法是一项基本的分词算法,说明了是对现有汉语的分类。某些文章提到过基于统计的分词,若有时间再作了解。

 

参考资料:

车东:在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介

李东 张湘辉:汉语分词在中文软件中的广泛应用

中文搜索引擎技术揭密:中文分词

SQLET - 开放源码的中文搜索引擎

posted @ 2006-01-27 02:48 lcl 阅读(6576) 评论(6) 编辑

仅列出标题