开源智能-XPress开源智能软件平台XPress项目汇报.ppt

上传人:wuy****n92 文档编号:87578305 上传时间:2023-04-16 格式:PPT 页数:20 大小:275KB
返回 下载 相关 举报
开源智能-XPress开源智能软件平台XPress项目汇报.ppt_第1页
第1页 / 共20页
开源智能-XPress开源智能软件平台XPress项目汇报.ppt_第2页
第2页 / 共20页
点击查看更多>>
资源描述

《开源智能-XPress开源智能软件平台XPress项目汇报.ppt》由会员分享,可在线阅读,更多相关《开源智能-XPress开源智能软件平台XPress项目汇报.ppt(20页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、开源智能软件平台XPress 项目汇报谢欣2003年12月31日1开源智能-XPress目录n项目概述n系统n匹配算法n展望2开源智能-XPress项目概述n名称:“开源智能软件平台”,Xpressn功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。n特点:自动3开源智能-XPressn商业经理:刘菲菲,软工n开发经理:谌贻容,语言所n档案经理:石武光,语言所n项目组长:谢 欣,网络项目概述:团队成员4开源智能-XPress项目概述:商业计划回顾n本项目以宽带网络服务提供商为服务对象n协助其以低廉的价格对现有下载服务进

2、行大规模扩充,快速提高其商业竞争力为目标。n2003年10月23日录音回放:5开源智能-XPress系统介绍n实际使用nhttp:/xpress.3322.org:7001/XPress6开源智能-XPress系统结构图Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口7开源智能-XPress系统重点一:web信息提取n信息提取简介q基于模板(我们的选择)q基于Ontologyq基于规则q基于语法8开源智能-XPress系统重点二:FTP搜索n利用天网文件搜索的技术n爬虫n多线程并行抓取n每个站点一个线程9开源智能-XPress系统重点三:匹配算法n对每个FTP文件匹配所有的软件资源,

3、找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功n不是百分之百正确n为什么不用MD5q在现实实施中不可能q文件大小往往不同q增加匹配成功度:语言版本,版本号n算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件q在名称上具有一定的相似度q文件大小相差不大Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口10开源智能-XPress匹配算法一:石氏(石午光)算法n名称文件大小,各占一定百分比n文件大小q二者大小之差的百分比反比于比较结果n名称q假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容q实际做法:前几个字符所占比重较大,越在后面的字

4、符所占比重越小11开源智能-XPress匹配算法二:刘氏(刘菲菲)算法n前提假设:很多软件同时有中英文名n特点:中英文分别匹配,最大子串n步骤1.过滤掉文件大小之差大于阀值的匹配2.然后进行名称文件大小的匹配3.对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串4.若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重5.比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值12开源智能-XPress匹配结果从从web页面得到的文件名面得到的文件名从从FTP得到的文件名得到的文件名从从web得得到的文件到的文件大小大小从从FTP得得到的文件

5、到的文件大小大小 cuteftp 5.0.1.0 汉化修正版cuteftp5.0.1.rar17305601729565 二十五史全文检索阅读系统(完整版)3.0二十五史全文检索阅读系统 v3.0-25sBook30.exe1031065610311417 winrar 3.20 简体中文版 WINRAR320CN.exe974848988031 picturetotv 1.4.4 汉化补丁HB_PictureToTV_szl.exe12318721232567 腾讯qq 2003 木子版 1.1QQ2003 Preview4 木子版 1.0.exe65075206507728 腾讯qq自动发

6、消息专杀工具qqav 3.3qqav311021.zip486400488208 腾讯qq自动发消息专杀工具qqav 3.3qqav.exe486400516608 金山巨无霸(sobig)专杀工具 2003.8.20.11Duba_Sobig.exe4505644032 internet设置工具-ieprosetup 1.2.2 简体版IEProSetup1.1.zip272384257926 qq狙击手ipsniper 3.2IpSniper.zip12206081215545 天网 maze 网络文件系统 1.02 betaMaze-1.02-win.exe286924828696051

7、3开源智能-XPress实际测试n实际查询nhttp:/xpress.3322.org:7001/XPressqLeapftpq网络蚂蚁qMazeq友情强档14开源智能-XPress展望:质n提高匹配的准确程度n不同的单词应该有不同的权重,比如:q“photoshop”之类的词权重应比较高(区分性较强)q“windows”,“system”之类的权重应比较低q“中文版”,“build”之类的权重应非常低n不手工建立词典,采用分布均匀性公式15开源智能-XPress展望:质(续)n对每一个可能的词进行计算n北大计算语言所张化瑞的计算公式n计算词频的分布均匀性(Distributed Consis

8、tency,DC)n分布均匀度越高,该词的权重越低16开源智能-XPress展望:量n增加从web上进行信息提取的来源数量n自动发现软件站点q利用我们的软件信息库和现有的搜索引擎n自动提取此类网站的模板q提取出网站中大量相似页面中的不同内容n自动更新软件信息q基本于软件网站同步更新17开源智能-XPress各位员工好,这是我们开源智能跨国公司这个月的财政收入ft!我怎么只有180万!哇,钱不少嘛,不过其实我不爱钱可是钱爱我商业展望:2008年7月开源智能跨国公司的一次月度财政会议18开源智能-XPress谢谢观赏19开源智能-XPressOntologynA computational ent

9、ity,a resource containing knowledge about what“concepts”exist in the world and how they relate to one anothernComponentsqConceptsnDomain dependentqContext freeqContext sensitivenDomain independentqContext freeqContext sensitiveqRelationship(relational schema between the concepts)qConstraintsCar-obje

10、ct;Car 0:1 has Make 1:*;Make matches 10 constant extract baudib;end;Car 0:1 has Model 1:*;Model matches 25 constant extract 80;context baudiS*s*80b;end;Car 0:1 has Mileage 1:*;Mileage matches 8 constant extract b1-9d0,2k;substitute kK-000;end;Car 0:1 has Price 1:*;Price matches 8 constant extract 1-9d3,6;context$1-9d3,6;end;20开源智能-XPress

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com