第十四章 智库扩充

加入书签


基本知识库关系到ai智能助手的成长,要想提升ai智能助手的功能,就必须要先扩充它的核心知识库。

 林重用笔记本一边调试程序,一边在网络上开始收集ai智能助手的核心知识库。网上收集有些资料太零散,效率不高,林重打算另辟蹊径,想起吴勇给的资料中提到家族公司中有一家做电子文库的公司,这个公司的资料库应该能给自己提供不少资料。

 林重第一时间联系了吴勇,让他安排做电子文档的公司为自己提供中国古代文化和近现代文化以及现代科技的电子资料,分类后交给自己,方便自己的筛选录入ai智能助手。

 搞定了资料的收集,林重考虑核心知识库数据的四大类别:文字,图片,模型,动态图像;把需要载入的数据资料进行了归纳;

 首先,ai智能助手的字库词库,中文字库包含了所有简体字和繁体字,然后就是汉语词汇,成语,诗词;还有就是英文词库,毕竟现在英文在网络世界还是占据主流地位,至于其他语言词汇等服务器部署好后再扩充;

 其次,传统文化知识,林重为智能助手载入了网上能收集到的连山易,归葬易,周易的文字和图片资料,还有太极八卦,河图洛书的文字和图片资料;

 再次,中医知识的资料,包括中医经脉穴位的文字和图片,中医导引术文字和图片,以及模型,还有针灸文字和图像资料,中药植物和药材的文字和图片资料,以及包括神农本草经,皇帝内经,伤寒杂病论,千金方,本草纲目在内的所有有文字记载的医学典籍和图片资料;

 第四,中国道教的资料,包括道德经,南华真经,葛玄经,易经,黄庭经,太乙金华宗旨等道教典籍的文字和图案;

 第五,历史资料,包括中国历史和包含其他三大文明古国在内的世界历史;

 第六,就是现代科学技术的基础理论和知识,涉及数学,物理,生物,化学,核能,芯片,量子等科学知识。

 不得不赞叹网络强大和高度互联,通过网络人类可以突破文化传播速度,瞬间传播数千年来的科技文化知识;林重想起网络上有一种被称之为网络爬虫的程序,可以轻易在网络上抓取海量的数据信息,还可以做到有目标的分类抓取数据。看来自己需要借助工具录入资料,然后进行筛选了,纯人工的方式录入效率实在太低了。

 林重在网络上搜索到网络爬虫的代码,按照自己的需求用中文编程重新进行修改编译,给ai智能助手加装了一个触手模块,同时还参照网上搜索到的代码,给ai智能助手加载了一个图片和视频的识别学习功能,配合触手模块,ai智能助手就能在网络上自行查找资料并单独存贮下来。到目前为止,ai智能助手的能够依附网络开始收集资料了。

 吴勇那边也传来了消息,那家公司整理的资料有100多个t,询问要如何处理。林重一听吓了一跳,估计公司那边是把所有的电子资料打包了吧,这个数据也太多了点,自己的笔记本硬盘才4个t,根本塞不进去这么多资料,等实验室服务器开始运转了可以全部录入进去。应该是自己传达的需求有问题,太笼统了,自己也没有想到那家公司收集了这么多资料。

 林重重新向吴勇传达了需求,只需要中文传统文化的资料和现代科学技术的基础理论和知识,包括数学,物理,生物,化学,核能,芯片,量子等科学知识,达到大学知识的深度和范围就可以了;这样应该可以压缩前期的数据大小。

 信息很快有了反馈,第二天上午,吴勇就通过邮箱传来了数据,这次小多了,就两个t的数据资料。资料很详细,而且已经做好了分类,林重直接把这两个t的资料载入了ai智能助手,加上之前自己收集导入的资料,ai智能助手的基本资料库算是完成了。

 借助笔记本显卡的强大计算能力,林重让ai智能助手对基本资料库进行了一次转化学习和消化,不过依然需要连续四十五个小时的数据处理,如果利用实验室的服务器处理的话应该快的多,也只是想想而已,眼下只有笔记本。

 为了解决笔记本高负载运行的散热问题,林重只能把空调调到最低温度,让笔记本慢慢处理资料了。……
    本章未完,请点击下一页继续阅读!

本站网站:www.123shuku.com