-
报告一:知识工程与大数据分析
所属栏目:[大数据] 日期:2020-12-31 热度:82
报告一:知识工程与大数据分析 报告人:漆桂林博士,东南大学教授 主要内容:知识工程是人工智能的重要分支之一,知识的获取和基于知识的推理能力是人类高级智能的体现。知识工程涉及到机器学习、知识表示与推理、自然语言处理和数据存储等技术。本报告将介[详细]
-
数据处理之one-hot
所属栏目:[大数据] 日期:2020-12-31 热度:158
分类方法,通常需要把数据的各个属性转换为一个向量表示,这样每条数据的特征就是一个向量,向量上的每个维度就表示了一个特征属性。 但是如果要转换的数据包含了3种属性,比如身高,体重,年龄。A是女,168cm,70kg,30岁;B是男,180cm,90kg,20岁,那么直[详细]
-
米斯特白帽培训讲义 挖掘篇 厂商寻找
所属栏目:[大数据] 日期:2020-12-31 热度:103
米斯特白帽培训讲义 挖掘篇 厂商寻找 讲师:gh0stkey 整理:飞龙 协议:CC BY-NC-SA 4.0 厂商是什么 厂商可以是一个网站(Web 应用),或者一段程序(PC、移动应用)。从白帽子的角度来说,两个都是厂商,都可以挖掘。 基于漏洞平台的寻找 现在国内有三大漏[详细]
-
七牛数据处理再添新兵——图片瘦身
所属栏目:[大数据] 日期:2020-12-31 热度:128
我们现在已经很难想象,图片的出现,竟然只是作为分割文字和缓解疲劳的工具。 随着智能手机的普及,以及像 in、nice 这样以分享图片为主的应用的流行,人们记录生活、分享感悟的方式不再局限于文字,而是逐渐被拍照取代,拍照也不需要那么刻意为之。 无疑,[详细]
-
[bigdata-007] Hortonworks HDF搭建流程
所属栏目:[大数据] 日期:2020-12-31 热度:81
1. hdf docker搭建 1.1 hdf的镜像xemuliam/hdf 镜像链接 https://hub.docker.com/r/xemuliam/hdf/ 下载镜像: docker pull xemuliam/hdf 1.2 创建容器 docker run --name dck-hdf-8080 -p 8080:8080 -d xemuliam/hdf 1.3 进入容器bash交互 docker exec -it d[详细]
-
BI工具选型指标,如何选择好的BI工具
所属栏目:[大数据] 日期:2020-12-31 热度:62
随着信息化的发展,越来越多的企业将商业智能 BI 的部署列入了企业信息化建设的下期目标, BI 市场需求的日益旺盛,也催生了 BI 厂商激烈的市场竞争,带动了国内 BI 工具技术的发展及成熟。 那么作为一个正在或者即将要进行 BI 工具选型的企业,面对百花齐放[详细]
-
如何正确理解商业智能(BI)?
所属栏目:[大数据] 日期:2020-12-31 热度:90
为了让读者更加清晰地把BI与MIS系统区别开来,本文讨论了BI与DSS(决策支持系统)、EIS(经理执行系统)的主要区别。最后,本文分析了制约BI健康发展的若干因素。 引言 ??? 商业智能(BI)是目前在国外企业界和软件开发界受到广泛关注的一个研究方向。可以用[详细]
-
BI选型流程建议
所属栏目:[大数据] 日期:2020-12-31 热度:133
一、成立选型小组 ? ? ? ? 成立选型小组是企业确定进行软件选型所需要做的第一步。选型小组将负责整个软件选型过程的执行。选型小组成员至少包括公司副总以上领导一名、 CIO 一名、业务负责人一名。 二、评估需求 ? ? ? ? 评估需求是指企业成立 BI 选型小组[详细]
-
BI离不了报表
所属栏目:[大数据] 日期:2020-12-31 热度:187
前不久写了一篇文章:报表 ?VS BI ,指出,报表不等于 BI 。这几天碰到一个客户,让我不得不说出另外的一句话,那就是, BI 离不了报表。 ? ? ??演示中,客户的领导发表意见:你们这个还是报表,我们要的不是报表。比如库存,不同的地方的库存标准是不一样的[详细]
-
企业是否真的需要BI?
所属栏目:[大数据] 日期:2020-12-31 热度:190
这是一个发人思考的问题。 BI 对很多人而言或许还是太过高深,换个角度来问比较容易理解:贵公司需要数据分析吗?财务分析、成本分析或者市场分析?贵公司需要好的分析工具来加速分析的速度吗?如果上述的两个答案是肯定的,贵企业是需要 BI 的。 ? 简单地说[详细]
-
logminer挖掘
所属栏目:[大数据] 日期:2020-12-31 热度:129
1.???? Logminer介绍 LogMiner 是Oracle公司从产品8i以后提供的一个实际非常有用的分析工具,使用该工具可以轻松获得Oracle 重做日志文件(归档日志文件)中的具体内容,LogMiner分析工具实际上是由一组PL/SQL包和一些动态视图组成,它作为Oracle数据库的一[详细]
-
[bigdata-029] 在centos 7上安装maria
所属栏目:[大数据] 日期:2020-12-31 热度:136
centos 7以上版本支持mysql的另一个分支maria 安装方式如下 正确安装mariadb http://blog.csdn.net/default7/article/details/39138139 http://blog.csdn.net/default7/article/details/41973887 yum install mariadb* service mariadb.service start system[详细]
-
从小程序的理念,挖掘小程序的方方面面
所属栏目:[大数据] 日期:2020-12-31 热度:121
小程序发布已过去3天,这个微信放的大招让整个互联网圈高潮了一把。目前业界已有各种小程序的分析和预测,也有很多诸如小程序解放了内存、小程序没用的声音。本文挖掘小程序背后表现出的理念,借这些理念阐述我对小程序的看法,适合的应用、与APP的关系等。[详细]
-
[bigdata-030] cdh 5.9的impyla操作hiveserver2
所属栏目:[大数据] 日期:2020-12-31 热度:73
参考文献:http://www.aichengxu.com/view/11094184 1. cdh 5.9 2. 开发机已经安装了impyla pip install thrift_sasl pip install sasl 3. 在cdh集群的一个节点启动hiveserver2 3.1 修改/etc/hive/conf.cloudera.hive/hive-site.xml 增加属性 property ? nam[详细]
-
HDU 2054 判断大数是否相等
所属栏目:[大数据] 日期:2020-12-31 热度:152
原题链接:http://acm.hdu.edu.cn/showproblem.php?pid=2054 题解:这个题不严谨,仅判断后向0就行,而且不用判正负。 代码: #includeiostreamusing namespace std;const int maxn = 100000;void cleanlastzero(char str[]) { int len = strlen(str),digit_[详细]
-
51 Nod 1028 大数乘法 V2 NTT 学习
所属栏目:[大数据] 日期:2020-12-31 热度:58
题意:求两个大数的乘积 解题方法:之前已经用FFT做过了,今天学习一下NTT,记录一下模板。 先所以下NTT,具体的讲解可以看见这里 为了避免FFT在复数和浮点运算中出现精度问题,所以在某些情况下使用NTT。记录一下NTT的模板,其实和FFT很多一样。对了这个具[详细]
-
一份价值百万的大数据分析报告如何炼成?
所属栏目:[大数据] 日期:2020-12-31 热度:148
作者 | 江颖 大数据文摘欢迎各类优质稿件 请联系 tougao@bigdatadigest.cn 序 曾经,咨询公司一份报告就能收取企业几十万、甚至于上百万。而今,矫枉过正,数据分析报告却常常被企业认为没有任何实际价值。我经常和企业交流,他们告诉我,需要的是能够为他带[详细]
-
什么是AI,叫人工智能,和BI,商业智能有什么区别
所属栏目:[大数据] 日期:2020-12-31 热度:163
人工智能(Artificial Intelligence) ,英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是 计算机科学 的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出[详细]
-
如何用大数据实现用户价值的最大化
所属栏目:[大数据] 日期:2020-12-31 热度:140
来源:易观智库 1 大数据中的用户分析 首先,我们为什么要去做用户分析? 面临繁琐的数据之中,需要做什么分析?怎么去提取数据?在建立用户画像模型的过程中,区分用户特征的关键点是什么?应该从哪些方面去寻找用户的特征?其实这个问题扩大化以后需要解决[详细]
-
算法提高 大数加法
所属栏目:[大数据] 日期:2020-12-31 热度:139
问题描述 输入两个正整数a,b,输出a+b的值。 输入格式 两行,第一行a,第二行b。a和b的长度均小于1000位。 输出格式 一行,a+b的值。 样例输入 4 2 样例输出 6 #includestdio.h#includestring.hvoid fun(int n,int sum[]){int temp,i;for(i=0;in;i++){temp=s[详细]
-
[bigdata-031] python3+selenium 做抓取
所属栏目:[大数据] 日期:2020-12-31 热度:59
1. 安装 1.1 pip3 install -U selenium 1.2 下载 https://github.com/mozilla/geckodriver/releases/download/v0.13.0/geckodriver-v0.13.0-linux64.tar.gz? 解压缩,然后放到/usr/bin目录 2. 抓取豆瓣 #!/usr/bin/env python3#!-*- coding:utf-8 -*-import[详细]
-
pyhive 连接 Hive 时错误
所属栏目:[大数据] 日期:2020-12-26 热度:124
一、User: xx is not allowed to impersonate xxx' 解决办法:修改 core-site.xml 文件,加入下面的内容后重启 hadoop 。 property namehadoop.proxyuser.xx.hosts/name value*/value/propertyproperty namehadoop.proxyuser.xx.groups/name value*/value/pr[详细]
-
分布式基础通信协议:paxos、totem 和 gossip(转载)
所属栏目:[大数据] 日期:2020-12-26 热度:147
背景: 在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。 简单即有效——totem协议: totem协议也[详细]
-
Hive 导入 parquet 格式数据
所属栏目:[大数据] 日期:2020-12-26 热度:160
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式 构造建表语句 倒入数据 一、查看 parquet 内容和结构 下载地址 社区工具 GitHub 地址 命令 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parque[详细]
-
Presto 常用配置及操作
所属栏目:[大数据] 日期:2020-12-26 热度:187
一、介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 推荐阅读 Presto实现原理和美团的使用实践 二、安装 2.1[详细]