-
RapidMiner缺失数据处理——去掉数据大量缺失的变量
所属栏目:[大数据] 日期:2021-01-01 热度:162
最近做数据挖掘,发现RapidMiner是一款数据清洗、处理和转换的好工具,尤其在数据量不大的情况下。和R语言相比,RapidMiner在数据处理方面要简单直观得多。虽然RapidMiner的功能可能不如R强大。另外,我们也可以在RapidMiner中可以直接利用Java/Groovy来编写[详细]
-
完整数据团队Tips(关于BI系统、数据仓库、数据挖掘和数据实验的
所属栏目:[大数据] 日期:2021-01-01 热度:60
参考The Strong Data Science Audit: How does your organization's data strategy stack up?一文 分析和仪表盘 使用第三方获取用户行为的工具? 使用Google Analytics、Segment、Heap之类的工具。 有没有明确的用户行为定义,还是说只有PV? 查看PV是了解用[详细]
-
36早报|扎克伯格创造了钢铁侠里的贾维斯 警方用大数据分析抓获18
所属栏目:[大数据] 日期:2021-01-01 热度:173
Hi,早上好,亲爱的小伙伴们,昨天是冬至节,你有吃饺子吗? 都说冬至节不吃饺子耳朵会被冻掉哦~先上一张我小时候吃饺子的照片,有没有满满的既视感→→? 过完了冬至节,马上就要迎来平安夜,圣诞节,元旦节,春节…… 好吧,这似乎和大数据没啥关系?不不[详细]
-
大数据处理分析工具
所属栏目:[大数据] 日期:2021-01-01 热度:61
hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是[详细]
-
bfprt算法,中位数的中位数算法,O(n)时间复杂度求解第k大数
所属栏目:[大数据] 日期:2021-01-01 热度:91
215. Kth Largest Element in an Array 题目地址 https://leetcode.com/problems/kth-largest-element-in-an-array/ 题目描述 Find the kth largest element in an unsorted array. Note that it is the kth largest element in the sorted order,not the kt[详细]
-
棋盘覆盖。大数
所属栏目:[大数据] 日期:2021-01-01 热度:142
棋盘覆盖 时间限制: 3000 ?ms ?|? 内存限制: 65535 ?KB 难度: 3 描述 在一个2 k ×2 k (1=k=100)的棋盘中恰有一方格被覆盖,如图1(k=2时),现用一缺角的2×2方格(图2为其中缺右下角的一个),去覆盖2 k ×2 k 未被覆盖过的方格,求需要类似图2方格总[详细]
-
BI入门经典
所属栏目:[大数据] 日期:2021-01-01 热度:76
【前言】 ?????昨天论坛的SQL Server大版新增了一个BI板块,大家讨论得热火朝天,由于此前因为客户环境的问题,一直在使用sql 2000,没怎么关注这一块的东西,最近刚好要做购物篮的分析,所以到网上搜集了一些资料。为了跟大家保持“步调一致”,也写点或转[详细]
-
为什么说OLAP产品毁了BI?
所属栏目:[大数据] 日期:2021-01-01 热度:115
? ? ? ?企业为了确定经营战略和市场战略所进行的经营活动,在BI项目的分析决策过程中,需要基于多种报告和报表进行分析。理想的市场活动展开,大多需要各个营业点的销售报表,每种商品按季节销售的业绩图表等,这就需要大量准确的并且易于判断的数据。 然而[详细]
-
大道至简的数据处理工具-(Microsoft Power Query入门)
所属栏目:[大数据] 日期:2021-01-01 热度:177
大道至简的数据处理工具-Microsoft Power Query 告别复杂的excel函数,excel VBA编程,让一切回归简单与职能。 什么样的人群适合这样的一个工具: 1、出纳、会计、统计、仓管、数据分析等与数据打交道的的岗位。 2、不想学处理数据的函数、VBA编程等复杂的功[详细]
-
数据处理方式与控制程序方式不同
所属栏目:[大数据] 日期:2021-01-01 热度:189
结构化方法是直接通过程序来处理数据,处理完毕后即可显示处?理结果,在控制程序方式上是按照设计调用或返回程序不能自由导航,?各模块程序之间存在着控制与被控制的关系;面向对象方法将数据与?对应的代码封装成一个整体,原则上其它对象不能直接修改其数据[详细]
-
使用 R 语言挖掘 QQ 群聊天记录
所属栏目:[大数据] 日期:2020-12-31 热度:66
1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir 切换到聊天文件所在目录。 引入包: li[详细]
-
大数据分析相关
所属栏目:[大数据] 日期:2020-12-31 热度:73
类比: 谈谈互联网后端基础设施 www.rowkey.me/blog/2016/08/27/server-basic-tech-stack/ 文件系统: ??? hdfs 数据库: ?? hbase 计算系统: ?? hive sql管理和定时执行平台: ??? 阿里宙斯zeus.(自称调度,并没有资源协调功能,有hive本身完成) 统计分析和展现平[详细]
-
[bigdata-022] hive和impala的对hbase的精细order by操作
所属栏目:[大数据] 日期:2020-12-31 热度:93
1. 要用hive给hbase的表创建一个外部表。不能用impala,因为它在这块有缺陷。 2. 在hive创建一个本地表,注意,一定不要创建在hbase上。 3. 在hive里,执行order by命令,对外部表进行排序,然后将排序结果写入到2创建的hive本地表。这时候,因为order by是[详细]
-
大数据分析当人们谈《鬼吹灯》时,都谈些什么?
所属栏目:[大数据] 日期:2020-12-31 热度:158
文 | 艾漫数据 近日,又一部考古探险题材网剧火热上线,老干部靳东搭档陈乔恩主演的《鬼吹灯之精绝古城》。相比之前同类型作品,这次的改编开播后的口碑可以用“交口称赞”形容,上线两周后好评率达到87%以上。 小编不禁好奇,究竟是什么样的内容,引得观众[详细]
-
分享 :2017年商业智能 BI 发展趋势分析
所属栏目:[大数据] 日期:2020-12-31 热度:190
在展望2017年商业智能 BI 发展趋势前,我们先来了解一下商业智能?BI?发展的几个重要阶段。 传统 BI 和新型 BI 的分水岭(2013年) 大背景 在2013年以前相当长的一个周期(2005年-2013年),市场主要流行的商业智能BI产品以?SAP BO、Oracle BIEE、IBM Cognos?[详细]
-
leetcode 43. Multiply Strings 9大数相差(java实现)
所属栏目:[大数据] 日期:2020-12-31 热度:85
原题: Given two non-negative integers? num1 ?and? num2 ?represented as strings,return the product of? num2 . Note: The length of both? num2 ?is 110. Both? num2 ?contains only digits? 0-9 . Both? num2 ?does not contain any leading zero. Yo[详细]
-
[bigdata-023] pymongo 3.4和mongodb 2.x的安全机制导致的用户认
所属栏目:[大数据] 日期:2020-12-31 热度:128
#!/usr/bin/env python3#! coding:utf-8 -*-import pymongo"""python3.4.0 + mongo 2.4.14"""client = pymongo.MongoClient('114.55.239.66')client.tzdb1.authenticate("tzuser1","user1688",mechanism='MONGODB-CR')db = client["tzdb1"]devsycredit = db[[详细]
-
大数求和问题(C++版本)
所属栏目:[大数据] 日期:2020-12-31 热度:142
大数求和其实是个纯模拟,我们小学2年级老师就我们通过列竖式求加法,从个位开始加,进位+1,唯一需要值得注意的是我们求出来的结果要为有效值,即00001=1,0000=0 #include iostream#include stringusing namespace std;string nAB(string A,string B);strin[详细]
-
[bigdata-024] 在centos 6.5上手工安装mongodb 3.2.5
所属栏目:[大数据] 日期:2020-12-31 热度:178
1. 操作系统 centos 6.5 2. 删除旧版本 kill xxxx yum erase mongodb.x86_64 rm /etc/mongod.conf rm /init/mongo* rm /init.d/mongo* locate mongo 删除全部mongo的相关文件 updatedb -U / 3. 下载mongo http://downloads.mongodb.org/linux/mongodb-linux-[详细]
-
大数幂运算
所属栏目:[大数据] 日期:2020-12-31 热度:153
还是纯模拟,只可意会,不可言传,回到4年级,然后自己体会 #include stdio.h#include string.husing namespace std;#define MAX 40001int s[MAX];int nbit;void Init();void EXP(int nb,int ne);void vout(int x);int main(){ int base,exp; while(~scanf("[详细]
-
使用R语言挖掘QQ群聊天记录
所属栏目:[大数据] 日期:2020-12-31 热度:193
数据挖掘入门与实战 ?公众号: datadw 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir[详细]
-
视音频数据处理入门:PCM音频采样数据处理
所属栏目:[大数据] 日期:2020-12-31 热度:90
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.264视频码流解析 视音频数据处理入门:AAC音频码流解析[详细]
-
[bigdata-018] java spring 快捷入门
所属栏目:[大数据] 日期:2020-12-30 热度:118
1. spring学习,最好的材料是官网 http://sping.io/docs 2.安装jdk 3. 安装tomcat http://blog.csdn.net/zhuying_linux/article/details/6583096/ tomcat 8.5对应的jdk 1.7 把tomcat压缩包放到~/usr/tomcat里 在/etc/profile加上CATALINA_HOME=/home/brian/u[详细]
-
bzoj 3100 K大数查询 树套树
所属栏目:[大数据] 日期:2020-12-30 热度:146
外层权值线段树,对于每个权值线段树节点,建立区间线段树。但是内层这样普通建树会TLEMLE。仔细想会发现,区间线段树不用都建出来,用到哪个点就开哪一个点,每次操作最多经过logn个权值线段树节点,访问每个权值线段树节点时,最多修改logn个区间线段树节[详细]
-
[bigdata-019] 禅道在linux上的安装
所属栏目:[大数据] 日期:2020-12-30 热度:141
1. 在ubuntu 14.04上安装部署禅道 ?? 2. 禅道有多种安装方式。有一键安装包。但如果你已经有了一个mysql数据库,就不能使用一键安装了。本文主要说明在已有mysql数据库下的安装。 3. 官方参考 http://www.zentao.net/book/zentaopmshelp/239.html 4. 下载,[详细]