-
基于K-Means的文本聚类
所属栏目:[资源] 日期:2021-03-10 热度:59
http://blog.csdn.net/freesum/article/details/7376006 何为聚类 ? ? ? ? “聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。”?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?[详细]
-
R在文本挖掘与分析的妙用:分词、画词云
所属栏目:[资源] 日期:2021-03-10 热度:73
副标题#e# 报道大数据企业:大数据产品、大数据方案、 ? 大数据人物 分享大数据干货:大数据书籍、大数据报告、 大数据视频 本文转自蔡捕头的新浪博客。欢迎更多优质原创文章投稿给大数据人:289585305@qq.com 摘要:要分析文本内容,最常见的分析方法是提[详细]
-
10EB量级的基因大数据处理技术
所属栏目:[资源] 日期:2021-03-10 热度:156
Java学习网(www.javalearns.com)提拱 10EB量级的基因大数据处理技术 很荣幸在这里跟大家分享大家以前很少接触到的领域的大数据情况。其实生命科学的大数据还处在比较初始的阶段,否则国家也不会现在才开始提出精准医学这样的概念。所谓精准医学想通过大[详细]
-
数据分析与挖掘学习(一)
所属栏目:[资源] 日期:2021-03-10 热度:94
数据分析与挖掘过程 一. 定义挖掘目标 一般的数据挖掘任务包括: 1. 分类与预测 2. 聚类分析 3. 关联规则 4. 时序模式 5. 偏差检验 6. 智能推荐 二. 数据取样 抽取一个与挖掘目标相关的样本子集,标准是 1. 相关性 2. 可靠性 3. 有效性 而不是选用全部数据[详细]
-
Acdream 1210 Chinese Girls#39; Amusement(大数模板运算 + 找
所属栏目:[资源] 日期:2021-03-10 热度:190
传送门 Chinese Girls’ Amusement Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) Submit Statistic Next Problem Problem Description You must have heard that the Chinese culture is quite different from that[详细]
-
最值得推荐的统计和数据分析好书之一
所属栏目:[资源] 日期:2021-03-10 热度:101
副标题#e# 推荐一本统计和数据分析领域非常受欢迎的书,这书升级版原版评价甚至比第1版更好,中文版最近刚出版。后面的图中给出了豆瓣和知乎对第一版的评价,还有知乎受关注的相关问题的网址。 《R语言实战(第2版)》 R in Action ,Second Edition: Data a[详细]
-
大数加法、减法和乘法
所属栏目:[资源] 日期:2021-03-10 热度:179
加法: #includestdio.h#includestring.h#includestdlib.hchar* add(const char *arr,const char *brr){ int lena=strlen(arr); int lenb=strlen(brr); int maxlen=(lenalenb)?lenb:lena; char* sum=(char*)malloc(maxlen+2); memset(sum,'0',maxlen+1); s[详细]
-
当我们谈大数据分析的时候,我们在谈什么?
所属栏目:[资源] 日期:2021-03-10 热度:61
副标题#e# 数据分析是一个大话题,借这篇笔记整理一下自己的思路:数据分析是什么?涉及到哪些技术?有哪些数据公司玩家?如何定位数据分析的价值?如果选择数据分析作为自己的职业,需要掌握什么样的基本概念?希望帮助对于数据分析有兴趣的同学快速入门![详细]
-
【快讯】R语言在大数据统计分析中的应用及前景
所属栏目:[资源] 日期:2021-03-10 热度:104
2016年6月8日下午,数据观—清华大数据“技术·前沿”系列思享会在清数D-LAB顺利举办。本次活动有幸邀请到美国普度大学统计系教授及清华大学统计学研究中心兼职教授朱宇进行R语言在大数据统计分析中的应用及前景主题分享。 本次讲座分别介绍了统计分析语言[详细]
-
精准测试新玩法の基于犯罪心理学挖掘代码风险
所属栏目:[资源] 日期:2021-03-10 热度:115
副标题#e# 前言 ? 犯罪心理学还能用于挖掘代码风险? 挖掘出来的东西是什么? 挖掘出来的东东长什么样子? 挖掘出来能用来做什么? 具体怎么样挖掘呢? 这是本文的主要探讨的内容. ? 在大型的项目中,代码和模块的复杂度在很大程度上决定了测试任务的时间,?[详细]
-
常用的数据标准化方法
所属栏目:[资源] 日期:2021-03-10 热度:194
数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化,当然,也有一些其他的标准化[详细]
-
BI Intelligence 报告:2016 年 5 大数字化趋势(附下载)
所属栏目:[资源] 日期:2021-03-10 热度:58
副标题#e# C新智元编译?? ? 来 源:Business Insider 译者:闻菲 【新智元导读】Business Insider 网站日前公开了旗下调研团队 BI Intelligence 去年 2 月发布的调查报告,成功预测了消息APP成为新的OS和Bot的崛起。报告还预计物联网是下一场工业革命,将颠[详细]
-
HDU 1212 Big Number(大数取模)
所属栏目:[资源] 日期:2021-03-10 热度:66
Big Number Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 7063????Accepted Submission(s): 4866 Problem Description As we know,Big Number is always troublesome. But it's really imp[详细]
-
R语言:SMOTE - Supersampling Rare Events in R:用R对非平衡数
所属栏目:[资源] 日期:2021-03-10 热度:105
副标题#e# SMOTE - Supersampling Rare Events in R:用R对稀有事件进行超级采样 在这个例子中将用到以下三个包 {DMwR} - Functions and data for the book “Data Mining with R” and SMOTE algorithm:SMOTE算法 {caret} - modeling wrapper,functions,com[详细]
-
寻找第K大数的方法
所属栏目:[资源] 日期:2021-03-10 热度:64
寻找一堆数中第K大的数,第一感觉是排序,然后将排序之后的值取第K个。但是实际上,这种方式最少的时间复杂度是O(nlogn)。有更简单的方式可以实现线性的时间复杂度。 算法总是有穷尽的,而思想无穷尽,而实用算法的本质是用空间去换取时间。 这里的方案是[详细]
-
《hadoop进阶》PeopleRank从社交关系中挖掘价值用户
所属栏目:[资源] 日期:2021-03-08 热度:170
副标题#e# 转载请注明出处: 转载自? Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:PageRank 与 PeopleRank 2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程[详细]
-
XTU 1247 Robb#39;s Problem
所属栏目:[资源] 日期:2021-03-08 热度:140
思路:大数处理,可以用二维数组,也可以用Java的BigInteger来处理。我用的是Java,因为方便、快捷。 AC代码如下: import java.util.*;import java.math.*;public class Main{ final static int MAXN = 1005; public static void main(String args[]){ Sc[详细]
-
基因数据处理38之dbSnpId到omimId的映射表
所属栏目:[资源] 日期:2021-03-08 热度:78
1.下载: 首先收到【2】,来源是【2】 【1】中有描述: You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisim of interest ([详细]
-
基因数据处理50之cs-bwamem、bwa、snap、bwa-mem与art比较
所属栏目:[资源] 日期:2021-03-08 热度:160
副标题#e# 直接看结果: (1)art仿真数据: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ cat G38L100c50Nhs20.aln ##ART_Illumina read_length 100@CM art_illumina -ss HS20 -i GRCH38chr1L3556522.fna -l 100 -c 50 -o G38L100c50Nhs20[详细]
-
基因数据处理45之cloud-scale-bwamem安装(compile.pl安装有问题
所属栏目:[资源] 日期:2021-03-08 热度:84
脚本: hadoop@Master:~/xubo/tools/cloud-scale-bwamem$ cat compile.pl #! /usr/bin/perlsystem "mvn clean package";chdir "./src";system "mvn package -PotherOutputDir";chdir "./main/jni_fpga";system "mvn package -PotherOutputDir";chdir "../a[详细]
-
基因数据处理47之ART基因序列数据生成器(仿真)
所属栏目:[资源] 日期:2021-03-08 热度:72
1.概念: ART基因序列数据生成器 详细请见论文:【1】 和官网【2】 2.下载: ART-bin-GreatSmokyMountains-04.17.16-Linux64.tgz http://www.niehs.nih.gov/research/resources/assets/docs/artbingreatsmokymountains041716linux64tgz.tgz 3.配置 sudo cp[详细]
-
基因数据处理49之cloud-scale-bwamem运行成功
所属栏目:[资源] 日期:2021-03-08 热度:80
副标题#e# 1.先使用art生成数据: 请看前一篇 2.上传fastq到hdfs: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.[详细]
-
基因数据处理48之ART使用实例
所属栏目:[资源] 日期:2021-03-08 热度:166
副标题#e# 相关参数请见上一篇 1.使用实例1: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ art_illumina -ss HS20 -i GRCH38chr1L3556522.fna -l 100 -f 20 -o G38L100F20Nhs20 ====================ART==================== ART_Illumina[详细]
-
求0至大数之间的随机数
所属栏目:[资源] 日期:2021-03-08 热度:166
题目:给定一个String类型的大数(非负整数),不能直接转化为Integer,类似如下要求 The numbers can be arbitrarily large and are non-negative. Converting the input string to integer is?NOT?allowed. You should?NOT?use internal library such as?B[详细]
-
BZOJ 1670 [Usaco2006 Oct]Building the Moat护城河的挖掘
所属栏目:[资源] 日期:2021-03-07 热度:188
Description 为了防止口渴的食蚁兽进入他的农场,Farmer John决定在他的农场周围挖一条护城河。农场里一共有N(8=N=5,000)股泉水,并且,护城河总是笔直地连接在河道上的相邻的两股泉水。护城河必须能保护所有的泉水,也就是说,能包围所有的泉水。泉水一定[详细]

浙公网安备 33038102330477号