2010年11月15日 星期一

2010年9月27日 星期一

What statistical analysis should I use?


Number of
Dependent
Variables

Nature of
Independent
Variables

Nature of Dependent
Variable(s)

Test(s)

How to
SAS
How to
Stata
How to
SPSS

1

0 IVs
(1 population)

interval & normal

one-sample t-test

SASStataSPSS

ordinal or interval

one-sample median

SASStataSPSS

categorical
(2 categories)

binomial test

SASStataSPSS
categorical

Chi-square goodness-of-fit

SASStataSPSS

1 IV with 2 levels
(independent groups)

interval & normal

2 independent sample t-test

SASStataSPSS

ordinal or interval

Wilcoxon-Mann Whitney testSASStataSPSS

categorical

Chi- square test

SASStataSPSS
Fisher's exact testSASStataSPSS

1 IV with 2 or more levels (independent groups)

interval & normal

one-way ANOVA

SASStataSPSS

ordinal or interval

Kruskal Wallis

SASStataSPSS

categorical

Chi- square test

SASStataSPSS

1 IV with 2 levels
(dependent/matched groups)

interval & normal

paired t-test

SASStataSPSS

ordinal or interval

Wilcoxon signed ranks test

SASStataSPSS

categorical

McNemar

SASStataSPSS

1 IV with 2 or more levels
(dependent/matched groups)

interval & normal

one-way repeated measures ANOVA

SASStataSPSS

ordinal or interval

Friedman test

SASStataSPSS

categorical

repeated measures logistic regression

SASStataSPSS

2 or more IVs
(independent groups)

interval & normal

factorial ANOVA

SASStataSPSS

ordinal or interval

???

?????????

categorical

factorial
logistic regression

SASStataSPSS

1 interval IV

interval & normal

correlation

SASStataSPSS

simple linear regression

SASStataSPSS

ordinal or interval

non-parametric correlation

SASStataSPSS

categorical

simple logistic regression

SASStataSPSS
1 or more interval IVs and/or
1 or more categorical IVs
interval & normal

multiple regression

SASStataSPSS
analysis of covarianceSASStataSPSS

categorical

multiple logistic regression

SASStataSPSS
discriminant analysisSASStataSPSS

2 or more

1 IV with 2 or more levels
(independent groups)

interval & normalone-way MANOVASASStataSPSS

2 or more

2 or more

interval & normal

multivariate multiple linear regression

SASStataSPSS

2 sets of
2 or more

0

interval & normal

canonical correlation

SASStataSPSS

2 or more

0

interval & normal

factor analysis

SASStataSPSS

Number of
Dependent
Variables

Nature of
Independent
Variables

Nature of Dependent
Variable(s)

Test(s)

How to
SAS
How to
Stata
How to
SPSS

2010年8月28日 星期六

Vaio 驅動順序

觸控板驅動下載點
Alps Pointing Driver (適用 64 位元)
http://download.sony-asia.com.edgesuite.net/vaio/downloads/va7u/EP0000164344.EXE

Alps Pointing Driver (適用 32 位元)
http://download.sony-asia.com.edgesuite.net/vaio/downloads/va7u/32Bit/EP0000155579.EXE

Fn熱鍵和mode鍵
SFEP Driver (適用 32 位元)
http://download.sony-asia.com.edgesuite.net/vaio/downloads/va7u/32Bit/EP0000187337.EXE
SFEP Driver (適用 64 位元)
http://download.sony-asia.com.edgesuite.net/vaio/downloads/va7u/EP0000187337.EXE

SONY重要軟體安裝---32位元64位元都適用(依照安裝順序)
1.Sony Shared Library
2.VAIO Power Management
3.ISB Utility(即Battery Checker)
4.Setting Utility Serie
5.VAIO Control Center
http://www.tw.sony-asia.com/support/download/detail.do?searchItemId=&contentId=365387&hasModel=false

2010年7月30日 星期五

[Perl] Perl Quick Reference

Perl Reference Card



[Drug] 3 different biological action of a drug


There are 3 different biological action of a drug assessed in this study:
(1) GI50: inhibition of cell growth (the concentration needed to reduce the growth of treated cells to half that of untreated cells). 細胞 50%生長抑制所需的藥物濃度.

(2) TGI: total growth inhibition (the concentration required to completely halt the growth of treated cells).

(3) LD50: lethal dose, LD50 is the amount of a material, given all at once, which causes the death of 50% (one half) of a group of test animals.
(4) LC50: lethal concentration (the concentration that kills 50% of treated cells), LC values usually refer to the concentration.

Ref: http://cancer.bioinfo.pl/
DTP: GI50, TGI, LC50
Ref: http://dtp.nci.nih.gov/branches/btb/ivclsp.html

Supplement:
IC50 (concentration of 50 % inhibition) : 抑制率50%時候藥物的濃度. 如某一藥物能夠抑制某酵素的活性,當酵素的活性下降一半時,此時所加的藥物濃度即為 IC50.

EC50 (concentration of 50 % Effect) : 半效應濃度
IC50和EC50不同的地方,IC50主要顯示的是藥物的抑制能力,EC50主要顯示的是藥物效果.


2010年7月29日 星期四

[R] 階乘

階乘-factorial: 是所有小於或等於該數的正整數的積。
自然數n的階乘寫作n!

(1) factorial(x)
x! = factorial(x) = 1 * 2 * .. * x = Gamma(1 + x)
lfactorial(x)

(2) The binomial distribution with size = n and prob = p has density
p(x) = choose(n,x) p^x (1-p)^(n-x)

(3) combn

2010年7月28日 星期三

本山語錄

1、幹掉熊貓,我就是國寶!

2、別和我談理想,戒了!

3、跌倒了,爬起來再哭~~~

4、低調!才是最牛B的炫耀!!

5、不吃飽哪有力氣減肥啊?

7、我能抵抗一切,除了誘惑……

8、老子不但有車,還是自行的……

9、點的是煙、抽的卻是寂寞……

10、不是你不笑,一笑粉就掉!

12、綁不住我的心就不要說我花心!

14、活著的時候開心點,因為我們要死很久。

15、請你以後不要在我面前說英文了,OK?

16、我這人從不記仇,一般有仇當場我就報了。

19、我那麼喜歡你,你喜歡我一下會死啊?

20、我又不是人民幣,怎麼能讓人人都喜歡我?

21、男人的話就像老太太的牙齒,有多少是真的?!

22、問:你喜歡我哪一點?答:我喜歡你離我遠一點!

23、執子之手,方知子醜,淚流滿面,子不走我走。

24、諸葛亮出山前,也沒帶過兵!憑啥我就要工作經驗?

27、師太,你是我心中的魔,貧僧離你越近,就離佛越遠……

28、初中的體育老師說:誰敢再穿裙子上我的課,就罰她倒立。

29、你看得見我打在螢幕上的字,卻看不到我掉在鍵盤上的淚!

30、自己選擇45° 仰視別人,就休怪他人135°俯視著看你。

31、如果你看到面前的陰影,別怕,那是因為你的背後有陽光!

32、我允許你走進我的世界,但絕不允許你在我的世界裏走來走去。

33、人永遠不知道誰哪次不經意的跟你說了再見之後就真的再也不見了。

34、一分鐘有多長?這要看你是蹲在廁所裏面,還是等在廁所外面……

35、愛,就大聲說出來,因為你永遠都不會知道,明天和意外,哪個會先來!

36、石頭記告訴我們:凡是真心愛的最後都散了,凡是混搭的最後都團圓了。

37、你永遠看不到我最寂寞的時候,因為在看不到你的時候就是我最寂寞的時候!

38、等餘震的心情,就像初戀的少女等情人,既怕他不來,又怕他亂來。

39、聽說女人如衣服,兄弟如手足,回想起來,我竟然七手八腳地裸奔了二十多年!

40、今天心情不好,我只有四句話想說,包括這句和前面的兩句,我的話說完了!

41、鐵飯碗的真實含義不是在一個地方吃一輩子飯,而是一輩子到哪兒都有飯吃。


43、如果中了一千萬,我就去買30套房子租給別人,每天都去收一次房租。哇哢哢~~充實!


45、"戀"是個很強悍的字。它的上半部取自“變態"的“變",下半部取自“變態"的“態"。


49、同志們:別炒股,風險太大了,還是做豆腐最安全!做硬了是豆腐乾,做稀了是豆腐腦,做薄了是豆腐皮,做沒了是豆漿,放臭了是臭豆腐!穩賺不虧呀!

2010年7月16日 星期五

[R]圖形配置

#heatmap(output, scale="none", col=grcol, zlim=range(c(-1,1)))
加上 zlim=range(c(-1,1)) 可以固定色帶範圍

待續...
png( paste( paste("u133_Normaldrug_", eachname[i], sep=""), ".png" ,sep="") , width=4800, height=4800, res=288, pointsize=9)

par(mfcol=c(1,2), mfg=c(1,1), mai=rep(0,4), omi=rep(0,4), fig=c(0,1,0,1))
heatmap(GroupData, scale="none", col = c("green","black","red"))
par(mfcol=c(1,2), mfg=c(1,2), mai=rep(0,4), fig=c(0,1,0,1), omi=rep(0,4))
plot(0,0, type="n", xlim=c(0,100), ylim=c(0,100), xaxs="i", yaxs="i", axes=F, ann=F,
frame.plot=F) # xaxs="r" 留坐標軸邊, "i" 不留
legend(0, 90, paste("Group-", eachname[i], sep="") , bty="n")
dev.off();

2010年7月12日 星期一

[R]基本運算

本篇是因,忘了如何用R取餘數所產生的:

冪運算 ^
整數商 %/%
餘數 %%


sqrt : 開平方函數
abs : 絕對值函數
exp : 2.71828…
expm1 : 當x的絕對值比1小很多的時候,它將能更加正確的計算exp(x)-1
log : 對數函數
log10: 對數(底為10)函數
log2 : 對數(底為2)函數
sin ->正弦函數
cos ->餘弦函數
tan ->正切函數
asin ->反正弦函數
acos ->反餘弦函數
atan ->反正切函數
sinh ->超越正弦函數
cosh ->超越餘弦函數
tanh ->超越正切函數
asinh ->反超越正弦函數
acosh ->反超越餘弦函數
atanh ->反超越正切函數
logb : 和log函數一樣
llog1px : 當x的絕對值比1小很多的時候,它將能更加正確的計算log(1+x)
gamma : Γ函數(伽瑪函數)
lgamma : 等同於log(gamma(x))
ceiling : 返回大於或等於所給數字表達式的最小整數
floor : 返回小於或等於所給數字表達式的最大整數
trunc : 截取整數部分
round : 四捨五入
signif(x,a) : 數據截取函數x:有效位a:到a位為止

環境設置函數options()
用options()命令可以設置一些環境變量。
比如說:
options(digits=10) 這個命令,可以把R的整數表示能力設為10位。
options(warn=-1)
這個命令,可以忽視任何警告。(warn=1時,為不放過任何警告)

如何改變工作目錄
可以用getwd()命令來查看當前目錄,也可以用類似setwd(”c:/usr”)的命令來更改當前的目錄。
還可以用dir()命令來查看當前目錄裡的文件。

2010年7月8日 星期四

[SQL]新增欄位資料

合併兩欄資料
SELECT CONCAT(StrA, '-', EndA) FROM urgan

將CONCAT資料 新增到欄位中
ALTER TABLE table_name
ADD column_name datatype

UPDAT table_name
set column_name = CONCAT(StrA, '-', EndA)
Ref: http://webdesign.kerthis.com/sql/

2010年7月2日 星期五

[SQL]交集Intersection

Q: Table1 和 Table2 的交集
SELECT t1.Chen FROM `sixtable` As t1, `sixtable` As t2 WHERE t1.Chen = t2.ChenSL1

Q: Table1, Table2和 Table3 的交集
SELECT t1.Chen FROM `sixtable` As t1, `sixtable` As t2 ,`sixtable` As t3 WHERE t1.Chen = t2.ChenSL1 and t1.Chen = t3.ChenSL2

以此類推...

[PHP]檔案太大無法匯入phpMyAdmin

(1) 修改php.ini法:
打開php.ini後,修改以下幾行:
max_execution_time = 600 (這裡可用預設或自行修改)
max_input_time = 600 (這裡可用預設或自行修改)
memory_limit = 128M (這裡可用預設或自行修改)
post_max_size = 72M (改成希望可上傳的容量)
upload_max_filesize = 64M (改成改成希望可上傳的容量)
重點是:
這三個數值的大小,必須是 memory_limit > post_max_size > upload_max_filesize
修改後存檔,重新 restart Apache,即可進入phpmyadmin的介面上傳大資料檔了!

(2)使用BigDump這個第三方服務來協助匯入超大檔案
修改bigdump.php
$db_server = ‘MySql所在位置的主機IP‘ ;
$db_name = ‘資料庫名稱’;
$db_username = ‘該資料庫的owner帳號名稱’;
$db_password = ‘owner的密碼’;
$linespersession = 3000; #(每次寫入的資料數量,內定值是3000筆)
$delaypersession = 0; #(每次寫入資料的間隔時間,預設為0也就是無間隔,若你擔心主機負荷過重出現問題,則可以自訂間隔時間,例如1秒就是1000,5秒就是5000)
$db_connection_charset = "; #(指定資料庫的編碼方式,若不輸入則使用系統預設,以大部分WP的用戶來說,都是使用utf-8)

(3)修改phpMyAdmin資料夾中的config.inc.php檔
打開後找到下列兩行或自行加入:
$cfg['UploadDir'] = 'ImportSQLFile'; ←上傳資料夾的名稱
$cfg['SaveDir'] = 'ExportSQLFile'; ←匯出資料夾的名稱
然後在phpmyadmin中建立ImportSQLFile與ExportSQLFile資料夾,
一個用來上傳大容量的sql檔,一個用來匯出sql檔。
把需要匯入的大容量sql檔以winscp上傳到ImportSQLFile資料夾中,
再回到phpmyadmin載入介面,就會發現在載入檔案的地方多出web server upload directory的功能。此時僅需要選擇剛剛傳進去的SQL檔就可以輕鬆匯入了!

2010年7月1日 星期四

[NGS] Genome Analyzer (Solexa)

Technology Overview:

1.將碎裂後的DNA的片段(~250bp),兩端接上 adapter

2.調整濃度後,倒在表面接有OLIGO的載體上,DNA片段會隨機的黏附載體上,如果濃度得宜,一條一條的DNA會自然的分散固定在載體上

3.因DNA可以自由彎曲,所以就由固定的一端,四處碰撞直到另一端有黏到週邊的OLIGO上。

4.接下來進行合成,新的DNA會從另一端的OLIGO上合成長出來,而這個新的DNA因為Oligo 的關係,會被固定在載體上

5.Denature 雙股DNA,然後,就由一條變成兩條序列互補的DNA了。

6.幾個循環後,原來單小分子的片段,週圍就會形成一個同一序列,相互分離的叢集,一次解決分子放大及分離的兩個問題

Solexa 的放大流程少了微珠及系列選殖的成本,而目前一片晶片設計有八條載體區,每一區上最多可以生成一千萬個叢集,在數量上也量是各系統之冠。


Workflow:


Ref: http://keck.med.yale.edu/microarrays/solexa/technology.html

2010年6月1日 星期二

Parse some DTP data

#! /usr/bin/perl
open (Input, "$data") || die "$!\n";

while(my $line = )
{
$line =~ s/[\r\n]//g;
if($line =~ /\"/){
$line=~ /(\".*\")/;
$tmpvalue= $1;
$tmpvalue=~ s/\,/\;/g;
$line=~ s /(\".*\")/$value/;
}

my @temp = split (/\,/, $line);
$tmpIDKey = $temp[0]."+".$temp[4];
push @IDKey,$tmpIDKey;
$tmpcellKey = $temp[7].":".$temp[8];
push @cellKey,$tmpcellKey;
$HashNSC{$tmpIDKey}{$tmpcellKey}=$temp[14];
}

# 取唯一Key值
%tmphash =();
my @one_IDKey =();
@one_IDKey = ( map{$tmphash{$_} = 1; ();}@IDKey or keys %tmphash);

# Open NCI60 cell lines reference
# if(exists) or not
# Write output file

2010年5月26日 星期三

Dip Test

此統計量是經由直接比較樣本分配函數(empirical distribution function)與其最接近的具單峰機率之分配函數間的差距,所得到的一個非參數檢定統計量,它的優點之一是其不須要倚賴非參數曲線估計,但是,它跟其他檢定峰數的非參數統計量有同樣的困難,就是不易以它建造一個具有準確水準的檢定。其難處在於如何對此統計量之值刻度 (亦即決定判斷點(critical point) 的問題)。因為虛無假設下之所有單峰分配的集合構成一無限維度的函數空間。

[R] 先安裝diptest package
載入library: library("diptest")
dip(x, full.result = FALSE, debug = FALSE)

Ref:
1. The Dip test of unimodality, by Hartigan (1985)
Ann. Statist. Volume 13, Number 1 (1985), 70-84
2. Package ‘diptest’ (2009)
http://cran.r-project.org/web/packages/diptest/diptest.pdf
3.鄭明燕-檢定機率密度函數峰數的非參數方法
http://nr.stpi.org.tw/ejournal/natscinews/v12n3/97-98.pdf

2010年5月12日 星期三

杜月笙語錄

句句反映處世之道

1.不要怕被別人利用,人家利用你說明你還有用

2.吃是實功,賭是對沖,嫖是落空

3.花一文錢要收到十文錢的效果,這才是花錢能手

4.做事要做到刀切豆腐兩面光

5.做人有三碗面最難吃: 人面 場面 情面

6.對人必須誠懇,即使有人欺瞞我于一時,我總能以誠字來感動他,使他心 悅誠服。我的處世之道,盡在一個誠字,你們舉一反三,方始可以談交友

7.杜先生還曾經對一個有文化的朋友說過:你原來是一條鯉魚,修行了500年跳 了龍門變成龍了,而我呢原來是條泥鰍,先修煉了1000年變成了鯉魚;然後在修煉500年才跳 了龍門,倘若我們倆一起失敗那你還是一條鯉魚而我可就變成泥鰍拉你說我做事情怎麽能不謹慎呢?

8.頭等人,有本事,沒脾氣; 二等人,有本事,有脾氣; 末等人,沒本事,大脾氣。

9.杜月笙有句挂在嘴上的話:小心得天下,大意失荊州

10.人活在世上要靠兩樣東西,膽識和智慧

11.錦上添花的事情讓別人去做,我只做雪中 送炭的事情。

12.錢財用的完,交情吃不光。所以別人存錢,我存交情。存錢再多不過金山 銀海,交情用起來好比天地難量!

13.每月存款折上多幾個零不算你有多少錢,花出去多少錢才算你有多少錢。

14.前半夜想想自己,後半夜想想別人

15.君子我不怕,毛賊我不惹!

16.事不要做絕,要留有餘地!(凡事太盡,緣必早盡)

2010年5月5日 星期三

[R]增進R執行速度

1. 避免讓 R 自動增加向量長度
如果可以先將變數給定長度大小,如x<-numeric(lengtj(1000))
的執行速度會比x<-numeric()來的快
2. 使用向量運算取代迴圈計算
i<-1:10000
x<-cos(i)
會比
for(i in 1:10000) {
x[i] <- cos(i)}
來的快

2010年4月29日 星期四

[Stat] What is "BLUE"

BLUE = Best Linear Unbiased Estimator
在簡單線性迴歸中,根據高斯-馬可夫定理 (Gauss-Markov Theorem)
只要殘差符合以下的假設,我們使用一般最小平方法來估計Beta時,
就可以得到具有~最佳線性不偏估計量(BLUE)的性質.

迴歸模型的殘差 (residual) 必需符合以下的性質 (古典迴歸的假設)
1. 殘差期望值為零 (zero mean) : E(u) = 0
2. 殘差具同質變異 (homoskedasticity) : var(u) = σ^2,σ^2為constant
3. 殘差無自我相關 (non-autocorrelation) : cov(ut, ut-s) = 0, for s ≠0
4. 自變數與殘差無相關 (orthogonality) : cov(x, u) = 0, for any i
* 文獻上亦將符合以上要求之殘差稱為獨立相同分配(iid)殘差
5. 殘差為常態性 (normality)
* 如果簡單線性迴歸殘差亦符合以上第 (5) 個假設,則 OLS 所得到之估計式也將具有常態分配的性質,不過只要樣本數夠大,OLS 所得到估計式之分配將可漸進為常態分配。所以其重要性在樣本數多的時候就相對較不重要。

使用 OLS 估計時BLUE 性質的重要性:
殘差若不符合高斯-馬可夫定理的要求,則我們用 OLS 所估得之係數,就不一定會具有 BLUE 的性質。根據沒有BLUE 性質的迴歸係數進行統計決策或推論,在實務應用上會有較高的錯誤機率。

所以正確的步驟應該為:
使用 OLS 進行估計時,應該先檢查殘差是否符合高斯-馬可夫定理對迴歸殘差的假設要求,通過符合假設之檢定後,再對迴歸係數進行統計推論才是正確的迴歸分析步驟。

*殘差具同質變異 (homoskedasticity)及自變數與殘差無相關(orthogonality) (假設(2)及假設(4))
a. 變異數不同質之原因,來自殘差與自變數相關,又可稱為比例異質性 (proportional heteroskedasticity) –常用White’s test
b. 變異數不同質之原因,來自變異數和殘差落後期平方相關,又稱為自我相關異質變異 (Autoregressive Conditional Heterorscedasticity, ARCH) –常用ARCH-LM 檢定及Q 平方檢定
*殘差無自我相關 (non-autocorrelation) (假設(3))
殘差間是否存在自我相關的性質 –常用Q 檢定進行檢定
*殘差之期望值是否為零 (zero mean) (假設(1))
由於使用OLS 估計之殘差大多很接近


新增圖片

[R] Distribution Probability

Some function can use in (Normal, T, Uniform, F, Chi-Squared...Distribution)
ex: Normal distribution,
dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)
#p <- quantiles, and gives probabilities
pnorm(c(1.645,1.96,3.1))
>[1] 0.9500151 0.9750021 0.9990324

#q <- probabilities, and gives quantiles
qnorm(c(0.95,0.975,0.999))
>[1] 1.644854 1.959964 3.090232

#d <- number, and gives the density
x<-seq(-3,3,0.01)
plot(c(1:length(x)),dnorm(x))
#r <- generates random deviates
x<-rnorm(1000)
mean(x) # ~0
sd(x) # ~1

Nice Graph- explain simple regression estimate


Show the true regression line and the random error term
ε is assumed to follow the normal distribution with
a mean of 0 and variance of σ square

2010年4月22日 星期四

Scientist: Four golden lessons

1. I must start doing research, and pick up what I needed to know as I went along.
2. Go for the messes — that's where the action is.
3. Forgive yourself for wasting time.
4. Learn something about the history of science, or at a minimum the history of your own branch of science.
Ref: http://www.nature.com/nature/journal/v426/n6965/full/426389a.html