단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교

doi:10.6109/jkiice.2014.18.4.992

OA학술지
Journal of the Korea Institute of Information and Communication Engineering

단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교 A Performance Comparison of Multi-Label Classification Methods for Protein Subcellular Localization Prediction

DOI : 10.6109/jkiice.2014.18.4.992
Publish: Journal of the Korea Institute of Information and Communication Engineering Volume 18, Issue4, p992~999, 30 Apr 2014

ABSTRACT

단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교

This paper presents an extensive experimental comparison of a variety of multi-label learning methods for the accurate prediction of subcellular localization of proteins which simultaneously exist at multiple subcellular locations. We compared several methods from three categories of multi-label classification algorithms: algorithm adaptation, problem transformation, and meta learning. Experimental results are analyzed using 12 multi-label evaluation measures to assess the behavior of the methods from a variety of view-points. We also use a new summarization measure to find the best performing method. Experimental results show that the best performing methods are power-set method pruning a infrequently occurring subsets of labels and classifier chains modeling relevant labels with an additional feature. futhermore, ensembles of many classifiers of these methods enhance the performance further. The recommendation from this study is that the correlation of subcellular locations is an effective clue for classification, this is because the subcellular locations of proteins performing certain biological function are not independent but correlated.

KEYWORD

다중레이블 분류 , 다중레이블 평가 척도 , 다중위치 단백질 , 단백질 세포내 위치

본문

Collapse all

Ⅰ. 서 론

단백질은 생명체내에서 효소, 영양 저장, 호르몬, 운동, 면역, 정보교환, 구조형성 등의 많은 기능을 수행한다. 동물, 식물, 곰팡이와 같은 진핵생물은 세포 내부의 정교한 구획과 세포소기관이 존재하는데, 이들 지역은 서로 다른 생화학적 환경이 생겨 세포내 위치에 따라 특정한 대사 기능을 수행한다. 따라서 단백질의 기능을 알기 위한 기초 지식은 단백질이 존재하는 세포내의 위치를 알아내는 것이다. 단백질의 세포내 위치를 예측하는 많은 연구들은 오직 하나의 세포내 위치에 존재하는 단백질만을 대상으로 하였지만, 여러 세포내 위치에 동시에 존재하는 단백질의 생물학적 기능이 중요하므로, 이를 예측하려는 시도가 커지고 있다[1-8]. 다중 세포내 위치 예측은 하나의 단백질에 대해 세포내 위치를 나타내는 레이블 집합의 부분집합을 예측하는 다중레이블 분류문제이다. 세포내 위치 개수 Q개에 대하여 지수적 조합인 2^Q개의 가능한 예측결과가 존재하므로 기존의 분류 방법으로는 처리하기 어렵다.

다중 세포내 위치 예측에 적용할 수 있는 기계학습방법인 다중레이블 분류 방법은 최근 들어 활발히 연구 되고 있다[9-11]. 이는 이미지, 비디오, 텍스트, 음악, 마케팅, 생물학 분야에서 하나의 입력 자료에 대해 여러 가지 분류에 동시에 속하는 상황이 발생하기 때문이다. 다중레이블 분류 방법을 (1)알고리즘 적응, (2)문제 변환, (3)메타 학습으로 나누어 볼 수 있다[9-11]. 알고리즘 적응 방법은 기존의 단일 분류 알고리즘인 최근접-이웃 분류기, 신경망, 결정 트리, 지지 벡터 기계를 다중레이블에 맞도록 변형한 방법이다. 문제 변환 방법은 다중레이블 분류문제를 다수의 단일레이블 분류문제로 변환한 후에 단일레이블 분류 알고리즘을 적용하는 방법이다. 메타 학습 방법은 알고리즘 적응방법이나 문제 변환 방법의 여러 개를 동시에 적용하여 조합하여 분류기를 구성하는 방법이다.

다중레이블 분류를 이용하여 단백질의 세포내 위치를 예측 방법들을 살펴보면, 최근접-이웃 분류기의 앙상블을 사용하는 방법[1, 7], 가우시안 과정 모델과 공분산 행렬로 레이블간의 연관성을 표현하는 방법[3]이 있다. 문제 변환 방법을 사용하는 예로, 세포내 위치의 모든 쌍들에 대한 분류기를 구성하여 투표하여 최종 결과를 얻는 방법[2]과 특정 레이블에 관련된 사례들과 관련되지 않은 사례들로 학습하는 BR(binary relevance)을 사용하는 방법[4,6]이 있다. 또한, Q개 이진 분류기를 체인으로 연결하고, k-번째 분류기는 k– 1까지 레이블의 관련성을 이용하는 문제 변환 방법의 일종인 CC(classifier chain)를 앙상블로 사용하는 방법[5]이 있다. 이밖에 LP(label powerset) 방법처럼 레이블 부분집합을 무작위로 만들고, 사례와 관련된 레이블들을 CC처럼 사례의 속성으로 사용하는 방법[8]이 있다.

최근에 개발된 다양한 다중레이블 분류 방법이 단백질의 다중 세포내 위치 예측의 적용을 위하여 충분히 비교 분석되지 않았다. 본 논문에서는 광범위한 다중레이블 분류 방법의 비교를 통하여, 단백질 세포내 위치 예측에 효과적인 방법을 알아내고, 그 방법들의 특징을 분석한다. 또한, 다중레이블 분류의 복잡한 예측결과를 다양한 측면에서 살펴보기 위하여 12개의 평가 척도를 사용하고, 새로운 요약 척도를 사용하여 최적의 방법들을 찾는다.

Ⅱ. 다중레이블 분류 방법

단백질 세포내 위치 예측에 효과적인 방법을 찾고자 다중레이블 분류 방법을 알아본다. 다중레이블 분류는 사례(example)와 관련된 다중 레이블을 찾는다. 즉, 레이블들의 집합을 L = { λ₁, λ₂, …, λ_Q } 로 나타낼 때, 각 사례와 관련된 레이블 부분집합 y_i⊆ L 을 예측한다. 따라서 각 사례에 대해 하나의 레이블로만 분류하는 단일 레이블 분류에 비하여 알고리즘의 복잡성과 분류의 정확성을 평가하는 척도가 다양하다.

이번 장에서는 IV장의 비교 실험에 사용되는 다중레이블 분류 알고리즘을 중심으로 하여 (1)알고리즘 적응, (2)문제 변환, (3)메타 학습으로 나누어 살펴 본다[9-11]. 알고리즘 적응 방법은 단일레이블 분류 알고리즘인 최근접-이웃 분류기, 트리 분류, 신경망, 지지 벡터 기계 등을 다중레이블 분류에 적합하도록 확장하거나 변형한다. Ml-knn의 경우에는 각 사례에 제일 근접하는 이웃을 찾고, 평가 자료의 레이블집합을 결정하는 과정에서 각 레이블에 대하여 k 개의 최근접 이웃의 사전확률과 사후확률을 사용한다[12]. BRkNN도 최근접-이웃 분류기를 사용하고, 다중레이블 분류문제를 아래에 설명할 문제 변환인 BR(binary relevance)을 사용한다[13]. IBLR_ML은 로지스틱 회귀와 최근접-이웃 분류기를 결합한 방법이다[14]. BPMLL은 기존의 역전파 학습을 사용한 신경망을 다중레이블 분류를 고려하여 새로운 오류 함수를 도입한 방법이다[15].

문제 변환 방법은 다중레이블 분류를 다수의 단일레이블 분류로 바꾸는데, BR(binary relevance), LP(label power-set)와 PW(pair-wise)로 나누어 볼 수 있다[9-11]. BR은 각 레이블에 관련된 사례로 양성 집합(positive set), 이외의 사례로 음성 집합(negative set)을 구성하여 학습하고, 각 레이블에 해당하는 분류기의 결과를 조합한다. CC(classifier chains)는 BR과 유사한 방법으로 Q개의 이진 분류기를 체인으로 연결한 것이고, k-번째 분류기는 k– 1까지의 레이블이 관련되었는지 아닌지에 따라 0 또는 1의 레이블을 자료의 속성에 추가한다[16]. LP는 각 사례와 관련된 레이블 집합을 묶어서 새로운 단일 레이블로 나타낸다. 이는 직접적으로 레이블간의 연관관계를 이용할 수 있지만, 새로 만든 레이블들의 수가 매우 커질 수 있으므로 적은 빈도의 레이블은 제거하여 PS(pruned sets)을 만드는 방법이 있다[17]. PW는 모든 레이블 쌍에 대해 분류기를 구성하고, 투표를 사용하여 분류한다. PW의 일종인 CLR(calibrated label ranking)은 추가로 인공적인 레이블을 도입하여, 이 레이블보다 높은 점수를 갖는 레이블을 관련된 사례로 예측한다[18].

메타 방법은 여러 다중 레이블 분류기를 배깅(bagging), 부스팅(boosting)과 스태킹(stacking)을 사용하여 조합한다. 배깅은 동일한 종류의 여러 분류기를 조합하는 방법으로 투표를 사용 하는 경우에 각 방법에 동일한 가중치를 부여한다. ECC(ensemble of classifier chains) 와 EPS(ensemble of pruned sets)는 각각 CC[16]와 PS[17]로 다수의 분류기의 구성하는 배깅 방법이다. HOMMER는 여러 레이블들 간의 계층적 관계를 구성하고, 각 계층에서 분류기를 구성하는 방법이다. 각 분류기는 Q개의 모든 레이블보다 적은 레이블들을 처리하며, 자료수가 더 균형 있게 배분되고 유사한 레이블은 하나의 부분집합에 속하도록 분할한 후에 학습을 수행한다 [19]. ClusteringBased는 자료를 군집화를 통하여 몇 개의 군집으로 분리한 후에, 각 군집에 대하여 다중분류기를 적용하는 배깅 방법이다[20]. RAkEL은 크기가 k인 부분 레이블 집합을 여러 개 만들고, 이를 단일 레이블로 간주하여 기본 분류기를 구성하여 배깅을 적용한다[21]. 부스팅 방법은 새로운 학습 모델은 앞서 구성된 학습 모델의 분류 결과를 이용한다. 즉, 이전에 잘못 처리된 사례들에 대하여 더 높은 가중치를 부여하여 새로운 모델을 구성한다. AdaBoostMH는 부스팅 방법을 사용하여 다음 장에서 알아 볼 평가척도인 hamming_loss를 최소화하도록 방법이다[22]. 스태킹은 여러 분류기의 결과를 투표를 사용하지 않고 다른 학습 알고리즘을 사용하여 조합 한다. MultiLabelStacking은 먼저 각 사례에 대한 기반이 되는 여러 분류기의 출력을 얻고, 이 출력을 다시 메타 학습기에 입력하여 최종 결과를 얻는다[23].

Ⅲ. 다중레이블 분류의 평가 척도

다중레이블 분류기에 대한 성능 평가는 기존의 단일레이블 분류기에 사용되는 성능 척도를 그대로 사용할 수 없다. 즉, 예측된 레이블이 실제 레이블과 일치하는 것만을 판단하면 지나치게 엄격한 평가 척도가 되므로, 일부만 일치하는 경우도 고려한다. 따라서 여러 관점에서 예측 정확도를 판정할 수 있는 방법들이 사용되고 사례기반(example-based)과 레이블기반(label-based)으로 나눈다[9-11]. 식 (1)~(6)의 사례기반 방법은 각 사례에 대해 실제 레이블과 예측된 레이블간의 차이를 평균하고, 식 (7)~(12)의 레이블기반 방법은 각 레이블에 대해 개별적으로 예측성능을 구하고 이를 평균한다.

사례 x_i의 실제 다중레이블을 y_i로, 예측된 레이블을 h(x_i)로 나타낼 때, hamming_loss는 실제 레이블이 아닌 것이 예측된 수와 실제 레이블이 예측되지 않은 수를 평균한 것이고, 작을수록 성능이 높다. 식 (1)에서 Δ는 두 집합의 대칭차집합, | |은 집합의 원소수, N은 사례의 총 개수이다.

다음에 설명할 척도들은 값이 클수록 정확한 예측이다.

precision과 recall은 각각 예측된 레이블 h(x_i)과 실제 다중레이블 y_i중에서 정확히 예측된 비율이다.

F₁는 precision과 recall의 조화평균으로, 완전한 예측이 되었을 때는 1이고, 최저는 0이다.

subset_accuracy는 예측된 레이블이 실제 레이블과 정확히 일치하는지를 평가한다. I( h(x_i) = y_i )는 h(x_i)와 y_i가 같으면 1이고, 아니면 0이다.

macro_precision은 각 레이블에 대해서 precision을 구한 후에, 이를 평균한다. 식 (7)에서 tp_j(true positive)와 fp_j(false positive)는 레이블 λ _j와 이외의 레이블을 이진 분류하는 것에서 계산된다.

macro_recall은 각 레이블에 대해서 recall을 구하여 평균한다. 식 (8)에서 fn_j(false negative)은 레이블 λ _j와 이외의 레이블을 이진 분류하는 것에서 계산된다.

macro_F₁은 레이블 λ _j∈y_i에 대해서 계산한 precision과 recall인 p_j와 λ _j를 이용하여 조화평균을 구하고, 이들을 레이블에 대해서 평균한다.

micro_precision과 micro_precision은 다음과 같다.

micro_F₁은 micro_precision과 micro_precision의 조화평균이다.

본 연구에서는 식 (1)~(12)의 많은 평가 척도를 사용하므로 각 방법의 비교가 쉽지 않다. 이를 요약하기 위한 새로운 척도로서 합계를 구하는데, hamming_loss는 작은 값 일수록 성능이 높으므로 1-hamming_loss를 더 하였다. 즉, 각 방법의 성능을 통합해서 비교할 경우에는 다음의 S-measure (Sum of measures)를 사용하였다.

Ⅳ. 단백질 세포내 위치 예측 비교 실험

단백질의 세포내 위치 예측에 효과적인 다중레이블 분류방법을 찾기 위해 비교 하였다. 실험에 사용한 자료는 인간 단백질 자료로 세포내 위치는 14개(centriole, cytoplasm, cytoskeleton, endoplasmic reticulum, endosome, extracell, golgi apparatus, lysosome, microsome, mitochondrion, nucleus, peroxisome, plasma membrane, synapse)이고, 2,580개의 단백질은 하나의 세포내 위치, 480개는 두 개의 위치, 43개는 3개의 위치, 3개는 4개의 위치에 존재한다[1]. 단백질 서열들은 25% 이하의 작은 서열 동일성을 가지고 있으므로, 서열 유사성만을 이용하여 단백질의 세포내 위치를 예측하기는 어려운 자료이다.

비교 실험에는 5겹 교차검증을 수행하기 위해서 실험 자료를 균등하게 5개로 나누어 사용하였다. 단백질 자료를 다중레이블 분류를 위한 특징 벡터로 변환하기 위해서 논문[1,2,4-7]처럼, 유전자 온톨로지를 가진 데이터베이스(http://www.ebi.ac.uk/GOA)를 탐색하여 주어진 단백질 자료와 가장 유사한 단백질의 유전자 온톨로지를 사용하였다. 유전자 온톨로지는 분자적 기능, 생물학적 과정, 세포 요소의 관점에서 특징화한 용어로 유전자를 표현한 것으로, 유전자 해당하는 단백질의 특징을 나타낸다.

다중레이블 분류기는 Mulan 라이브러리로 구현하였고, 기본 설정을 사용하였다[9]. 각 방법의 성능은 III장의 평가척도 식(1)~(12)로 측정하였고, 비교를 위해 간략한 척도 S-measure로 나타내었다.

표 1은 II장에서 설명한 알고리즘 적응 방법의 실험 결과이다. 알고리즘 적응 방법은 이후의 비교 방법들보다 성능이 저조하므로, 다중레이블 분류를 위해서 보다 개선된 알고리즘의 확장이 필요하다.

[표 1.] 알고리즘 적응 방법의 성능 비교

알고리즘 적응 방법의 성능 비교

문제 변환 방법은 다중레이블 분류문제를 다수의 단일레이블 분류문제로 변환하고 단일레이블 분류를 하므로, 단일 분류 방법이 필요하다. 이를 위해 기본적인 문제 변환 방법인 BR에 대해서 단일 분류 방법들을 비교하여 우수한 단일 분류기를 이후에 사용하였다. Mulan 라이브러리가 기반한 Weka[24]에서 베이즈 분류기 (NaiveBayes, NaiveBayesMultinomial), 지지 벡터 기계 (SGD, SMO), 예제 기반 lazy 분류기(IBk, KStar, LWL), 신경망(MultilayerPerceptron), 트리 기반 분류기(J48, LMT, RandomForest, REPTree)를 비교하였다. 베이즈 분류기에서는 NaiveBayes, 지지 벡터 기계에서는 SMO, 트리 기반 분류기에서는 J48 방법이 우수하였다. 예제기반 lazy 분류기는 성능이 저조하고, 신경망은 실험 시간이 오래 걸려서 문제 변환 방법에 적용하기 어려웠다. 표 2는 문제 변환 방법의 성능이고, 괄호 안에 사용한 단일 분류 방법을 표시하였다.

[표 2.] 문제 변환 방법의 성능 비교

문제 변환 방법의 성능 비교

메타 방법 중에서 HOMMER, ClusteringBased, RAkEL은 다중레이블 분류기를 조합하는 방법이다. 표 1과 표 2에서 성능이 9.3 이상인 BR(J48), CC(SMO), LP(SMO), PS(SMO), CLR(SMO), CLR(J48)에 대하여 조합한 결과를 표 3에 나타내었다. 표 3에서 - 표시는 메모리 부족으로 실행 실패를 나타낸다. 본 논문에서는 16 기가바이트의 메모리를 사용하였고, 5겹 교차 검증을 병렬로 수행하였다.

[표 3.] 다중레이블 방법을 조합한 메타방법의 성능 비교

다중레이블 방법을 조합한 메타방법의 성능 비교

표 4는 메타 방법 중에서 배깅을 사용하는 방법인 ECC와 EPS의 결과이다. 이 방법들에서도 단일분류로 NaiveBayes, SMO, J48을 적용하였다.

[표 4.] 배깅을 사용한 메타방법의 성능 비교

배깅을 사용한 메타방법의 성능 비교

메타 방법에서 부스팅을 사용하는 AdaBoostMH는 S-measure가 8.72로 성능이 저조하였다. 이 밖에 메타 방법에서 스태킹을 사용하는 MultiLabelStacking의 실험을 위해, 각 사례에 대해 적용되는 기반 분류기로 NaiveBayes, SMO, J48로 사용하였고, 분류기들의 출력을 조합하는 메타 학습기로 역시 NaiveBayes, SMO, J48을 사용하여 총 9개의 조합을 비교하였다. 이 방법은 S-measure가 모두 9.3이하로 성능이 저조하였다.

비교실험한 모든 다중레이블 분류 방법에서 성능이 9.4이상인 방법들에서 대해서, 부가적으로 단백질의 특징을 보다 효과적으로 표현하면 분류 성능이 향상되는지를 실험하였다. 카이제곱 검정값을 변형하여 단백질의 세포내 위치를 판별력이 높게 나타내는 유전자 온톨로지 가중하는 방법을 적용하였다[25]. 원래의 방법이 가장 유사한 서열의 유전자 온톨로지만을 사용하는 것에 반하여, 본 연구에서는 가장 유사한 두 개의 서열에서 나타나는 유전자 온톨로지의 빈도를 이용하였다.

표 6은 표 5에서 성능이 가장 높은 ECC(SMO)와 EPS(SMO)를 식 (1) ~ (12)의 평가 척도로 다양한 관점의 성능을 보여준다. 표 6의 두 가지 방법은 전체적인 성능은 유사하지만, precision, recall이 상반된 값을 갖는다. 이러한 경향은 레이블기반 평가척도에서 유사한 것으로부터, EPS에 비해 ECC가 실제 레이블보다 더 많은 레이블을 예측함을 알 수 있다.

[표 5.] 유전자 온톨로지 가중을 사용한 다중레이블 분류기 성능

유전자 온톨로지 가중을 사용한 다중레이블 분류기 성능

[표 6.] 다양한 평가 척도를 사용한 다중레이블 분류기의 성능

다양한 평가 척도를 사용한 다중레이블 분류기의 성능

표 6의 결과를 실험 방법은 약간씩 다르지만, 동일한 단백질 자료를 사용하는 다른 방법들과 비교한다. 논문 [3]의 실험결과에 따르면, 최근접-이웃 분류기를 배깅으로 조합하는 Hum-mPLOC 2.9[1]은 recall, F₁, subset_accuracy가 0.519, 0.541, 0.294이고, 알고리즘 적응 방법인 논문[3]은 0.643, 0.506, 0.202로 성능이 저조하다. 논문[4]에서는 문제 변환 방법 BR을 사용하고 subset_accuracy가 0.45이하이다. ECC를 사용하는 방법[5]는 accuracy, precision, recall, F₁값이 0.7913, 0.8249, 0.8404, 0.8191로서 표 6의 실험 결과보다 약간 저조하다. 각 논문들에서 단백질 자료를 특징벡터로 변환하는 유전자 온톨로지 이용 방법이 본 논문과 동일하지 않으므로 정확한 다중레이블 분류기의 성능 비교는 아니다. 하지만, 논문을 통한 비교에서 보듯이 알고리즘 적응방법이나 BR방법에 비하여 ECC가 효과적인 경향은 유사하다.

본 연구에서는 기본 설정의 파라미터를 가진 다중레이블 분류방법을 사용하였음에도 불구하고, 비교한 논문들의 방법보다 성능이 높았다. 따라서 우수한 접근법인 EPS, ECC를 문제에 적합하게 최적화하면 더욱 향상된 성능을 얻을 수 있다고 판단된다.

Ⅴ. 결 론

본 논문에서는 단백질의 세포내 위치 예측을 위하여 여러 다중레이블 분류방법을 광범위하게 비교하였다. 또한, 다중레이블 분류방법을 비교하기 위하여 일부분 척도가 보다 다양한 척도를 사용하여 다양한 관점에서 요약할 수 있는 척도로 쉽게 비교하여 적합한 방법 선택할 수 있게 하였다.

비교 실험을 통하여 살펴보면, 단백질을 세포내 위치 예측에는 세포내 위치간의 연관관계를 학습 모델에 포함하는 방법이 성능이 높았다. 이러한 연관관계를 자료의 속성에 추가하는 CC(classifier chain)나 관련된 레이블 부분 집합으로 직접적으로 레이블간의 연관관계를 표현하고 적은 빈도의 집합을 제거하는 PS(Pruned sets)를 사용하여 여러 분류기를 구성하고 이를 배깅으로 조합하는 것이 가장 성능이 좋았다.

본 논문에서는 많은 수의 분류기를 비교하기 위하여 기본적인 설정을 사용하였으나, 향후에는 효과적인 것으로 밝혀진 CC나 PS로 구성된 여러 분류기를 조합하는 방법을 최적화하고, 분류기를 구성할 때 사용되는 단일 분류기의 파라미터를 최적화하는 것이 필요하다.

참고문헌

1. Shen H.-B., Chou K.-C. 2009 “A top-down approach to enhance the power of predicting human protein subcellular localization: Hum-mPLoc 2.0,” [Anaytical Biochemistry] Vol.394 P.269-274
2. Chi S.-M., Nam D. 2012 “WegoLoc: accurate prediction of protein subcellular localization using weighted gene ontology terms,” [Bioinformatics] Vol.28 P.1028-1030
3. He J., Gu H., Liu W. 2012 “Imbalanced multi-modal multilabel learning for subcellular localization prediction of human proteins with both single and multiple sites,” [Plos One] Vol.7 P.e37155
4. Mei S. 2012 “Multi-label multi-kernel transfer learning for human protein subcellular localization,” [Plos One] Vol.7 P.e37716
5. Li G.-Z., Wang X., Hu X., Liu J.-M., Zhao R.-W. 2012 “Multilabel learning for protein subcellular location prediction,” [IEEE transactions on Nanobioscience] Vol.11 P.237-243
6. Wan S., Mak M.-W., Kung S.-Y. 2012 “mGOASVM: multilabel protein subcellular localization based on gene ontology and support vector machines,” [BMC Bioinformatics] Vol.13 P.290
7. Lin W.-Z., Fang J.-A., Xiao X., Chou K.-C. 2013 “iLoc-Animal: a multi-label learning classifier for predicting subcellular localization of animal proteins,” [Molecular BioSystems] Vol.9 P.634-644
8. Wang X., Li G.-Z. 2013 “Multilabel learning via random label selection for protein subcellular multilocations prediction,” [IEEE transactions on computational biology and bioinformatics] Vol.10 P.436-446
9. Tsoumakas G., Katakis I., Vlahavas I. 2010 “Mining multilabel data,” P.667-685
10. Madjarov G., Kocev D., Gjorgjevikj D., Dzeroski S. 2012 “An extensive experimental comparison of methods for multi-label learning,” [Pattern Recognition] Vol.45 P.3084-3104
11. Zhang M.-L., Zhou Z-H. “A review on multi-label learning algorithms,” [IEEE transactions on knowledge and data engineering]
12. Zhang M.-L., Zhou Z-H. 2007 "Ml-knn: A lazy learning approach to multi-label learning," [Pattern Recognition] Vol.40 P.2038-2048
13. Spyromitros E., Tsoumakas G., Vlahavas I. 2008 "An Empirical Study of Lazy Multilabel Classification Algorithms," [in Proceeding of the 5th Hellenic Conference on Artificial Intelligence] P.401-406
14. Cheng W., Hullermeier E. 2009 "Combining instance-based learning and logistic regression for multilabel classification," [Machine Learning] Vol.76 P.211-225
15. Zhang M.-L., Zhou Z-H. 2006 “Multi-label neural networks with applications to functional genomics and text categorization,” [IEEE transactions on knowledge and data engineering] Vol.18 P.1338-1351
16. Read J., Pfahringer B., Geoff H., Eibe F. 2011 "Classifier Chains for Multi-label Classification," [Machine Learning] Vol.85 P.335-359
17. Read J., Pfahringer B., Geoff H. 2008 "Multi-Label Classification using Ensembles of Pruned Sets," [in Proceeding of the 8th IEEE International Conference on Data Mining] P.995-1000
18. Furnkranz J., Hullermeier E., Mencia E. L., Brinker K. 2008 "Multilabel classification via calibrated label ranking," [Machine Learning] Vol.73 P.133-153
19. Tsoumakas G., Katakis I., Vlahavas I. 2008 “Effective and Efficient Multilabel Classification in Domains with Large Number of Labels,” [in Proceeding of ECML/PKDD 2008 Workshop on Mining Multidimensional Data (MMD’08)] P.30-44
20. Nasierding G., Tsoumakas G., Kouzani A. 2009 "Clustering Based Multi-Label Classification for Image Annotation and Retrieval," [in Proceeding of 2009 IEEE International Conference on Systems, Man, and Cybernetics] P.4514-4519
21. Tsoumakas G., Katakis I., Vlahavas I. 2011 “Random k-Labelsets for Multi-Label Classification,” [IEEE transactions on knowledge and data engineering] Vol.23 P.1079-1089
22. Schapire R. E., Singer Y. 2000 "BoosTexter: A boostingbased system for text categorization," [Machine learning] Vol.39 P.135-168
23. Tsoumakas G., Dimou A., Spyromitros E., Mezaris V., Kompatsiaris I., Vlahavas I. 2009 "Correlation-Based Pruning of Stacked Binary Relevance Models for Multi-Label Learning," [in Proceeding of ECML/PKDD 2009 Workshop on Learning from Multi-Label Data (MLD’09)] P.101-116
24. Hall M., Frank E., Holmes G., Pfahringer B., Reutemann P., Witten I. H. 2009 "The WEKA Data Mining Software: An Update," [ACM SIGKDD explorations newsletter] Vol.11 P.10-18
25. Chi S.-M. 2010 "Prediction of protein subcellular localization by weighted gene ontology terms," [Biochemical and biophysical research communications] Vol.399 P.402-405