===================================================================
RCS file: /home/cvs/OpenXM_contrib2/asir2000/engine/nd.c,v
retrieving revision 1.94
retrieving revision 1.116
diff -u -p -r1.94 -r1.116
--- OpenXM_contrib2/asir2000/engine/nd.c	2004/03/15 07:30:44	1.94
+++ OpenXM_contrib2/asir2000/engine/nd.c	2004/12/01 12:36:17	1.116
@@ -1,4 +1,4 @@
-/* $OpenXM: OpenXM_contrib2/asir2000/engine/nd.c,v 1.93 2004/03/13 07:48:30 noro Exp $ */
+/* $OpenXM: OpenXM_contrib2/asir2000/engine/nd.c,v 1.115 2004/11/18 08:29:11 noro Exp $ */
 
 #include "nd.h"
 
@@ -8,7 +8,9 @@ NM _nm_free_list;
 ND _nd_free_list;
 ND_pairs _ndp_free_list;
 
+#if 0
 static int ndv_alloc;
+#endif
 #if 1
 static int nd_f4_nsp=0x7fffffff;
 #else
@@ -29,13 +31,19 @@ static NDV *nd_ps;
 static NDV *nd_ps_trace;
 static RHist *nd_psh;
 static int nd_psn,nd_pslen;
-
 static RHist *nd_red;
-
+static int *nd_work_vector;
+static int **nd_matrix;
+static int nd_matrix_len;
+static struct weight_or_block *nd_worb;
+static int nd_worb_len;
 static int nd_found,nd_create,nd_notfirst;
 static int nmv_adv;
 static int nd_demand;
 
+UINT *nd_det_compute_bound(NDV **dm,int n,int j);
+void nd_det_reconstruct(NDV **dm,int n,int j,NDV d);
+
 void nd_free_private_storage()
 {
 	_nm_free_list = 0;
@@ -422,6 +430,84 @@ int ndl_block_compare(UINT *d1,UINT *d2)
 	return 0;
 }
 
+int ndl_matrix_compare(UINT *d1,UINT *d2)
+{
+	int i,j,s;
+	int *v;
+
+	for ( j = 0; j < nd_nvar; j++ )
+		nd_work_vector[j] = GET_EXP(d1,j)-GET_EXP(d2,j);
+	for ( i = 0; i < nd_matrix_len; i++ ) {
+		v = nd_matrix[i];
+		for ( j = 0, s = 0; j < nd_nvar; j++ )
+			s += v[j]*nd_work_vector[j];
+		if ( s > 0 ) return 1;
+		else if ( s < 0 ) return -1;
+	}
+	return 0;
+}
+
+int ndl_composite_compare(UINT *d1,UINT *d2)
+{
+	int i,j,s,start,end,len,o;
+	int *v;
+	struct sparse_weight *sw;
+
+	for ( j = 0; j < nd_nvar; j++ )
+		nd_work_vector[j] = GET_EXP(d1,j)-GET_EXP(d2,j);
+	for ( i = 0; i < nd_worb_len; i++ ) {
+		len = nd_worb[i].length;
+		switch ( nd_worb[i].type ) {
+			case IS_DENSE_WEIGHT:
+				v = nd_worb[i].body.dense_weight;
+				for ( j = 0, s = 0; j < len; j++ )
+					s += v[j]*nd_work_vector[j];
+				if ( s > 0 ) return 1;
+				else if ( s < 0 ) return -1;
+				break;
+			case IS_SPARSE_WEIGHT:
+				sw = nd_worb[i].body.sparse_weight;
+				for ( j = 0, s = 0; j < len; j++ )
+					s += sw[j].value*nd_work_vector[sw[j].pos];
+				if ( s > 0 ) return 1;
+				else if ( s < 0 ) return -1;
+				break;
+			case IS_BLOCK:
+				o = nd_worb[i].body.block.order;
+				start = nd_worb[i].body.block.start;
+				switch ( o ) {
+					case 0:
+						end = start+len;
+						for ( j = start, s = 0; j < end; j++ )
+							s += MUL_WEIGHT(nd_work_vector[j],j);
+						if ( s > 0 ) return 1;
+						else if ( s < 0 ) return -1;
+						for ( j = end-1; j >= start; j-- )
+							if ( nd_work_vector[j] < 0 ) return 1;
+							else if ( nd_work_vector[j] > 0 ) return -1;
+						break;
+					case 1:
+						end = start+len;
+						for ( j = start, s = 0; j < end; j++ )
+							s += MUL_WEIGHT(nd_work_vector[j],j);
+						if ( s > 0 ) return 1;
+						else if ( s < 0 ) return -1;
+						for ( j = start; j < end; j++ )
+							if ( nd_work_vector[j] > 0 ) return 1;
+							else if ( nd_work_vector[j] < 0 ) return -1;
+						break;
+					case 2:
+						for ( j = start; j < end; j++ )
+							if ( nd_work_vector[j] > 0 ) return 1;
+							else if ( nd_work_vector[j] < 0 ) return -1;
+						break;
+				}
+				break;
+		}
+	}
+	return 0;
+}
+
 /* TDH -> WW -> TD-> RL */
 
 int ndl_ww_lex_compare(UINT *d1,UINT *d2)
@@ -641,13 +727,11 @@ int ndl_disjoint(UINT *d1,UINT *d2)
 #endif
 }
 
-int ndl_check_bound2(int index,UINT *d2)
+int ndl_check_bound(UINT *d1,UINT *d2)
 {
 	UINT u2;
-	UINT *d1;
 	int i,j,ind,k;
 
-	d1 = nd_bound[index];
 	ind = 0;
 #if USE_UNROLL
 	switch ( nd_bpe ) {
@@ -736,6 +820,11 @@ int ndl_check_bound2(int index,UINT *d2)
 #endif
 }
 
+int ndl_check_bound2(int index,UINT *d2)
+{
+	return ndl_check_bound(nd_bound[index],d2);
+}
+
 INLINE int ndl_hash_value(UINT *d)
 {
 	int i;
@@ -873,6 +962,79 @@ ND nd_add(int mod,ND p1,ND p2)
 	}
 }
 
+/* XXX on opteron, the inlined manipulation of destructive additon of
+ * two NM seems to make gcc optimizer get confused, so the part is
+ * done in a function.
+ */
+
+int nm_destructive_add_q(NM *m1,NM *m2,NM *mr0,NM *mr)
+{
+	NM s;
+	Q t;
+	int can;
+
+	addq(CQ(*m1),CQ(*m2),&t);
+	s = *m1; *m1 = NEXT(*m1);
+	if ( t ) {
+		can = 1; NEXTNM2(*mr0,*mr,s); CQ(*mr) = (t);
+	} else {
+		can = 2; FREENM(s);
+	}
+	s = *m2; *m2 = NEXT(*m2); FREENM(s);
+	return can;
+}
+
+ND nd_add_q(ND p1,ND p2)
+{
+	int n,c,can;
+	ND r;
+	NM m1,m2,mr0,mr,s;
+	Q t;
+
+	if ( !p1 ) return p2;
+	else if ( !p2 ) return p1;
+	else {
+		can = 0;
+		for ( n = NV(p1), m1 = BDY(p1), m2 = BDY(p2), mr0 = 0; m1 && m2; ) {
+			c = DL_COMPARE(DL(m1),DL(m2));
+			switch ( c ) {
+				case 0:
+#if defined(__x86_64__)
+					can += nm_destructive_add_q(&m1,&m2,&mr0,&mr);
+#else
+					addq(CQ(m1),CQ(m2),&t);
+					s = m1; m1 = NEXT(m1);
+					if ( t ) {
+						can++; NEXTNM2(mr0,mr,s); CQ(mr) = (t);
+					} else {
+						can += 2; FREENM(s);
+					}
+					s = m2; m2 = NEXT(m2); FREENM(s);
+#endif
+					break;
+				case 1:
+					s = m1; m1 = NEXT(m1); NEXTNM2(mr0,mr,s);
+					break;
+				case -1:
+					s = m2; m2 = NEXT(m2); NEXTNM2(mr0,mr,s);
+					break;
+			}
+		}
+		if ( !mr0 )
+			if ( m1 ) mr0 = m1;
+			else if ( m2 ) mr0 = m2;
+			else return 0;
+		else if ( m1 ) NEXT(mr) = m1;
+		else if ( m2 ) NEXT(mr) = m2;
+		else NEXT(mr) = 0;
+		BDY(p1) = mr0;
+		SG(p1) = MAX(SG(p1),SG(p2));
+		LEN(p1) = LEN(p1)+LEN(p2)-can;
+		FREEND(p2);
+		return p1;
+	}
+}
+
 ND nd_add_sf(ND p1,ND p2)
 {
 	int n,c,can;
@@ -1131,7 +1293,7 @@ again:
 		d = ndvtond(0,r);
 		stat = nd_nf(0,d,nd_ps,0,0,&nf);
 		if ( !stat ) {
-			nd_reconstruct(0,0,0);
+			nd_reconstruct(0,0);
 			goto again;
 		} else if ( nf ) return 0;
 		if ( DP_Print ) { printf("."); fflush(stdout); }
@@ -1441,7 +1603,7 @@ again:
 		stat = nd_sp(m,0,l,&h);
 		if ( !stat ) {
 			NEXT(l) = d; d = l;
-			d = nd_reconstruct(m,0,d);
+			d = nd_reconstruct(0,d);
 			goto again;
 		}
 #if USE_GEOBUCKET
@@ -1451,7 +1613,7 @@ again:
 #endif
 		if ( !stat ) {
 			NEXT(l) = d; d = l;
-			d = nd_reconstruct(m,0,d);
+			d = nd_reconstruct(0,d);
 			goto again;
 		} else if ( nf ) {
 			if ( checkonly ) return 0;
@@ -1551,7 +1713,7 @@ again:
 		stat = nd_sp(m,0,l,&h);
 		if ( !stat ) {
 			NEXT(l) = d; d = l;
-			d = nd_reconstruct(m,1,d);
+			d = nd_reconstruct(1,d);
 			goto again;
 		}
 #if USE_GEOBUCKET
@@ -1561,7 +1723,7 @@ again:
 #endif
 		if ( !stat ) {
 			NEXT(l) = d; d = l;
-			d = nd_reconstruct(m,1,d);
+			d = nd_reconstruct(1,d);
 			goto again;
 		} else if ( nf ) {
 			if ( nd_demand ) {
@@ -1572,7 +1734,7 @@ again:
 			if ( !nfq ) {
 				if ( !nd_sp(0,1,l,&h) || !nd_nf(0,h,nd_ps_trace,!Top,0,&nfq) ) {
 					NEXT(l) = d; d = l;
-					d = nd_reconstruct(m,1,d);
+					d = nd_reconstruct(1,d);
 					goto again;
 				}
 			}
@@ -1636,7 +1798,7 @@ NODE ndv_reduceall(int m,NODE f)
 		g = nd_separate_head(g,&head);
 		stat = nd_nf(m,g,nd_ps,1,&dn,&nf);
 		if ( !stat )
-			nd_reconstruct(m,0,0);
+			nd_reconstruct(0,0);
 		else {
 			if ( DP_Print ) { printf("."); fflush(stdout); }
 			if ( !m ) { 
@@ -2032,7 +2194,9 @@ void nd_gr(LIST f,LIST v,int m,int f4,struct order_spe
 	if ( !m && Demand ) nd_demand = 1;
 	else nd_demand = 0;
 
+#if 0
 	ndv_alloc = 0;
+#endif
 	get_vars((Obj)f,&fv); pltovl(v,&vv);
 	for ( nvar = 0, tv = vv; tv; tv = NEXT(tv), nvar++ );
 	switch ( ord->id ) {
@@ -2070,7 +2234,9 @@ void nd_gr(LIST f,LIST v,int m,int f4,struct order_spe
 	}
 	if ( r0 ) NEXT(r) = 0;
 	MKLIST(*rp,r0);
+#if 0
 	fprintf(asir_out,"ndv_alloc=%d\n",ndv_alloc);
+#endif
 }
 
 void nd_gr_trace(LIST f,LIST v,int trace,int homo,struct order_spec *ord,LIST *rp)
@@ -2419,7 +2585,7 @@ void removecont_array(Q *c,int n)
 {
 	struct oVECT v;
 	Q d0,d1,a,u,u1,gcd;
-	int i;
+	int i,j;
 	N qn,rn,gn;
 	Q *q,*r;
 
@@ -2456,6 +2622,7 @@ void nd_mul_c(int mod,ND p,int mul)
 	int c,c1;
 
 	if ( !p ) return;
+	if ( mul == 1 ) return;
 	if ( mod == -1 )
 		for ( m = BDY(p); m; m = NEXT(m) )
 			CM(m) = _mulsf(CM(m),mul);
@@ -2471,6 +2638,7 @@ void nd_mul_c_q(ND p,Q mul)
 	Q c;
 
 	if ( !p ) return;
+	if ( UNIQ(mul) ) return;
 	for ( m = BDY(p); m; m = NEXT(m) ) {
 		mulq(CQ(m),mul,&c); CQ(m) = c;
 	}
@@ -2548,17 +2716,46 @@ UINT *ndv_compute_bound(NDV p)
 	return t;
 }
 
+UINT *nd_compute_bound(ND p)
+{
+	UINT *d1,*d2,*t;
+	UINT u;
+	int i,j,k,l,len,ind;
+	NM m;
+
+	if ( !p )
+		return 0;
+	d1 = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
+	d2 = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
+	len = LEN(p);
+	m = BDY(p); ndl_copy(DL(m),d1); m = NEXT(m);
+	for ( m = NEXT(m); m; m = NEXT(m) ) {
+		ndl_lcm(DL(m),d1,d2);
+		t = d1; d1 = d2; d2 = t;
+	}
+	l = nd_nvar+31;
+	t = (UINT *)MALLOC_ATOMIC(l*sizeof(UINT));
+	for ( i = nd_exporigin, ind = 0; i < nd_wpd; i++ ) {
+		u = d1[i];
+		k = (nd_epw-1)*nd_bpe;
+		for ( j = 0; j < nd_epw; j++, k -= nd_bpe, ind++ )
+			t[ind] = (u>>k)&nd_mask0;
+	}
+	for ( ; ind < l; ind++ ) t[ind] = 0;
+	return t;
+}
+
 int nd_get_exporigin(struct order_spec *ord)
 {
 	switch ( ord->id ) {
-		case 0:
+		case 0: case 2:
 			return 1;
 		case 1:
 			/* block order */
 			/* d[0]:weight d[1]:w0,...,d[nd_exporigin-1]:w(n-1) */
 			return ord->ord.block.length+1;
-		case 2:
-			error("nd_get_exporigin : matrix order is not supported yet.");
+		case 3:
+			error("nd_get_exporigin : composite order is not supported yet.");
 	}
 }
 
@@ -2603,9 +2800,10 @@ void nd_setup_parameters(int nvar,int max) {
 	nmv_adv = ROUND_FOR_ALIGN(sizeof(struct oNMV)+(nd_wpd-1)*sizeof(UINT));
 	nd_epos = nd_create_epos(nd_ord);
 	nd_blockmask = nd_create_blockmask(nd_ord);
+	nd_work_vector = (int *)REALLOC(nd_work_vector,nd_nvar*sizeof(int));
 }
 
-ND_pairs nd_reconstruct(int mod,int trace,ND_pairs d)
+ND_pairs nd_reconstruct(int trace,ND_pairs d)
 {
 	int i,obpe,oadv,h;
 	static NM prev_nm_free_list;
@@ -3012,6 +3210,54 @@ ND ndv_mul_nm(int mod,NM m0,NDV p)
 	}
 }
 
+ND nd_quo(int mod,PGeoBucket bucket,NDV d)
+{
+	NM mq0,mq;
+	NMV tm;
+	Q q;
+	int i,nv,sg,c,c1,c2,hindex;
+	ND p,t,r;
+	N tnm;
+
+	if ( !p ) return 0;
+	else {
+		nv = NV(d);
+		mq0 = 0;
+		tm = (NMV)ALLOCA(nmv_adv);
+		while ( 1 ) {
+			hindex = mod?head_pbucket(mod,bucket):head_pbucket_q(bucket);
+			if ( hindex < 0 ) break;
+			p = bucket->body[hindex];
+			NEXTNM(mq0,mq);
+			ndl_sub(HDL(p),HDL(d),DL(mq));
+			ndl_copy(DL(mq),DL(tm));
+			if ( mod ) {
+				c1 = invm(HCM(d),mod); c2 = HCM(p);
+				DMAR(c1,c2,0,mod,c); CM(mq) = c;
+				CM(tm) = mod-c;
+			} else {
+				divsn(NM(HCQ(p)),NM(HCQ(d)),&tnm);
+				NTOQ(tnm,SGN(HCQ(p))*SGN(HCQ(d)),CQ(mq));
+				chsgnq(CQ(mq),&CQ(tm));
+			}
+			t = ndv_mul_nmv_trunc(mod,tm,d,HDL(d));
+			bucket->body[hindex] = nd_remove_head(p);
+			t = nd_remove_head(t);
+			add_pbucket(mod,bucket,t);
+		}
+		if ( !mq0 )
+			r = 0;
+		else {
+			NEXT(mq) = 0;
+			for ( i = 0, mq = mq0; mq; mq = NEXT(mq), i++ );
+			MKND(nv,mq0,i,r);
+			/* XXX */
+			SG(r) = HTD(r);
+		}
+		return r;
+	}
+}
+
 void ndv_realloc(NDV p,int obpe,int oadv,EPOS oepos)
 {
 	NMV m,mr,mr0,t;
@@ -3161,7 +3407,7 @@ ND ptond(VL vl,VL dvl,P p)
 		w = (DCP *)ALLOCA(k*sizeof(DCP));
 		for ( dc = DC(p), j = 0; j < k; dc = NEXT(dc), j++ ) w[j] = dc;
 		for ( i = 0, tvl = dvl, v = VR(p);
-			vl && tvl->v != v; tvl = NEXT(tvl), i++ );
+			tvl && tvl->v != v; tvl = NEXT(tvl), i++ );
 		if ( !tvl ) {
 			for ( j = k-1, s = 0, MKV(v,x); j >= 0; j-- ) {
 				t = ptond(vl,dvl,COEF(w[j]));
@@ -3234,7 +3480,9 @@ NDV ndtondv(int mod,ND p)
 		m0 = m = (NMV)GC_malloc_atomic_ignore_off_page(len*nmv_adv);
 	else
 		m0 = m = MALLOC(len*nmv_adv);
+#if 0
 	ndv_alloc += nmv_adv*len;
+#endif
 	for ( t = BDY(p), i = 0; t; t = NEXT(t), i++, NMV_ADV(m) ) {
 		ndl_copy(DL(t),DL(m));
 		CQ(m) = CQ(t);
@@ -3354,14 +3602,29 @@ void nd_init_ord(struct order_spec *ord)
 			}
 			break;
 		case 1:
+			/* block order */
 			/* XXX */
 			nd_dcomp = -1;
 			nd_isrlex = 0;
 			ndl_compare_function = ndl_block_compare;
 			break;
 		case 2:
-			error("nd_init_ord : matrix order is not supported yet.");
+			/* matrix order */
+			/* XXX */
+			nd_dcomp = -1;
+			nd_isrlex = 0;
+			nd_matrix_len = ord->ord.matrix.row;
+			nd_matrix = ord->ord.matrix.matrix;
+			ndl_compare_function = ndl_matrix_compare;
 			break;
+		case 3:
+			/* composite order */
+			nd_dcomp = -1;
+			nd_isrlex = 0;
+			nd_worb_len = ord->ord.composite.length;
+			nd_worb = ord->ord.composite.w_or_b;
+			ndl_compare_function = ndl_composite_compare;
+			break;
 	}
 	nd_ord = ord;
 }
@@ -3372,7 +3635,8 @@ BlockMask nd_create_blockmask(struct order_spec *ord)
 	UINT *t;
 	BlockMask bm;
 
-	if ( !ord->id )
+	/* we only create mask table for block order */
+	if ( ord->id != 1 )
 		return 0;
 	n = ord->ord.block.length;
 	bm = (BlockMask)MALLOC(sizeof(struct oBlockMask));
@@ -3430,7 +3694,14 @@ EPOS nd_create_epos(struct order_spec *ord)
 			}
 			break;
 		case 2:
-			error("nd_create_epos : matrix order is not supported yet.");
+			/* matrix order */
+		case 3:
+			/* composite order */
+			for ( i = 0; i < nd_nvar; i++ ) {
+				epos[i].i = nd_exporigin + i/nd_epw;
+				epos[i].s = (nd_epw-(i%nd_epw)-1)*nd_bpe;
+			}
+			break;
 	}
 	return epos;
 }
@@ -3446,6 +3717,10 @@ void nd_nf_p(P f,LIST g,LIST v,int m,struct order_spec
 	int stat,nvar,max,e;
 	union oNDC dn;
 
+	if ( !f ) {
+		*rp = 0;
+		return;
+	}
 	pltovl(v,&vv);
 	for ( nvar = 0, tv = vv; tv; tv = NEXT(tv), nvar++ );
 
@@ -3482,7 +3757,7 @@ void nd_nf_p(P f,LIST g,LIST v,int m,struct order_spec
 		stat = nd_nf(m,nd,nd_ps,1,0,&nf);
 		if ( !stat ) {
 			nd_psn++;
-			nd_reconstruct(m,0,0);
+			nd_reconstruct(0,0);
 			nd_psn--;
 		} else
 			break;
@@ -3506,47 +3781,22 @@ int nd_to_vect(int mod,UINT *s0,int n,ND d,UINT *r)
 	return i;
 }
 
-int ndv_to_vect(int mod,UINT *s0,int n,NDV d,UINT *r)
+int nd_to_vect_q(UINT *s0,int n,ND d,Q *r)
 {
-	NMV m;
+	NM m;
 	UINT *t,*s;
-	int i,j,len;
+	int i;
 
 	for ( i = 0; i < n; i++ ) r[i] = 0;
-	m = BDY(d);
-	len = LEN(d);
-	for ( i = j = 0, s = s0; j < len; j++, NMV_ADV(m)) {
+	for ( i = 0, s = s0, m = BDY(d); m; m = NEXT(m) ) {
 		t = DL(m);
 		for ( ; !ndl_equal(t,s); s += nd_wpd, i++ );
-		r[i] = CM(m);
+		r[i] = CQ(m);
 	}
 	for ( i = 0; !r[i]; i++ );
 	return i;
 }
 
-int nm_ind_pair_to_vect(int mod,UINT *s0,int n,NM_ind_pair pair,UINT *r)
-{
-	NM m;
-	NMV mr;
-	UINT *d,*t,*s;
-	NDV p;
-	int i,j,len;
-
-	m = pair->mul;
-	d = DL(m);
-	p = nd_ps[pair->index];
-	t = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
-	for ( i = 0; i < n; i++ ) r[i] = 0;
-	len = LEN(p);
-	for ( i = j = 0, s = s0, mr = BDY(p); j < len; j++, NMV_ADV(mr) ) {
-		ndl_add(d,DL(mr),t);	
-		for ( ; !ndl_equal(t,s); s += nd_wpd, i++ );
-		r[i] = CM(mr);
-	}
-	for ( i = 0; !r[i]; i++ );
-	return i;
-}
-
 IndArray nm_ind_pair_to_vect_compress(int mod,UINT *s0,int n,NM_ind_pair pair)
 {
 	NM m;
@@ -3596,6 +3846,63 @@ IndArray nm_ind_pair_to_vect_compress(int mod,UINT *s0
 }
 
 
+int ndv_reduce_vect_q(Q *svect,int col,IndArray *imat,NM_ind_pair *rp0,int nred)
+{
+	int i,j,k,len,pos,prev;
+	Q cs,mcs,c1,c2,cr,gcd,t;
+	IndArray ivect;
+	unsigned char *ivc;
+	unsigned short *ivs;
+	unsigned int *ivi;
+	NDV redv;
+	NMV mr;
+	NODE rp;
+	int maxrs;
+
+	maxrs = 0;
+	for ( i = 0; i < nred; i++ ) {
+		ivect = imat[i];
+		k = ivect->head;
+		if ( svect[k] ) {
+			maxrs = MAX(maxrs,rp0[i]->sugar);
+			redv = nd_ps[rp0[i]->index];
+			len = LEN(redv); mr = BDY(redv);
+			igcd_cofactor(svect[k],CQ(mr),&gcd,&cs,&cr);
+			chsgnq(cs,&mcs);
+			if ( !UNIQ(cr) ) {
+				for ( j = 0; j < col; j++ ) {
+					mulq(svect[j],cr,&c1); svect[j] = c1;
+				}
+			}
+			svect[k] = 0; prev = k;
+			switch ( ivect->width ) {
+				case 1:
+					ivc = ivect->index.c;
+					for ( j = 1, NMV_ADV(mr); j < len; j++, NMV_ADV(mr) ) {
+						pos = prev+ivc[j]; prev = pos;
+						mulq(CQ(mr),mcs,&c2); addq(svect[pos],c2,&t); svect[pos] = t;
+					}
+					break;
+				case 2:
+					ivs = ivect->index.s; 
+					for ( j = 1, NMV_ADV(mr); j < len; j++, NMV_ADV(mr) ) {
+						pos = prev+ivs[j]; prev = pos;
+						mulq(CQ(mr),mcs,&c2); addq(svect[pos],c2,&t); svect[pos] = t;
+					}
+					break;
+				case 4:
+					ivi = ivect->index.i;
+					for ( j = 1, NMV_ADV(mr); j < len; j++, NMV_ADV(mr) ) {
+						pos = prev+ivi[j]; prev = pos;
+						mulq(CQ(mr),mcs,&c2); addq(svect[pos],c2,&t); svect[pos] = t;
+					}
+					break;
+			}
+		}
+	}
+	return maxrs;
+}
+
 int ndv_reduce_vect(int m,UINT *svect,int col,IndArray *imat,NM_ind_pair *rp0,int nred)
 {
 	int i,j,k,len,pos,prev;
@@ -3719,7 +4026,9 @@ NDV vect_to_ndv(UINT *vect,int spcol,int col,int *rhea
 	if ( !len ) return 0;
 	else {
 		mr0 = (NMV)GC_malloc_atomic_ignore_off_page(nmv_adv*len);
+#if 0
 		ndv_alloc += nmv_adv*len;
+#endif
 		mr = mr0; 
 		p = s0vect;
 		for ( j = k = 0; j < col; j++, p += nd_wpd )
@@ -3733,6 +4042,36 @@ NDV vect_to_ndv(UINT *vect,int spcol,int col,int *rhea
 	}
 }
 
+NDV vect_to_ndv_q(Q *vect,int spcol,int col,int *rhead,UINT *s0vect)
+{
+	int j,k,len;
+	UINT *p;
+	Q c;
+	NDV r;
+	NMV mr0,mr;
+
+	for ( j = 0, len = 0; j < spcol; j++ ) if ( vect[j] ) len++;
+	if ( !len ) return 0;
+	else {
+		mr0 = (NMV)GC_malloc(nmv_adv*len);
+#if 0
+		ndv_alloc += nmv_adv*len;
+#endif
+		mr = mr0; 
+		p = s0vect;
+		for ( j = k = 0; j < col; j++, p += nd_wpd )
+			if ( !rhead[j] ) {
+				if ( c = vect[k++] ) {
+					if ( DN(c) )
+						error("afo");
+					ndl_copy(p,DL(mr)); CQ(mr) = c; NMV_ADV(mr);
+				}
+			}
+		MKNDV(nd_nvar,mr0,len,r);
+		return r;
+	}
+}
+
 int nd_sp_f4(int m,ND_pairs l,PGeoBucket bucket)
 {
 	ND_pairs t;
@@ -3812,9 +4151,9 @@ NODE nd_f4(int m)
 	PGeoBucket bucket;
 	struct oEGT eg0,eg1,eg_f4;
 
-	if ( !m )
-		error("nd_f4 : not implemented");
+#if 0
 	ndv_alloc = 0;
+#endif
 	g = 0; d = 0;
 	for ( i = 0; i < nd_psn; i++ ) {
 		d = update_pairs(d,g,i);
@@ -3829,7 +4168,7 @@ NODE nd_f4(int m)
 		if ( !stat ) {
 			for ( t = l; NEXT(t); t = NEXT(t) );
 			NEXT(t) = d; d = l;
-			d = nd_reconstruct(m,0,d);
+			d = nd_reconstruct(0,d);
 			continue;
 		}
 		if ( bucket->m < 0 ) continue;
@@ -3837,7 +4176,7 @@ NODE nd_f4(int m)
 		if ( !col ) {
 			for ( t = l; NEXT(t); t = NEXT(t) );
 			NEXT(t) = d; d = l;
-			d = nd_reconstruct(m,0,d);
+			d = nd_reconstruct(0,d);
 			continue;
 		}
 		get_eg(&eg1); init_eg(&eg_f4); add_eg(&eg_f4,&eg0,&eg1);
@@ -3858,30 +4197,23 @@ NODE nd_f4(int m)
 		}
 	}
 	for ( r = g; r; r = NEXT(r) ) BDY(r) = (pointer)nd_ps[(int)BDY(r)];
+#if 0
 	fprintf(asir_out,"ndv_alloc=%d\n",ndv_alloc);
+#endif
 	return g;
 }
 
 NODE nd_f4_red(int m,ND_pairs sp0,UINT *s0vect,int col,NODE rp0)
 {
 	IndArray *imat;
-	int nsp,nred,spcol,sprow,a;
+	int nsp,nred,i;
 	int *rhead;
-	int i,j,k,l,rank;
-	NODE rp,r0,r;
+	NODE r0,rp;
 	ND_pairs sp;
-	ND spol;
-	int **spmat;
-	UINT *svect,*v;
-	int *colstat;
-	struct oEGT eg0,eg1,eg2,eg_f4,eg_f4_1,eg_f4_2;
 	NM_ind_pair *rvect;
-	int maxrs;
-	int *spsugar;
 
-	get_eg(&eg0);
 	for ( sp = sp0, nsp = 0; sp; sp = NEXT(sp), nsp++ );
-	nred = length(rp0); spcol = col-nred;
+	nred = length(rp0);
 	imat = (IndArray *)ALLOCA(nred*sizeof(IndArray));
 	rhead = (int *)ALLOCA(col*sizeof(int));
 	for ( i = 0; i < col; i++ ) rhead[i] = 0;
@@ -3893,7 +4225,30 @@ NODE nd_f4_red(int m,ND_pairs sp0,UINT *s0vect,int col
 		imat[i] = nm_ind_pair_to_vect_compress(m,s0vect,col,rvect[i]);
 		rhead[imat[i]->head] = 1;
 	}
+	if ( m )
+		r0 = nd_f4_red_main(m,sp0,nsp,s0vect,col,rvect,rhead,imat,nred);
+	else
+		r0 = nd_f4_red_q_main(sp0,nsp,s0vect,col,rvect,rhead,imat,nred);
+	return r0;
+}
 
+NODE nd_f4_red_main(int m,ND_pairs sp0,int nsp,UINT *s0vect,int col,
+        NM_ind_pair *rvect,int *rhead,IndArray *imat,int nred)
+{
+	int spcol,sprow,a;
+	int i,j,k,l,rank;
+	NODE r0,r;
+	ND_pairs sp;
+	ND spol;
+	int **spmat;
+	UINT *svect,*v;
+	int *colstat;
+	struct oEGT eg0,eg1,eg2,eg_f4,eg_f4_1,eg_f4_2;
+	int maxrs;
+	int *spsugar;
+
+	spcol = col-nred;
+	get_eg(&eg0);
 	/* elimination (1st step) */
 	spmat = (int **)ALLOCA(nsp*sizeof(UINT *));
 	svect = (UINT *)ALLOCA(col*sizeof(UINT));
@@ -3937,6 +4292,7 @@ NODE nd_f4_red(int m,ND_pairs sp0,UINT *s0vect,int col
 		SG((NDV)BDY(r)) = spsugar[i];
 		GC_free(spmat[i]);
 	}
+	if ( r0 ) NEXT(r) = 0;
 	for ( ; i < sprow; i++ ) GC_free(spmat[i]);
 	get_eg(&eg2); init_eg(&eg_f4_2); add_eg(&eg_f4_2,&eg1,&eg2);
 	init_eg(&eg_f4); add_eg(&eg_f4,&eg0,&eg2);
@@ -3949,6 +4305,74 @@ NODE nd_f4_red(int m,ND_pairs sp0,UINT *s0vect,int col
 	return r0;
 }
 
+NODE nd_f4_red_q_main(ND_pairs sp0,int nsp,UINT *s0vect,int col,
+        NM_ind_pair *rvect,int *rhead,IndArray *imat,int nred)
+{
+	int spcol,sprow,a;
+	int i,j,k,l,rank;
+	NODE r0,r;
+	ND_pairs sp;
+	ND spol;
+	Q **spmat;
+	Q *svect,*v;
+	int *colstat;
+	struct oEGT eg0,eg1,eg2,eg_f4,eg_f4_1,eg_f4_2;
+	int maxrs;
+	int *spsugar;
+
+	spcol = col-nred;
+	get_eg(&eg0);
+	/* elimination (1st step) */
+	spmat = (Q **)ALLOCA(nsp*sizeof(Q *));
+	svect = (Q *)ALLOCA(col*sizeof(Q));
+	spsugar = (int *)ALLOCA(nsp*sizeof(Q));
+	for ( a = sprow = 0, sp = sp0; a < nsp; a++, sp = NEXT(sp) ) {
+		nd_sp(0,0,sp,&spol);
+		if ( !spol ) continue;
+		nd_to_vect_q(s0vect,col,spol,svect);
+		maxrs = ndv_reduce_vect_q(svect,col,imat,rvect,nred);
+		for ( i = 0; i < col; i++ ) if ( svect[i] ) break;
+		if ( i < col ) {
+			spmat[sprow] = v = (Q *)MALLOC(spcol*sizeof(Q));
+			for ( j = k = 0; j < col; j++ )
+				if ( !rhead[j] ) v[k++] = svect[j];
+			spsugar[sprow] = MAX(maxrs,SG(spol));
+			sprow++;
+		}
+/*		nd_free(spol); */
+	}
+	get_eg(&eg1); init_eg(&eg_f4_1); add_eg(&eg_f4_1,&eg0,&eg1);
+	if ( DP_Print ) {
+		fprintf(asir_out,"elim1=%fsec,",eg_f4_1.exectime+eg_f4_1.gctime);
+		fflush(asir_out);
+	}
+	/* free index arrays */
+/*	for ( i = 0; i < nred; i++ ) GC_free(imat[i]->index.c); */
+
+	/* elimination (2nd step) */
+	colstat = (int *)ALLOCA(spcol*sizeof(int));
+	rank = nd_gauss_elim_q(spmat,spsugar,sprow,spcol,colstat);
+	r0 = 0;
+	for ( i = 0; i < rank; i++ ) {
+		NEXTNODE(r0,r); BDY(r) = 
+			(pointer)vect_to_ndv_q(spmat[i],spcol,col,rhead,s0vect);
+		SG((NDV)BDY(r)) = spsugar[i];
+/*		GC_free(spmat[i]); */
+	}
+	if ( r0 ) NEXT(r) = 0;
+
+/*	for ( ; i < sprow; i++ ) GC_free(spmat[i]); */
+	get_eg(&eg2); init_eg(&eg_f4_2); add_eg(&eg_f4_2,&eg1,&eg2);
+	init_eg(&eg_f4); add_eg(&eg_f4,&eg0,&eg2);
+	if ( DP_Print ) {
+		fprintf(asir_out,"elim2=%fsec\n",eg_f4_2.exectime+eg_f4_2.gctime);
+		fprintf(asir_out,"nsp=%d,nred=%d,spmat=(%d,%d),rank=%d  ",
+			nsp,nred,sprow,spcol,rank);
+		fprintf(asir_out,"%fsec\n",eg_f4.exectime+eg_f4.gctime);
+	}
+	return r0;
+}
+
 FILE *nd_write,*nd_read;
 
 void nd_send_int(int a) {
@@ -4012,7 +4436,9 @@ NDV nd_recv_ndv()
 	if ( !len ) return 0;
 	else {
 		m0 = m = (NMV)GC_malloc_atomic_ignore_off_page(nmv_adv*len);
+#if 0
 		ndv_alloc += len*nmv_adv;
+#endif
 		for ( i = 0; i < len; i++, NMV_ADV(m) ) {
 			CM(m) = nd_recv_int();	
 			nd_recv_intarray(DL(m),nd_wpd);
@@ -4203,6 +4629,58 @@ void nd_exec_f4_red_dist()
 	fflush(nd_write);
 }
 
+int nd_gauss_elim_q(Q **mat0,int *sugar,int row,int col,int *colstat)
+{
+	int mod,i,j,t,c,rank,rank0,inv;
+	int *ci,*ri;
+	Q dn;
+	MAT m,nm;
+	int **wmat;
+
+	/* XXX */
+	mod = 99999989;
+	wmat = (int **)ALLOCA(row*sizeof(int *));
+	for ( i = 0; i < row; i++ ) {
+		wmat[i] = (int *)ALLOCA(col*sizeof(int));
+		for ( j = 0; j < col; j++ ) {
+			if ( mat0[i][j] ) {
+				t = rem(NM(mat0[i][j]),mod);
+				if ( SGN(mat0[i][j]) < 0 ) t = mod-t;
+				wmat[i][j] = t;
+			} else
+				wmat[i][j] = 0;
+		}
+	}
+	rank0 = nd_gauss_elim_mod(wmat,sugar,row,col,mod,colstat);
+	NEWMAT(m); m->row = row; m->col = col; m->body = (pointer **)mat0;
+	rank = generic_gauss_elim(m,&nm,&dn,&ri,&ci);
+	if ( rank != rank0 )
+		error("afo");
+	for ( i = 0; i < row; i++ )
+		for ( j = 0; j < col; j++ )
+			mat0[i][j] = 0;
+	c = col-rank;
+	for ( i = 0; i < rank; i++ ) {
+		mat0[i][ri[i]] = dn;	
+		for ( j = 0; j < c; j++ )
+			mat0[i][ci[j]] = (Q)BDY(nm)[i][j];
+	}
+	inv = invm(rem(NM(dn),mod),mod);
+	if ( SGN(dn) < 0 ) inv = mod-inv;
+	for ( i = 0; i < row; i++ )
+		for ( j = 0; j < col; j++ ) {
+			if ( mat0[i][j] ) {
+				t = rem(NM(mat0[i][j]),mod);
+				if ( SGN(mat0[i][j]) < 0 ) t = mod-t;
+			} else
+				t = 0;
+			c = dmar(t,inv,0,mod);
+			if ( wmat[i][j] != c )
+				error("afo");
+		}
+	return rank;
+}
+
 int nd_gauss_elim_mod(int **mat0,int *sugar,int row,int col,int md,int *colstat)
 {
 	int i,j,k,l,inv,a,rank,s;
@@ -4408,4 +4886,213 @@ NDV ndv_load(int index)
 	MKNDV(nv,m0,len,d);
 	SG(d) = sugar;
 	return d;
+}
+
+void nd_det(int mod,MAT f,P *rp)
+{
+	VL fv,tv;
+	int n,i,j,max,e,nvar,sgn,k0,l0,len0,len,k,l,a;
+	pointer **m;
+	Q mone;
+	NDV **dm;
+	NDV *t,*mi,*mj;
+	NDV d,s,mij,mjj;
+	ND u;
+	NMV nmv;
+	UINT *bound;
+	PGeoBucket bucket;
+	struct order_spec *ord;
+
+	create_order_spec(0,0,&ord);
+	nd_init_ord(ord);
+	get_vars((Obj)f,&fv);
+	if ( f->row != f->col )
+		error("nd_det : non-square matrix");
+	n = f->row;
+	for ( nvar = 0, tv = fv; tv; tv = NEXT(tv), nvar++ );
+	m = f->body;
+	for ( i = 0, max = 0; i < n; i++ )
+		for ( j = 0; j < n; j++ )
+			for ( tv = fv; tv; tv = NEXT(tv) ) {
+				e = getdeg(tv->v,(P)m[i][j]);
+				max = MAX(e,max);
+			}
+	nd_setup_parameters(nvar,max);
+	dm = (NDV **)almat_pointer(n,n);
+	for ( i = 0, max = 0; i < n; i++ )
+		for ( j = 0; j < n; j++ ) {
+			dm[i][j] = ptondv(CO,fv,m[i][j]);
+			if ( mod ) ndv_mod(mod,dm[i][j]);
+			if ( dm[i][j] && !LEN(dm[i][j]) ) dm[i][j] = 0;
+		}
+	d = ptondv(CO,fv,(P)ONE);
+	if ( mod ) ndv_mod(mod,d);
+	chsgnq(ONE,&mone);
+	for ( j = 0, sgn = 1; j < n; j++ ) {
+		if ( DP_Print ) fprintf(stderr,"j=%d\n",j);
+		for ( i = j; i < n && !dm[i][j]; i++ );
+		if ( i == n ) {
+			*rp = 0;
+			return;
+		}
+		k0 = i; l0 = j; len0 = LEN(dm[k0][l0]);
+		for ( k = j; k < n; k++ )
+			for ( l = j; l < n; l++ )
+				if ( dm[k][l] && LEN(dm[k][l]) < len0 ) {
+					k0 = k; l0 = l; len0 = LEN(dm[k][l]);
+				}
+		if ( k0 != j ) {
+			t = dm[j]; dm[j] = dm[k0]; dm[k0] = t;
+			sgn = -sgn;
+		}
+		if ( l0 != j ) {
+			for ( k = j; k < n; k++ ) {
+				s = dm[k][j]; dm[k][j] = dm[k][l0]; dm[k][l0] = s;
+			}
+			sgn = -sgn;
+		}
+		bound = nd_det_compute_bound(dm,n,j);
+		if ( ndl_check_bound(bound,bound) )
+			nd_det_reconstruct(dm,n,j,d);
+
+		for ( i = j+1, mj = dm[j], mjj = mj[j]; i < n; i++ ) {
+/*			if ( DP_Print ) fprintf(stderr,"	i=%d\n		",i); */
+			mi = dm[i]; mij = mi[j];
+			if ( mod )
+				ndv_mul_c(mod,mij,mod-1);
+			else
+				ndv_mul_c_q(mij,mone);
+			for ( k = j+1; k < n; k++ ) {
+/*				if ( DP_Print ) fprintf(stderr,"k=%d ",k); */
+				bucket = create_pbucket();
+				if ( mi[k] ) {
+					nmv = BDY(mjj); len = LEN(mjj);
+					for ( a = 0; a < len; a++, NMV_ADV(nmv) ) {
+						u = ndv_mul_nmv_trunc(mod,nmv,mi[k],DL(BDY(d)));
+						add_pbucket(mod,bucket,u);
+					}
+				}
+				if ( mj[k] && mij ) {
+					nmv = BDY(mij); len = LEN(mij);
+					for ( a = 0; a < len; a++, NMV_ADV(nmv) ) {
+						u = ndv_mul_nmv_trunc(mod,nmv,mj[k],DL(BDY(d)));
+						add_pbucket(mod,bucket,u);
+					}
+				}
+				u = nd_quo(mod,bucket,d);
+				mi[k] = ndtondv(mod,u);
+			}
+/*			if ( DP_Print ) fprintf(stderr,"\n",k); */
+		}
+		d = mjj;
+	}
+	if ( sgn < 0 )
+		if ( mod )
+			ndv_mul_c(mod,d,mod-1);
+		else
+			ndv_mul_c_q(d,mone);
+	*rp = ndvtop(mod,CO,fv,d);
+}
+
+ND ndv_mul_nmv_trunc(int mod,NMV m0,NDV p,UINT *d)
+{
+	NM mr,mr0;
+	NM tnm;
+	NMV m;
+	UINT *d0,*dt,*dm;
+	int c,n,td,i,c1,c2,len;
+	Q q;
+	ND r;
+
+	if ( !p ) return 0;
+	else {
+		n = NV(p); m = BDY(p); len = LEN(p);
+		d0 = DL(m0);
+		td = TD(d);
+		mr0 = 0;
+		NEWNM(tnm);
+		if ( mod ) {
+			c = CM(m0);
+			for ( i = 0; i < len; i++, NMV_ADV(m) ) {
+				ndl_add(DL(m),d0,DL(tnm));
+				if ( ndl_reducible(DL(tnm),d) ) {
+					NEXTNM(mr0,mr);
+					c1 = CM(m); DMAR(c1,c,0,mod,c2); CM(mr) = c2;
+					ndl_copy(DL(tnm),DL(mr));
+				}
+			}
+		} else {
+			q = CQ(m0);
+			for ( i = 0; i < len; i++, NMV_ADV(m) ) {
+				ndl_add(DL(m),d0,DL(tnm));
+				if ( ndl_reducible(DL(tnm),d) ) {
+					NEXTNM(mr0,mr);
+					mulq(CQ(m),q,&CQ(mr));
+					ndl_copy(DL(tnm),DL(mr));
+				}
+			}
+		}
+		if ( !mr0 )
+			return 0;
+		else {
+			NEXT(mr) = 0; 
+			for ( len = 0, mr = mr0; mr; mr = NEXT(mr), len++ );
+			MKND(NV(p),mr0,len,r);
+			SG(r) = SG(p) + TD(d0);
+			return r;
+		}
+	}
+}
+
+void nd_det_reconstruct(NDV **dm,int n,int j,NDV d)
+{
+	int i,obpe,oadv,h,k,l;
+	static NM prev_nm_free_list;
+	EPOS oepos;
+
+	obpe = nd_bpe;
+	oadv = nmv_adv;
+	oepos = nd_epos;
+	if ( obpe < 2 ) nd_bpe = 2;
+	else if ( obpe < 3 ) nd_bpe = 3;
+	else if ( obpe < 4 ) nd_bpe = 4;
+	else if ( obpe < 5 ) nd_bpe = 5;
+	else if ( obpe < 6 ) nd_bpe = 6;
+	else if ( obpe < 8 ) nd_bpe = 8;
+	else if ( obpe < 10 ) nd_bpe = 10;
+	else if ( obpe < 16 ) nd_bpe = 16;
+	else if ( obpe < 32 ) nd_bpe = 32;
+	else error("nd_det_reconstruct : exponent too large");
+
+	nd_setup_parameters(nd_nvar,0);
+	prev_nm_free_list = _nm_free_list;
+	_nm_free_list = 0;
+	for ( k = j; k < n; k++ )
+		for (l = j; l < n; l++ )
+			ndv_realloc(dm[k][l],obpe,oadv,oepos);
+	ndv_realloc(d,obpe,oadv,oepos);
+	prev_nm_free_list = 0;
+#if 0
+	GC_gcollect();
+#endif
+}
+
+UINT *nd_det_compute_bound(NDV **dm,int n,int j)
+{
+	UINT *d0,*d1,*d,*t,*r;
+	int k,l;
+
+	d0 = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
+	d1 = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
+	for ( k = 0; k < nd_wpd; k++ ) d0[k] = 0;
+	for ( k = j; k < n; k++ )
+		for ( l = j; l < n; l++ )
+			if ( dm[k][l] ) {
+				d = ndv_compute_bound(dm[k][l]);
+				ndl_lcm(d,d0,d1);
+				t = d1; d1 = d0; d0 = t;
+			}
+	r = (UINT *)ALLOCA(nd_wpd*sizeof(UINT));
+	for ( k = 0; k < nd_wpd; k++ ) r[k] = d0[k];
+	return r;
 }