[BACK]Return to addmul_1.asm CVS log [TXT][DIR] Up to [local] / OpenXM_contrib / gmp / mpn / sparc32 / v9

Diff for /OpenXM_contrib/gmp/mpn/sparc32/v9/Attic/addmul_1.asm between version 1.1.1.1 and 1.1.1.2

version 1.1.1.1, 2000/09/09 14:12:41 version 1.1.1.2, 2003/08/25 16:06:26
Line 1 
Line 1 
 dnl  SPARC v9 32-bit mpn_addmul_1 -- Multiply a limb vector with a limb and  dnl  SPARC v9 32-bit mpn_addmul_1 -- Multiply a limb vector with a limb and add
 dnl  add the result to a second limb vector.  dnl  the result to a second limb vector.
   
 dnl  Copyright (C) 1998, 2000 Free Software Foundation, Inc.  dnl  Copyright 1998, 2000, 2001 Free Software Foundation, Inc.
   
 dnl  This file is part of the GNU MP Library.  dnl  This file is part of the GNU MP Library.
   
Line 20  dnl  along with the GNU MP Library; see the file COPYI
Line 20  dnl  along with the GNU MP Library; see the file COPYI
 dnl  the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,  dnl  the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,
 dnl  MA 02111-1307, USA.  dnl  MA 02111-1307, USA.
   
   
 include(`../config.m4')  include(`../config.m4')
   
 C INPUT PARAMETERS  C Algorithm: We use two floating-point multiplies per limb product, with the
 C res_ptr       i0  C invariant v operand split into two 16-bit pieces, and the u operand split
 C s1_ptr        i1  C into 32-bit pieces.  We convert the two 48-bit products and transfer them to
 C size          i2  C the integer unit.
 C s2_limb       i3  
   
 ASM_START()  C Speed: 7 cycles/limb on UltraSPARC-1/2.
   
         TEXT  C Possible optimizations:
         ALIGN(4)  C   1. Combine 32-bit memory operations into 64-bit operations.  Since we're
 L(noll):  C      memory bandwidth limited, this could save 1.5 cycles/limb.
         .word   0  C   2. Unroll the inner loop.  Since we already use alternate temporary areas,
   C      it is very straightforward to unroll, using an exit branch midways.
   C      Unrolling would allow deeper scheduling which could improve speed for L2
   C      cache case.
   C   3. For mpn_mul_1: Use more alternating temp areas.  The std'es and ldx'es
   C      aren't sufficiently apart-scheduled with just two temp areas.
   C   4. Do some cross-jumping to save about 1/2 the code size.
   C   5. Specialize for particular v values.  If its upper 16 bits are zero, we
   C      could save many operations.
   
 PROLOGUE(mpn_addmul_1)  C INPUT PARAMETERS
         save %sp,-256,%sp  C rp    i0
   C up    i1
   C n     i2
   C v     i3
   
 ifdef(`PIC',  define(`FSIZE',224)
 `L(pc): rd      %pc,%o7  
         ld      [%o7+L(noll)-L(pc)],%f10',  
 `       sethi   %hi(L(noll)),%g1  
         ld      [%g1+%lo(L(noll))],%f10')  
   
         sethi   %hi(0xffff0000),%o0  ASM_START()
         andn    %i3,%o0,%o0  PROLOGUE(mpn_addmul_1)
         st      %o0,[%fp-16]          add     %sp, -FSIZE, %sp
         ld      [%fp-16],%f11          sethi   %hi(0xffff), %g1
         fxtod   %f10,%f6          srl     %o3, 16, %g2
           or      %g1, %lo(0xffff), %g1
           and     %o3, %g1, %g1
           stx     %g1, [%sp+104]
           stx     %g2, [%sp+112]
           ldd     [%sp+104], %f6
           ldd     [%sp+112], %f8
           fxtod   %f6, %f6
           fxtod   %f8, %f8
           ld      [%sp+104], %f10         C zero f10
   
         srl     %i3,16,%o0          mov     0, %g3                  C cy = 0
         st      %o0,[%fp-16]  
         ld      [%fp-16],%f11  
         fxtod   %f10,%f8  
   
         mov     0,%g3                   C cy = 0  define(`fanop', `fitod %f18, %f0')      C  A quasi nop running in the FA pipe
   
         ld      [%i1],%f11          add     %sp, 160, %o5           C point in scratch area
         subcc   %i2,1,%i2          and     %o5, -32, %o5           C align at 0 (mod 32) in scratch area
         be,pn   %icc,L(end1)  
         add     %i1,4,%i1               C s1_ptr++  
   
         fxtod   %f10,%f2          subcc   %o2, 1, %o2
         ld      [%i1],%f11          ld      [%o1], %f11             C read up[i]
         add     %i1,4,%i1               C s1_ptr++          add     %o1, 4, %o1             C up++
         fmuld   %f2,%f8,%f16          bne,pt  %icc, .L_two_or_more
         fmuld   %f2,%f6,%f4          fxtod   %f10, %f2
         fdtox   %f16,%f14  .L_1:   fmuld   %f2, %f8, %f16
         std     %f14,[%fp-24]          fmuld   %f2, %f6, %f4
         fdtox   %f4,%f12          fdtox   %f16, %f14
         subcc   %i2,1,%i2          fdtox   %f4, %f12
         be,pn   %icc,L(end2)          std     %f14, [%o5+16]
         std     %f12,[%fp-16]          std     %f12, [%o5+24]
           ldx     [%o5+16], %g2           C p16
           ldx     [%o5+24], %g1           C p0
           lduw    [%o0], %g5              C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0]
           srlx    %g4, 32, %g3            C new cy
           mov     %g3, %o0
           retl
           sub     %sp, -FSIZE, %sp
   
         fxtod   %f10,%f2          .align  16
         ld      [%i1],%f11  .L_two_or_more:
         add     %i1,4,%i1               C s1_ptr++          subcc   %o2, 1, %o2
         fmuld   %f2,%f8,%f16          ld      [%o1], %f11             C read up[i]
         fmuld   %f2,%f6,%f4          fmuld   %f2, %f8, %f16
         fdtox   %f16,%f14          fmuld   %f2, %f6, %f4
         std     %f14,[%fp-40]          add     %o1, 4, %o1             C up++
         fdtox   %f4,%f12          bne,pt  %icc, .L_three_or_more
         subcc   %i2,1,%i2          fxtod   %f10, %f2
         be,pn   %icc,L(end3)  .L_2:   fdtox   %f16, %f14
         std     %f12,[%fp-32]          fdtox   %f4, %f12
           std     %f14, [%o5+16]
           fmuld   %f2, %f8, %f16
           std     %f12, [%o5+24]
           fmuld   %f2, %f6, %f4
           fdtox   %f16, %f14
           fdtox   %f4, %f12
           std     %f14, [%o5+0]
           std     %f12, [%o5+8]
           lduw    [%o0], %g5              C read rp[i]
           ldx     [%o5+16], %g2           C p16
           ldx     [%o5+24], %g1           C p0
           sllx    %g2, 16, %g4            C (p16 << 16)           * crossjmp pt
           ldx     [%o5+0], %g2            C p16
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+8], %g1            C p0
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+0]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+4], %g5            C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+4]
           srlx    %g4, 32, %g3            C new cy
           mov     %g3, %o0
           retl
           sub     %sp, -FSIZE, %sp
   
         fxtod   %f10,%f2          .align  16
         ld      [%i1],%f11  .L_three_or_more:
         add     %i1,4,%i1               C s1_ptr++          subcc   %o2, 1, %o2
         ld      [%i0],%g5          ld      [%o1], %f11             C read up[i]
         ldx     [%fp-24],%g2            C p16          fdtox   %f16, %f14
         fmuld   %f2,%f8,%f16          fdtox   %f4, %f12
         ldx     [%fp-16],%g1            C p0          std     %f14, [%o5+16]
         fmuld   %f2,%f6,%f4          fmuld   %f2, %f8, %f16
         sllx    %g2,16,%g2              C align p16          std     %f12, [%o5+24]
         fdtox   %f16,%f14          fmuld   %f2, %f6, %f4
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)          add     %o1, 4, %o1             C up++
         std     %f14,[%fp-24]          bne,pt  %icc, .L_four_or_more
         fdtox   %f4,%f12          fxtod   %f10, %f2
         add     %i0,4,%i0               C res_ptr++  .L_3:   fdtox   %f16, %f14
         subcc   %i2,1,%i2          fdtox   %f4, %f12
         be,pn   %icc,L(end4)          std     %f14, [%o5+0]
         std     %f12,[%fp-16]          fmuld   %f2, %f8, %f16
           std     %f12, [%o5+8]
           fmuld   %f2, %f6, %f4
           fdtox   %f16, %f14
           ldx     [%o5+16], %g2           C p16
           fdtox   %f4, %f12
           ldx     [%o5+24], %g1           C p0
           std     %f14, [%o5+16]
           std     %f12, [%o5+24]
           lduw    [%o0], %g5              C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           ldx     [%o5+0], %g2            C p16
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+8], %g1            C p0
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+0]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+4], %g5            C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           ldx     [%o5+16], %g2           C p16
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+24], %g1           C p0
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+4]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+8], %g5            C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+8]
           srlx    %g4, 32, %g3            C new cy
           mov     %g3, %o0
           retl
           sub     %sp, -FSIZE, %sp
   
         b,a     L(loopm)          .align  16
   .L_four_or_more:
           subcc   %o2, 1, %o2
           ld      [%o1], %f11             C read up[i]
           fdtox   %f16, %f14
           fdtox   %f4, %f12
           std     %f14, [%o5+0]
           fmuld   %f2, %f8, %f16
           std     %f12, [%o5+8]
           fmuld   %f2, %f6, %f4
           add     %o1, 4, %o1             C up++
           bne,pt  %icc, .L_five_or_more
           fxtod   %f10, %f2
   .L_4:   fdtox   %f16, %f14
           ldx     [%o5+16], %g2           C p16
           fdtox   %f4, %f12
           ldx     [%o5+24], %g1           C p0
           std     %f14, [%o5+16]
           fmuld   %f2, %f8, %f16
           std     %f12, [%o5+24]
           fmuld   %f2, %f6, %f4
           add     %o1, 4, %o1             C up++
           lduw    [%o0], %g5              C read rp[i]
           fdtox   %f16, %f14
           sllx    %g2, 16, %g4            C (p16 << 16)
           ldx     [%o5+0], %g2            C p16
           fdtox   %f4, %f12
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+8], %g1            C p0
           std     %f14, [%o5+0]
           add     %g5, %g4, %g4           C p += rp[i]
           std     %f12, [%o5+8]
           stw     %g4, [%o0+0]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+4], %g5            C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           ldx     [%o5+16], %g2           C p16
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+24], %g1           C p0
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+4]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+8], %g5            C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           ldx     [%o5+0], %g2            C p16
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           ldx     [%o5+8], %g1            C p0
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+8]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+12], %g5           C read rp[i]
           sllx    %g2, 16, %g4            C (p16 << 16)
           add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
           add     %g3, %g4, %g4           C p += cy
           add     %g5, %g4, %g4           C p += rp[i]
           stw     %g4, [%o0+12]
           srlx    %g4, 32, %g3            C new cy
           mov     %g3, %o0
           retl
           sub     %sp, -FSIZE, %sp
   
           .align  16
   .L_five_or_more:
           subcc   %o2, 1, %o2
           ld      [%o1], %f11             C read up[i]
           fdtox   %f16, %f14
           ldx     [%o5+16], %g2           C p16
           fdtox   %f4, %f12
           ldx     [%o5+24], %g1           C p0
           std     %f14, [%o5+16]
           fmuld   %f2, %f8, %f16
           std     %f12, [%o5+24]
           fmuld   %f2, %f6, %f4
           add     %o1, 4, %o1             C up++
           lduw    [%o0], %g5              C read rp[i]
           bne,pt  %icc, .Loop
           fxtod   %f10, %f2
           b,a     .L_out_5
   
   C BEGIN MAIN LOOP
         .align 16          .align 16
 C BEGIN LOOP  C -- 0
 L(loop):  .Loop:  nop
         fxtod   %f10,%f2          subcc   %o2, 1, %o2
         ld      [%i1],%f11          ld      [%o1], %f11             C read up[i]
         add     %i1,4,%i1               C s1_ptr++          fdtox   %f16, %f14
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)  C -- 1
         add     %g3,%g1,%g4             C p += cy          sllx    %g2, 16, %g4            C (p16 << 16)
         ld      [%i0],%g5          add     %o0, 4, %o0             C rp++
         srlx    %g4,32,%g3          ldx     [%o5+0], %g2            C p16
         ldx     [%fp-24],%g2            C p16          fdtox   %f4, %f12
         fmuld   %f2,%f8,%f16  C -- 2
         ldx     [%fp-16],%g1            C p0          nop
         fmuld   %f2,%f6,%f4          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         sllx    %g2,16,%g2              C align p16          ldx     [%o5+8], %g1            C p0
         st      %g4,[%i0-4]          fanop
         fdtox   %f16,%f14  C -- 3
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)          nop
         std     %f14,[%fp-24]          add     %g3, %g4, %g4           C p += cy
         fdtox   %f4,%f12          std     %f14, [%o5+0]
         std     %f12,[%fp-16]          fmuld   %f2, %f8, %f16
         subcc   %i2,1,%i2  C -- 4
         be,pn   %icc,L(loope)          nop
         add     %i0,4,%i0               C res_ptr++          add     %g5, %g4, %g4           C p += rp[i]
 L(loopm):          std     %f12, [%o5+8]
         fxtod   %f10,%f2          fmuld   %f2, %f6, %f4
         ld      [%i1],%f11  C -- 5
         add     %i1,4,%i1               C s1_ptr++          xor     %o5, 16, %o5            C alternate scratch variables
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)          add     %o1, 4, %o1             C up++
         add     %g3,%g1,%g4             C p += cy          stw     %g4, [%o0-4]
         ld      [%i0],%g5          fanop
         srlx    %g4,32,%g3  C -- 6
         ldx     [%fp-40],%g2            C p16          srlx    %g4, 32, %g3            C new cy
         fmuld   %f2,%f8,%f16          lduw    [%o0], %g5              C read rp[i]
         ldx     [%fp-32],%g1            C p0          bne,pt  %icc, .Loop
         fmuld   %f2,%f6,%f4          fxtod   %f10, %f2
         sllx    %g2,16,%g2              C align p16  C END MAIN LOOP
         st      %g4,[%i0-4]  
         fdtox   %f16,%f14  
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)  
         std     %f14,[%fp-40]  
         fdtox   %f4,%f12  
         std     %f12,[%fp-32]  
         subcc   %i2,1,%i2  
         bne,pt  %icc,L(loop)  
         add     %i0,4,%i0               C res_ptr++  
 C END LOOP  
   
         fxtod   %f10,%f2  
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)  
         add     %g3,%g1,%g4             C p += cy  
         ld      [%i0],%g5  
         srlx    %g4,32,%g3  
         ldx     [%fp-24],%g2            C p16  
         fmuld   %f2,%f8,%f16  
         ldx     [%fp-16],%g1            C p0  
         fmuld   %f2,%f6,%f4  
         sllx    %g2,16,%g2              C align p16  
         st      %g4,[%i0-4]  
         b,a     L(xxx)  
 L(loope):  
 L(end4):  
         fxtod   %f10,%f2  
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)  
         add     %g3,%g1,%g4             C p += cy  
         ld      [%i0],%g5  
         srlx    %g4,32,%g3  
         ldx     [%fp-40],%g2            C p16  
         fmuld   %f2,%f8,%f16  
         ldx     [%fp-32],%g1            C p0  
         fmuld   %f2,%f6,%f4  
         sllx    %g2,16,%g2              C align p16  
         st      %g4,[%i0-4]  
         fdtox   %f16,%f14  
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)  
         std     %f14,[%fp-40]  
         fdtox   %f4,%f12  
         std     %f12,[%fp-32]  
         add     %i0,4,%i0               C res_ptr++  
   
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)  .L_out_5:
         add     %g3,%g1,%g4             C p += cy          fdtox   %f16, %f14
         ld      [%i0],%g5          sllx    %g2, 16, %g4            C (p16 << 16)
         srlx    %g4,32,%g3          ldx     [%o5+0], %g2            C p16
         ldx     [%fp-24],%g2            C p16          fdtox   %f4, %f12
         ldx     [%fp-16],%g1            C p0          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         sllx    %g2,16,%g2              C align p16          ldx     [%o5+8], %g1            C p0
         st      %g4,[%i0-4]          add     %g4, %g3, %g4           C p += cy
         b,a     L(yyy)          std     %f14, [%o5+0]
           fmuld   %f2, %f8, %f16
           add     %g5, %g4, %g4           C p += rp[i]
           std     %f12, [%o5+8]
           fmuld   %f2, %f6, %f4
           xor     %o5, 16, %o5
           stw     %g4, [%o0+0]
           srlx    %g4, 32, %g3            C new cy
           lduw    [%o0+4], %g5            C read rp[i]
   
 L(end3):          fdtox   %f16, %f14
         fxtod   %f10,%f2          sllx    %g2, 16, %g4            C (p16 << 16)
         ld      [%i0],%g5          ldx     [%o5+0], %g2            C p16
         ldx     [%fp-24],%g2            C p16          fdtox   %f4, %f12
         fmuld   %f2,%f8,%f16          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         ldx     [%fp-16],%g1            C p0          ldx     [%o5+8], %g1            C p0
         fmuld   %f2,%f6,%f4          add     %g3, %g4, %g4           C p += cy
         sllx    %g2,16,%g2              C align p16          std     %f14, [%o5+0]
 L(xxx): fdtox   %f16,%f14          add     %g5, %g4, %g4           C p += rp[i]
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)          std     %f12, [%o5+8]
         std     %f14,[%fp-24]          xor     %o5, 16, %o5
         fdtox   %f4,%f12          stw     %g4, [%o0+4]
         std     %f12,[%fp-16]          srlx    %g4, 32, %g3            C new cy
         add     %i0,4,%i0               C res_ptr++          lduw    [%o0+8], %g5            C read rp[i]
   
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)          sllx    %g2, 16, %g4            C (p16 << 16)
         add     %g3,%g1,%g4             C p += cy          ldx     [%o5+0], %g2            C p16
         ld      [%i0],%g5          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         srlx    %g4,32,%g3          ldx     [%o5+8], %g1            C p0
         ldx     [%fp-40],%g2            C p16          add     %g3, %g4, %g4           C p += cy
         ldx     [%fp-32],%g1            C p0          add     %g5, %g4, %g4           C p += rp[i]
         sllx    %g2,16,%g2              C align p16          xor     %o5, 16, %o5
         st      %g4,[%i0-4]          stw     %g4, [%o0+8]
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)          srlx    %g4, 32, %g3            C new cy
         add     %i0,4,%i0               C res_ptr++          lduw    [%o0+12], %g5           C read rp[i]
   
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)          sllx    %g2, 16, %g4            C (p16 << 16)
         add     %g3,%g1,%g4             C p += cy          ldx     [%o5+0], %g2            C p16
         ld      [%i0],%g5          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         srlx    %g4,32,%g3          ldx     [%o5+8], %g1            C p0
         ldx     [%fp-24],%g2            C p16          add     %g3, %g4, %g4           C p += cy
         ldx     [%fp-16],%g1            C p0          add     %g5, %g4, %g4           C p += rp[i]
         sllx    %g2,16,%g2              C align p16          stw     %g4, [%o0+12]
         st      %g4,[%i0-4]          srlx    %g4, 32, %g3            C new cy
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)          lduw    [%o0+16], %g5           C read rp[i]
         add     %i0,4,%i0               C res_ptr++  
         b,a     L(ret)  
   
 L(end2):          sllx    %g2, 16, %g4            C (p16 << 16)
         fxtod   %f10,%f2          add     %g1, %g4, %g4           C p = p0 + (p16 << 16)
         fmuld   %f2,%f8,%f16          add     %g3, %g4, %g4           C p += cy
         fmuld   %f2,%f6,%f4          add     %g5, %g4, %g4           C p += rp[i]
         fdtox   %f16,%f14          stw     %g4, [%o0+16]
         std     %f14,[%fp-40]          srlx    %g4, 32, %g3            C new cy
         fdtox   %f4,%f12  
         std     %f12,[%fp-32]  
         ld      [%i0],%g5  
         ldx     [%fp-24],%g2            C p16  
         ldx     [%fp-16],%g1            C p0  
         sllx    %g2,16,%g2              C align p16  
 L(yyy): add     %g2,%g1,%g1             C add p16 to p0 (ADD1)  
         add     %i0,4,%i0               C res_ptr++  
   
         add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)          mov     %g3, %o0
         add     %g3,%g1,%g4             C p += cy          retl
         ld      [%i0],%g5          sub     %sp, -FSIZE, %sp
         srlx    %g4,32,%g3  
         ldx     [%fp-40],%g2            C p16  
         ldx     [%fp-32],%g1            C p0  
         sllx    %g2,16,%g2              C align p16  
         st      %g4,[%i0-4]  
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)  
         add     %i0,4,%i0               C res_ptr++  
         b,a     L(ret)  
   
 L(end1):  
         fxtod   %f10,%f2  
         fmuld   %f2,%f8,%f16  
         fmuld   %f2,%f6,%f4  
         fdtox   %f16,%f14  
         std     %f14,[%fp-24]  
         fdtox   %f4,%f12  
         std     %f12,[%fp-16]  
   
         ld      [%i0],%g5  
         ldx     [%fp-24],%g2            C p16  
         ldx     [%fp-16],%g1            C p0  
         sllx    %g2,16,%g2              C align p16  
         add     %g2,%g1,%g1             C add p16 to p0 (ADD1)  
         add     %i0,4,%i0               C res_ptr++  
   
 L(ret): add     %g5,%g1,%g1             C add *res_ptr to p0 (ADD2)  
         add     %g3,%g1,%g4             C p += cy  
         srlx    %g4,32,%g3  
         st      %g4,[%i0-4]  
   
         ret  
         restore %g0,%g3,%o0             C sideeffect: put cy in retreg  
 EPILOGUE(mpn_addmul_1)  EPILOGUE(mpn_addmul_1)

Legend:
Removed from v.1.1.1.1  
changed lines
  Added in v.1.1.1.2

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>