[BACK]Return to submul_1.asm CVS log [TXT][DIR] Up to [local] / OpenXM_contrib / gmp / mpn / pa64

Annotation of OpenXM_contrib/gmp/mpn/pa64/submul_1.asm, Revision 1.1.1.1

1.1       ohara       1: dnl  HP-PA 2.0 64-bit mpn_submul_1 -- Multiply a limb vector with a limb and
                      2: dnl  subtract the result from a second limb vector.
                      3:
                      4: dnl  Copyright 1998, 1999, 2000, 2002 Free Software Foundation, Inc.
                      5:
                      6: dnl  This file is part of the GNU MP Library.
                      7:
                      8: dnl  The GNU MP Library is free software; you can redistribute it and/or modify
                      9: dnl  it under the terms of the GNU Lesser General Public License as published
                     10: dnl  by the Free Software Foundation; either version 2.1 of the License, or (at
                     11: dnl  your option) any later version.
                     12:
                     13: dnl  The GNU MP Library is distributed in the hope that it will be useful, but
                     14: dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
                     15: dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
                     16: dnl  License for more details.
                     17:
                     18: dnl  You should have received a copy of the GNU Lesser General Public License
                     19: dnl  along with the GNU MP Library; see the file COPYING.LIB.  If not, write to
                     20: dnl  the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston,
                     21: dnl  MA 02111-1307, USA.
                     22:
                     23:
                     24: dnl  This approaches ?? cycles/limb on PA8000 and 6.75 cycles/limb on PA8500
                     25: dnl  for huge operands.
                     26:
                     27: dnl  The feed-in and wind-down code has not yet been scheduled.  Many cycles
                     28: dnl  could be saved there per call.
                     29:
                     30: dnl  DESCRIPTION:
                     31: dnl  The main loop "BIG" is 4-way unrolled, mainly to allow
                     32: dnl  effective use of ADD,DC.  Delays in moving data via the cache from the FP
                     33: dnl  registers to the IU registers, have demaned a deep software pipeline, and
                     34: dnl  a lot of stack slots for partial products in flight.
                     35: dnl
                     36: dnl  CODE STRUCTURE:
                     37: dnl  save-some-registers
                     38: dnl  do 0, 1, 2, or 3 limbs
                     39: dnl  if done, restore-some-regs and return
                     40: dnl  save-many-regs
                     41: dnl  do 4, 8, ... limb
                     42: dnl  restore-all-regs
                     43:
                     44: dnl  STACK LAYOUT:
                     45: dnl  HP-PA stack grows upwards.  We could allocate 8 fewer slots by using the
                     46: dnl  slots marked FREE, as well as some slots in the caller's "frame marker".
                     47: dnl
                     48: dnl -00 <- r30
                     49: dnl -08  FREE
                     50: dnl -10  tmp
                     51: dnl -18  tmp
                     52: dnl -20  tmp
                     53: dnl -28  tmp
                     54: dnl -30  tmp
                     55: dnl -38  tmp
                     56: dnl -40  tmp
                     57: dnl -48  tmp
                     58: dnl -50  tmp
                     59: dnl -58  tmp
                     60: dnl -60  tmp
                     61: dnl -68  tmp
                     62: dnl -70  tmp
                     63: dnl -78  tmp
                     64: dnl -80  tmp
                     65: dnl -88  tmp
                     66: dnl -90  FREE
                     67: dnl -98  FREE
                     68: dnl -a0  FREE
                     69: dnl -a8  FREE
                     70: dnl -b0  r13
                     71: dnl -b8  r12
                     72: dnl -c0  r11
                     73: dnl -c8  r10
                     74: dnl -d0  r8
                     75: dnl -d8  r8
                     76: dnl -e0  r7
                     77: dnl -e8  r6
                     78: dnl -f0  r5
                     79: dnl -f8  r4
                     80: dnl -100 r3
                     81: dnl  Previous frame:
                     82: dnl  [unused area]
                     83: dnl -38/-138 vlimb home slot.  For 2.0N, the vlimb arg will arrive here.
                     84:
                     85:
                     86: include(`../config.m4')
                     87:
                     88: dnl INPUT PARAMETERS:
                     89: define(`rp',`%r26')    dnl
                     90: define(`up',`%r25')    dnl
                     91: define(`n',`%r24')     dnl
                     92: define(`vlimb',`%r23') dnl
                     93:
                     94: define(`climb',`%r23') dnl
                     95:
                     96: ifdef(`HAVE_ABI_2_0w',
                     97: `      .level  2.0W
                     98: ',`    .level  2.0N
                     99: ')
                    100: PROLOGUE(mpn_submul_1)
                    101:
                    102: ifdef(`HAVE_ABI_2_0w',
                    103: `      std             vlimb, -0x38(%r30)      C store vlimb into "home" slot
                    104: ')
                    105:        std,ma          %r3, 0x100(%r30)
                    106:        std             %r4, -0xf8(%r30)
                    107:        std             %r5, -0xf0(%r30)
                    108:        ldo             0(%r0), climb           C clear climb
                    109:        fldd            -0x138(%r30), %fr8      C put vlimb in fp register
                    110:
                    111: define(`p032a1',`%r1') dnl
                    112: define(`p032a2',`%r19')        dnl
                    113:
                    114: define(`m032',`%r20')  dnl
                    115: define(`m096',`%r21')  dnl
                    116:
                    117: define(`p000a',`%r22') dnl
                    118: define(`p064a',`%r29') dnl
                    119:
                    120: define(`s000',`%r31')  dnl
                    121:
                    122: define(`ma000',`%r4')  dnl
                    123: define(`ma064',`%r20') dnl
                    124:
                    125: define(`r000',`%r3')   dnl
                    126:
                    127:        extrd,u         n, 63, 2, %r5
                    128:        cmpb,=          %r5, %r0, L(BIG)
                    129:        nop
                    130:
                    131:        fldd            0(up), %fr4
                    132:        ldo             8(up), up
                    133:        xmpyu           %fr8R, %fr4L, %fr22
                    134:        xmpyu           %fr8L, %fr4R, %fr23
                    135:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    136:        xmpyu           %fr8R, %fr4R, %fr24
                    137:        xmpyu           %fr8L, %fr4L, %fr25
                    138:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    139:        fstd            %fr24, -0x80(%r30)      C low product to  -0x80..-0x79
                    140:        addib,<>        -1, %r5, L(two_or_more)
                    141:        fstd            %fr25, -0x68(%r30)      C high product to -0x68..-0x61
                    142: L(one)
                    143:        ldd             -0x78(%r30), p032a1
                    144:        ldd             -0x70(%r30), p032a2
                    145:        ldd             -0x80(%r30), p000a
                    146:        b               L(0_one_out)
                    147:        ldd             -0x68(%r30), p064a
                    148:
                    149: L(two_or_more)
                    150:        fldd            0(up), %fr4
                    151:        ldo             8(up), up
                    152:        xmpyu           %fr8R, %fr4L, %fr22
                    153:        xmpyu           %fr8L, %fr4R, %fr23
                    154:        ldd             -0x78(%r30), p032a1
                    155:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    156:        xmpyu           %fr8R, %fr4R, %fr24
                    157:        xmpyu           %fr8L, %fr4L, %fr25
                    158:        ldd             -0x70(%r30), p032a2
                    159:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    160:        ldd             -0x80(%r30), p000a
                    161:        fstd            %fr24, -0x80(%r30)      C low product to  -0x80..-0x79
                    162:        ldd             -0x68(%r30), p064a
                    163:        addib,<>        -1, %r5, L(three_or_more)
                    164:        fstd            %fr25, -0x68(%r30)      C high product to -0x68..-0x61
                    165: L(two)
                    166:        add             p032a1, p032a2, m032
                    167:        add,dc          %r0, %r0, m096
                    168:        depd,z          m032, 31, 32, ma000
                    169:        extrd,u         m032, 31, 32, ma064
                    170:        ldd             0(rp), r000
                    171:        b               L(0_two_out)
                    172:        depd            m096, 31, 32, ma064
                    173:
                    174: L(three_or_more)
                    175:        fldd            0(up), %fr4
                    176:        add             p032a1, p032a2, m032
                    177:        add,dc          %r0, %r0, m096
                    178:        depd,z          m032, 31, 32, ma000
                    179:        extrd,u         m032, 31, 32, ma064
                    180:        ldd             0(rp), r000
                    181: dnl    addib,=         -1, %r5, L(0_out)
                    182:        depd            m096, 31, 32, ma064
                    183: L(oop0)
                    184: dnl    xmpyu           %fr8R, %fr4L, %fr22
                    185: dnl    xmpyu           %fr8L, %fr4R, %fr23
                    186: dnl    ldd             -0x78(%r30), p032a1
                    187: dnl    fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    188: dnl
                    189: dnl    xmpyu           %fr8R, %fr4R, %fr24
                    190: dnl    xmpyu           %fr8L, %fr4L, %fr25
                    191: dnl    ldd             -0x70(%r30), p032a2
                    192: dnl    fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    193: dnl
                    194: dnl    ldo             8(rp), rp
                    195: dnl    add             climb, p000a, s000
                    196: dnl    ldd             -0x80(%r30), p000a
                    197: dnl    fstd            %fr24, -0x80(%r30)      C low product to  -0x80..-0x79
                    198: dnl
                    199: dnl    add,dc          p064a, %r0, climb
                    200: dnl    ldo             8(up), up
                    201: dnl    ldd             -0x68(%r30), p064a
                    202: dnl    fstd            %fr25, -0x68(%r30)      C high product to -0x68..-0x61
                    203: dnl
                    204: dnl    add             ma000, s000, s000
                    205: dnl    add,dc          ma064, climb, climb
                    206: dnl    fldd            0(up), %fr4
                    207: dnl
                    208: dnl    sub             r000, s000, s000
                    209: dnl    sub,db          %r0, climb, climb
                    210: dnl    sub             %r0, climb, climb
                    211: dnl    std             s000, -8(rp)
                    212: dnl
                    213: dnl    add             p032a1, p032a2, m032
                    214: dnl    add,dc          %r0, %r0, m096
                    215: dnl
                    216: dnl    depd,z          m032, 31, 32, ma000
                    217: dnl    extrd,u         m032, 31, 32, ma064
                    218: dnl    ldd             0(rp), r000
                    219: dnl    addib,<>        -1, %r5, L(oop0)
                    220: dnl    depd            m096, 31, 32, ma064
                    221: L(0_out)
                    222:        ldo             8(up), up
                    223:        xmpyu           %fr8R, %fr4L, %fr22
                    224:        xmpyu           %fr8L, %fr4R, %fr23
                    225:        ldd             -0x78(%r30), p032a1
                    226:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    227:        xmpyu           %fr8R, %fr4R, %fr24
                    228:        xmpyu           %fr8L, %fr4L, %fr25
                    229:        ldd             -0x70(%r30), p032a2
                    230:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    231:        ldo             8(rp), rp
                    232:        add             climb, p000a, s000
                    233:        ldd             -0x80(%r30), p000a
                    234:        fstd            %fr24, -0x80(%r30)      C low product to  -0x80..-0x79
                    235:        add,dc          p064a, %r0, climb
                    236:        ldd             -0x68(%r30), p064a
                    237:        fstd            %fr25, -0x68(%r30)      C high product to -0x68..-0x61
                    238:        add             ma000, s000, s000
                    239:        add,dc          ma064, climb, climb
                    240:        sub             r000, s000, s000
                    241:        sub,db          %r0, climb, climb
                    242:        sub             %r0, climb, climb
                    243:        std             s000, -8(rp)
                    244:        add             p032a1, p032a2, m032
                    245:        add,dc          %r0, %r0, m096
                    246:        depd,z          m032, 31, 32, ma000
                    247:        extrd,u         m032, 31, 32, ma064
                    248:        ldd             0(rp), r000
                    249:        depd            m096, 31, 32, ma064
                    250: L(0_two_out)
                    251:        ldd             -0x78(%r30), p032a1
                    252:        ldd             -0x70(%r30), p032a2
                    253:        ldo             8(rp), rp
                    254:        add             climb, p000a, s000
                    255:        ldd             -0x80(%r30), p000a
                    256:        add,dc          p064a, %r0, climb
                    257:        ldd             -0x68(%r30), p064a
                    258:        add             ma000, s000, s000
                    259:        add,dc          ma064, climb, climb
                    260:        sub             r000, s000, s000
                    261:        sub,db          %r0, climb, climb
                    262:        sub             %r0, climb, climb
                    263:        std             s000, -8(rp)
                    264: L(0_one_out)
                    265:        add             p032a1, p032a2, m032
                    266:        add,dc          %r0, %r0, m096
                    267:        depd,z          m032, 31, 32, ma000
                    268:        extrd,u         m032, 31, 32, ma064
                    269:        ldd             0(rp), r000
                    270:        depd            m096, 31, 32, ma064
                    271:
                    272:        add             climb, p000a, s000
                    273:        add,dc          p064a, %r0, climb
                    274:        add             ma000, s000, s000
                    275:        add,dc          ma064, climb, climb
                    276:        sub             r000, s000, s000
                    277:        sub,db          %r0, climb, climb
                    278:        sub             %r0, climb, climb
                    279:        std             s000, 0(rp)
                    280:
                    281:        cmpib,>=        4, n, L(done)
                    282:        ldo             8(rp), rp
                    283:
                    284: dnl 4-way unrolled code.
                    285:
                    286: L(BIG)
                    287:
                    288: define(`p032a1',`%r1') dnl
                    289: define(`p032a2',`%r19')        dnl
                    290: define(`p096b1',`%r20')        dnl
                    291: define(`p096b2',`%r21')        dnl
                    292: define(`p160c1',`%r22')        dnl
                    293: define(`p160c2',`%r29')        dnl
                    294: define(`p224d1',`%r31')        dnl
                    295: define(`p224d2',`%r3') dnl
                    296:                        dnl
                    297: define(`m032',`%r4')   dnl
                    298: define(`m096',`%r5')   dnl
                    299: define(`m160',`%r6')   dnl
                    300: define(`m224',`%r7')   dnl
                    301: define(`m288',`%r8')   dnl
                    302:                        dnl
                    303: define(`p000a',`%r1')  dnl
                    304: define(`p064a',`%r19') dnl
                    305: define(`p064b',`%r20') dnl
                    306: define(`p128b',`%r21') dnl
                    307: define(`p128c',`%r22') dnl
                    308: define(`p192c',`%r29') dnl
                    309: define(`p192d',`%r31') dnl
                    310: define(`p256d',`%r3')  dnl
                    311:                        dnl
                    312: define(`s000',`%r10')  dnl
                    313: define(`s064',`%r11')  dnl
                    314: define(`s128',`%r12')  dnl
                    315: define(`s192',`%r13')  dnl
                    316:                        dnl
                    317: define(`ma000',`%r9')  dnl
                    318: define(`ma064',`%r4')  dnl
                    319: define(`ma128',`%r5')  dnl
                    320: define(`ma192',`%r6')  dnl
                    321: define(`ma256',`%r7')  dnl
                    322:                        dnl
                    323: define(`r000',`%r1')   dnl
                    324: define(`r064',`%r19')  dnl
                    325: define(`r128',`%r20')  dnl
                    326: define(`r192',`%r21')  dnl
                    327:
                    328:        std             %r6, -0xe8(%r30)
                    329:        std             %r7, -0xe0(%r30)
                    330:        std             %r8, -0xd8(%r30)
                    331:        std             %r9, -0xd0(%r30)
                    332:        std             %r10, -0xc8(%r30)
                    333:        std             %r11, -0xc0(%r30)
                    334:        std             %r12, -0xb8(%r30)
                    335:        std             %r13, -0xb0(%r30)
                    336:
                    337: ifdef(`HAVE_ABI_2_0w',
                    338: `      extrd,u         n, 61, 62, n            C right shift 2
                    339: ',`    extrd,u         n, 61, 30, n            C right shift 2, zero extend
                    340: ')
                    341:
                    342: L(4_or_more)
                    343:        fldd            0(up), %fr4
                    344:        fldd            8(up), %fr5
                    345:        fldd            16(up), %fr6
                    346:        fldd            24(up), %fr7
                    347:        xmpyu           %fr8R, %fr4L, %fr22
                    348:        xmpyu           %fr8L, %fr4R, %fr23
                    349:        xmpyu           %fr8R, %fr5L, %fr24
                    350:        xmpyu           %fr8L, %fr5R, %fr25
                    351:        xmpyu           %fr8R, %fr6L, %fr26
                    352:        xmpyu           %fr8L, %fr6R, %fr27
                    353:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    354:        xmpyu           %fr8R, %fr7L, %fr28
                    355:        xmpyu           %fr8L, %fr7R, %fr29
                    356:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    357:        xmpyu           %fr8R, %fr4R, %fr30
                    358:        xmpyu           %fr8L, %fr4L, %fr31
                    359:        fstd            %fr24, -0x38(%r30)      C mid product to  -0x38..-0x31
                    360:        xmpyu           %fr8R, %fr5R, %fr22
                    361:        xmpyu           %fr8L, %fr5L, %fr23
                    362:        fstd            %fr25, -0x30(%r30)      C mid product to  -0x30..-0x29
                    363:        xmpyu           %fr8R, %fr6R, %fr24
                    364:        xmpyu           %fr8L, %fr6L, %fr25
                    365:        fstd            %fr26, -0x58(%r30)      C mid product to  -0x58..-0x51
                    366:        xmpyu           %fr8R, %fr7R, %fr26
                    367:        fstd            %fr27, -0x50(%r30)      C mid product to  -0x50..-0x49
                    368:        addib,<>        -1, n, L(8_or_more)
                    369:        xmpyu           %fr8L, %fr7L, %fr27
                    370:        fstd            %fr28, -0x18(%r30)      C mid product to  -0x18..-0x11
                    371:        fstd            %fr29, -0x10(%r30)      C mid product to  -0x10..-0x09
                    372:        fstd            %fr30, -0x80(%r30)      C low product to  -0x80..-0x79
                    373:        fstd            %fr31, -0x68(%r30)      C high product to -0x68..-0x61
                    374:        fstd            %fr22, -0x40(%r30)      C low product to  -0x40..-0x39
                    375:        fstd            %fr23, -0x28(%r30)      C high product to -0x28..-0x21
                    376:        fstd            %fr24, -0x60(%r30)      C low product to  -0x60..-0x59
                    377:        fstd            %fr25, -0x48(%r30)      C high product to -0x48..-0x41
                    378:        fstd            %fr26, -0x20(%r30)      C low product to  -0x20..-0x19
                    379:        fstd            %fr27, -0x88(%r30)      C high product to -0x88..-0x81
                    380:        ldd             -0x78(%r30), p032a1
                    381:        ldd             -0x70(%r30), p032a2
                    382:        ldd             -0x38(%r30), p096b1
                    383:        ldd             -0x30(%r30), p096b2
                    384:        ldd             -0x58(%r30), p160c1
                    385:        ldd             -0x50(%r30), p160c2
                    386:        ldd             -0x18(%r30), p224d1
                    387:        ldd             -0x10(%r30), p224d2
                    388:        b               L(end1)
                    389:        nop
                    390:
                    391: L(8_or_more)
                    392:        fstd            %fr28, -0x18(%r30)      C mid product to  -0x18..-0x11
                    393:        fstd            %fr29, -0x10(%r30)      C mid product to  -0x10..-0x09
                    394:        ldo             32(up), up
                    395:        fstd            %fr30, -0x80(%r30)      C low product to  -0x80..-0x79
                    396:        fstd            %fr31, -0x68(%r30)      C high product to -0x68..-0x61
                    397:        fstd            %fr22, -0x40(%r30)      C low product to  -0x40..-0x39
                    398:        fstd            %fr23, -0x28(%r30)      C high product to -0x28..-0x21
                    399:        fstd            %fr24, -0x60(%r30)      C low product to  -0x60..-0x59
                    400:        fstd            %fr25, -0x48(%r30)      C high product to -0x48..-0x41
                    401:        fstd            %fr26, -0x20(%r30)      C low product to  -0x20..-0x19
                    402:        fstd            %fr27, -0x88(%r30)      C high product to -0x88..-0x81
                    403:        fldd            0(up), %fr4
                    404:        fldd            8(up), %fr5
                    405:        fldd            16(up), %fr6
                    406:        fldd            24(up), %fr7
                    407:        xmpyu           %fr8R, %fr4L, %fr22
                    408:        ldd             -0x78(%r30), p032a1
                    409:        xmpyu           %fr8L, %fr4R, %fr23
                    410:        xmpyu           %fr8R, %fr5L, %fr24
                    411:        ldd             -0x70(%r30), p032a2
                    412:        xmpyu           %fr8L, %fr5R, %fr25
                    413:        xmpyu           %fr8R, %fr6L, %fr26
                    414:        ldd             -0x38(%r30), p096b1
                    415:        xmpyu           %fr8L, %fr6R, %fr27
                    416:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    417:        xmpyu           %fr8R, %fr7L, %fr28
                    418:        ldd             -0x30(%r30), p096b2
                    419:        xmpyu           %fr8L, %fr7R, %fr29
                    420:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    421:        xmpyu           %fr8R, %fr4R, %fr30
                    422:        ldd             -0x58(%r30), p160c1
                    423:        xmpyu           %fr8L, %fr4L, %fr31
                    424:        fstd            %fr24, -0x38(%r30)      C mid product to  -0x38..-0x31
                    425:        xmpyu           %fr8R, %fr5R, %fr22
                    426:        ldd             -0x50(%r30), p160c2
                    427:        xmpyu           %fr8L, %fr5L, %fr23
                    428:        fstd            %fr25, -0x30(%r30)      C mid product to  -0x30..-0x29
                    429:        xmpyu           %fr8R, %fr6R, %fr24
                    430:        ldd             -0x18(%r30), p224d1
                    431:        xmpyu           %fr8L, %fr6L, %fr25
                    432:        fstd            %fr26, -0x58(%r30)      C mid product to  -0x58..-0x51
                    433:        xmpyu           %fr8R, %fr7R, %fr26
                    434:        ldd             -0x10(%r30), p224d2
                    435:        fstd            %fr27, -0x50(%r30)      C mid product to  -0x50..-0x49
                    436:        addib,=         -1, n, L(end2)
                    437:        xmpyu           %fr8L, %fr7L, %fr27
                    438: L(oop)
                    439:        add             p032a1, p032a2, m032
                    440:        ldd             -0x80(%r30), p000a
                    441:        add,dc          p096b1, p096b2, m096
                    442:        fstd            %fr28, -0x18(%r30)      C mid product to  -0x18..-0x11
                    443:
                    444:        add,dc          p160c1, p160c2, m160
                    445:        ldd             -0x68(%r30), p064a
                    446:        add,dc          p224d1, p224d2, m224
                    447:        fstd            %fr29, -0x10(%r30)      C mid product to  -0x10..-0x09
                    448:
                    449:        add,dc          %r0, %r0, m288
                    450:        ldd             -0x40(%r30), p064b
                    451:        ldo             32(up), up
                    452:        fstd            %fr30, -0x80(%r30)      C low product to  -0x80..-0x79
                    453:
                    454:        depd,z          m032, 31, 32, ma000
                    455:        ldd             -0x28(%r30), p128b
                    456:        extrd,u         m032, 31, 32, ma064
                    457:        fstd            %fr31, -0x68(%r30)      C high product to -0x68..-0x61
                    458:
                    459:        depd            m096, 31, 32, ma064
                    460:        ldd             -0x60(%r30), p128c
                    461:        extrd,u         m096, 31, 32, ma128
                    462:        fstd            %fr22, -0x40(%r30)      C low product to  -0x40..-0x39
                    463:
                    464:        depd            m160, 31, 32, ma128
                    465:        ldd             -0x48(%r30), p192c
                    466:        extrd,u         m160, 31, 32, ma192
                    467:        fstd            %fr23, -0x28(%r30)      C high product to -0x28..-0x21
                    468:
                    469:        depd            m224, 31, 32, ma192
                    470:        ldd             -0x20(%r30), p192d
                    471:        extrd,u         m224, 31, 32, ma256
                    472:        fstd            %fr24, -0x60(%r30)      C low product to  -0x60..-0x59
                    473:
                    474:        depd            m288, 31, 32, ma256
                    475:        ldd             -0x88(%r30), p256d
                    476:        add             climb, p000a, s000
                    477:        fstd            %fr25, -0x48(%r30)      C high product to -0x48..-0x41
                    478:
                    479:        add,dc          p064a, p064b, s064
                    480:        ldd             0(rp), r000
                    481:        add,dc          p128b, p128c, s128
                    482:        fstd            %fr26, -0x20(%r30)      C low product to  -0x20..-0x19
                    483:
                    484:        add,dc          p192c, p192d, s192
                    485:        ldd             8(rp), r064
                    486:        add,dc          p256d, %r0, climb
                    487:        fstd            %fr27, -0x88(%r30)      C high product to -0x88..-0x81
                    488:
                    489:        ldd             16(rp), r128
                    490:        add             ma000, s000, s000       C accum mid 0
                    491:        ldd             24(rp), r192
                    492:        add,dc          ma064, s064, s064       C accum mid 1
                    493:
                    494:        add,dc          ma128, s128, s128       C accum mid 2
                    495:        fldd            0(up), %fr4
                    496:        add,dc          ma192, s192, s192       C accum mid 3
                    497:        fldd            8(up), %fr5
                    498:
                    499:        add,dc          ma256, climb, climb
                    500:        fldd            16(up), %fr6
                    501:        sub             r000, s000, s000        C accum rlimb 0
                    502:        fldd            24(up), %fr7
                    503:
                    504:        sub,db          r064, s064, s064        C accum rlimb 1
                    505:        sub,db          r128, s128, s128        C accum rlimb 2
                    506:        std             s000, 0(rp)
                    507:
                    508:        sub,db          r192, s192, s192        C accum rlimb 3
                    509:        sub,db          %r0, climb, climb
                    510:        sub             %r0, climb, climb
                    511:        std             s064, 8(rp)
                    512:
                    513:        xmpyu           %fr8R, %fr4L, %fr22
                    514:        ldd             -0x78(%r30), p032a1
                    515:        xmpyu           %fr8L, %fr4R, %fr23
                    516:        std             s128, 16(rp)
                    517:
                    518:        xmpyu           %fr8R, %fr5L, %fr24
                    519:        ldd             -0x70(%r30), p032a2
                    520:        xmpyu           %fr8L, %fr5R, %fr25
                    521:        std             s192, 24(rp)
                    522:
                    523:        xmpyu           %fr8R, %fr6L, %fr26
                    524:        ldd             -0x38(%r30), p096b1
                    525:        xmpyu           %fr8L, %fr6R, %fr27
                    526:        fstd            %fr22, -0x78(%r30)      C mid product to  -0x78..-0x71
                    527:
                    528:        xmpyu           %fr8R, %fr7L, %fr28
                    529:        ldd             -0x30(%r30), p096b2
                    530:        xmpyu           %fr8L, %fr7R, %fr29
                    531:        fstd            %fr23, -0x70(%r30)      C mid product to  -0x70..-0x69
                    532:
                    533:        xmpyu           %fr8R, %fr4R, %fr30
                    534:        ldd             -0x58(%r30), p160c1
                    535:        xmpyu           %fr8L, %fr4L, %fr31
                    536:        fstd            %fr24, -0x38(%r30)      C mid product to  -0x38..-0x31
                    537:
                    538:        xmpyu           %fr8R, %fr5R, %fr22
                    539:        ldd             -0x50(%r30), p160c2
                    540:        xmpyu           %fr8L, %fr5L, %fr23
                    541:        fstd            %fr25, -0x30(%r30)      C mid product to  -0x30..-0x29
                    542:
                    543:        xmpyu           %fr8R, %fr6R, %fr24
                    544:        ldd             -0x18(%r30), p224d1
                    545:        xmpyu           %fr8L, %fr6L, %fr25
                    546:        fstd            %fr26, -0x58(%r30)      C mid product to  -0x58..-0x51
                    547:
                    548:        xmpyu           %fr8R, %fr7R, %fr26
                    549:        ldd             -0x10(%r30), p224d2
                    550:        fstd            %fr27, -0x50(%r30)      C mid product to  -0x50..-0x49
                    551:        xmpyu           %fr8L, %fr7L, %fr27
                    552:
                    553:        addib,<>        -1, n, L(oop)
                    554:        ldo             32(rp), rp
                    555:
                    556: L(end2)
                    557:        add             p032a1, p032a2, m032
                    558:        ldd             -0x80(%r30), p000a
                    559:        add,dc          p096b1, p096b2, m096
                    560:        fstd            %fr28, -0x18(%r30)      C mid product to  -0x18..-0x11
                    561:        add,dc          p160c1, p160c2, m160
                    562:        ldd             -0x68(%r30), p064a
                    563:        add,dc          p224d1, p224d2, m224
                    564:        fstd            %fr29, -0x10(%r30)      C mid product to  -0x10..-0x09
                    565:        add,dc          %r0, %r0, m288
                    566:        ldd             -0x40(%r30), p064b
                    567:        fstd            %fr30, -0x80(%r30)      C low product to  -0x80..-0x79
                    568:        depd,z          m032, 31, 32, ma000
                    569:        ldd             -0x28(%r30), p128b
                    570:        extrd,u         m032, 31, 32, ma064
                    571:        fstd            %fr31, -0x68(%r30)      C high product to -0x68..-0x61
                    572:        depd            m096, 31, 32, ma064
                    573:        ldd             -0x60(%r30), p128c
                    574:        extrd,u         m096, 31, 32, ma128
                    575:        fstd            %fr22, -0x40(%r30)      C low product to  -0x40..-0x39
                    576:        depd            m160, 31, 32, ma128
                    577:        ldd             -0x48(%r30), p192c
                    578:        extrd,u         m160, 31, 32, ma192
                    579:        fstd            %fr23, -0x28(%r30)      C high product to -0x28..-0x21
                    580:        depd            m224, 31, 32, ma192
                    581:        ldd             -0x20(%r30), p192d
                    582:        extrd,u         m224, 31, 32, ma256
                    583:        fstd            %fr24, -0x60(%r30)      C low product to  -0x60..-0x59
                    584:        depd            m288, 31, 32, ma256
                    585:        ldd             -0x88(%r30), p256d
                    586:        add             climb, p000a, s000
                    587:        fstd            %fr25, -0x48(%r30)      C high product to -0x48..-0x41
                    588:        add,dc          p064a, p064b, s064
                    589:        ldd             0(rp), r000
                    590:        add,dc          p128b, p128c, s128
                    591:        fstd            %fr26, -0x20(%r30)      C low product to  -0x20..-0x19
                    592:        add,dc          p192c, p192d, s192
                    593:        ldd             8(rp), r064
                    594:        add,dc          p256d, %r0, climb
                    595:        fstd            %fr27, -0x88(%r30)      C high product to -0x88..-0x81
                    596:        ldd             16(rp), r128
                    597:        add             ma000, s000, s000       C accum mid 0
                    598:        ldd             24(rp), r192
                    599:        add,dc          ma064, s064, s064       C accum mid 1
                    600:        add,dc          ma128, s128, s128       C accum mid 2
                    601:        add,dc          ma192, s192, s192       C accum mid 3
                    602:        add,dc          ma256, climb, climb
                    603:        sub             r000, s000, s000        C accum rlimb 0
                    604:        sub,db          r064, s064, s064        C accum rlimb 1
                    605:        sub,db          r128, s128, s128        C accum rlimb 2
                    606:        std             s000, 0(rp)
                    607:        sub,db          r192, s192, s192        C accum rlimb 3
                    608:        sub,db          %r0, climb, climb
                    609:        sub             %r0, climb, climb
                    610:        std             s064, 8(rp)
                    611:        ldd             -0x78(%r30), p032a1
                    612:        std             s128, 16(rp)
                    613:        ldd             -0x70(%r30), p032a2
                    614:        std             s192, 24(rp)
                    615:        ldd             -0x38(%r30), p096b1
                    616:        ldd             -0x30(%r30), p096b2
                    617:        ldd             -0x58(%r30), p160c1
                    618:        ldd             -0x50(%r30), p160c2
                    619:        ldd             -0x18(%r30), p224d1
                    620:        ldd             -0x10(%r30), p224d2
                    621:        ldo             32(rp), rp
                    622:
                    623: L(end1)
                    624:        add             p032a1, p032a2, m032
                    625:        ldd             -0x80(%r30), p000a
                    626:        add,dc          p096b1, p096b2, m096
                    627:        add,dc          p160c1, p160c2, m160
                    628:        ldd             -0x68(%r30), p064a
                    629:        add,dc          p224d1, p224d2, m224
                    630:        add,dc          %r0, %r0, m288
                    631:        ldd             -0x40(%r30), p064b
                    632:        depd,z          m032, 31, 32, ma000
                    633:        ldd             -0x28(%r30), p128b
                    634:        extrd,u         m032, 31, 32, ma064
                    635:        depd            m096, 31, 32, ma064
                    636:        ldd             -0x60(%r30), p128c
                    637:        extrd,u         m096, 31, 32, ma128
                    638:        depd            m160, 31, 32, ma128
                    639:        ldd             -0x48(%r30), p192c
                    640:        extrd,u         m160, 31, 32, ma192
                    641:        depd            m224, 31, 32, ma192
                    642:        ldd             -0x20(%r30), p192d
                    643:        extrd,u         m224, 31, 32, ma256
                    644:        depd            m288, 31, 32, ma256
                    645:        ldd             -0x88(%r30), p256d
                    646:        add             climb, p000a, s000
                    647:        add,dc          p064a, p064b, s064
                    648:        ldd             0(rp), r000
                    649:        add,dc          p128b, p128c, s128
                    650:        add,dc          p192c, p192d, s192
                    651:        ldd             8(rp), r064
                    652:        add,dc          p256d, %r0, climb
                    653:        ldd             16(rp), r128
                    654:        add             ma000, s000, s000       C accum mid 0
                    655:        ldd             24(rp), r192
                    656:        add,dc          ma064, s064, s064       C accum mid 1
                    657:        add,dc          ma128, s128, s128       C accum mid 2
                    658:        add,dc          ma192, s192, s192       C accum mid 3
                    659:        add,dc          ma256, climb, climb
                    660:        sub             r000, s000, s000        C accum rlimb 0
                    661:        sub,db          r064, s064, s064        C accum rlimb 1
                    662:        sub,db          r128, s128, s128        C accum rlimb 2
                    663:        std             s000, 0(rp)
                    664:        sub,db          r192, s192, s192        C accum rlimb 3
                    665:        sub,db          %r0, climb, climb
                    666:        sub             %r0, climb, climb
                    667:        std             s064, 8(rp)
                    668:        std             s128, 16(rp)
                    669:        std             s192, 24(rp)
                    670:
                    671:        ldd             -0xb0(%r30), %r13
                    672:        ldd             -0xb8(%r30), %r12
                    673:        ldd             -0xc0(%r30), %r11
                    674:        ldd             -0xc8(%r30), %r10
                    675:        ldd             -0xd0(%r30), %r9
                    676:        ldd             -0xd8(%r30), %r8
                    677:        ldd             -0xe0(%r30), %r7
                    678:        ldd             -0xe8(%r30), %r6
                    679: L(done)
                    680: ifdef(`HAVE_ABI_2_0w',
                    681: `      copy            climb, %r28
                    682: ',`    extrd,u         climb, 63, 32, %r29
                    683:        extrd,u         climb, 31, 32, %r28
                    684: ')
                    685:        ldd             -0xf0(%r30), %r5
                    686:        ldd             -0xf8(%r30), %r4
                    687:        bve             (%r2)
                    688:        ldd,mb          -0x100(%r30), %r3
                    689: EPILOGUE(mpn_submul_1)

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>