Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log

pngvcrd.c@ 130

Last change on this file since 130 was 2, checked in by dmik, 20 years ago
Imported xplatform parts of the official release 3.3.1 from Trolltech
Property svn:keywords set to `Id`
File size: 142.8 KB

Line
1	/* pngvcrd.c - mixed C/assembler version of utilities to read a PNG file
2	*
3	* For Intel x86 CPU and Microsoft Visual C++ compiler
4	*
5	* libpng version 1.2.5 - October 3, 2002
6	* For conditions of distribution and use, see copyright notice in png.h
7	* Copyright (c) 1998-2002 Glenn Randers-Pehrson
8	* Copyright (c) 1998, Intel Corporation
9	*
10	* Contributed by Nirav Chhatrapati, Intel Corporation, 1998
11	* Interface to libpng contributed by Gilles Vollant, 1999
12	*
13	*
14	* In png_do_read_interlace() in libpng versions 1.0.3a through 1.0.4d,
15	* a sign error in the post-MMX cleanup code for each pixel_depth resulted
16	* in bad pixels at the beginning of some rows of some images, and also
17	* (due to out-of-range memory reads and writes) caused heap corruption
18	* when compiled with MSVC 6.0. The error was fixed in version 1.0.4e.
19	*
20	* [png_read_filter_row_mmx_avg() bpp == 2 bugfix, GRR 20000916]
21	*
22	* [runtime MMX configuration, GRR 20010102]
23	*
24	*/
25
26	#define PNG_INTERNAL
27	#include "png.h"
28
29	#if defined(PNG_ASSEMBLER_CODE_SUPPORTED) && defined(PNG_USE_PNGVCRD)
30
31	static int mmx_supported=2;
32
33
34	int PNGAPI
35	png_mmx_support(void)
36	{
37	int mmx_supported_local = 0;
38	_asm {
39	push ebx //CPUID will trash these
40	push ecx
41	push edx
42
43	pushfd //Save Eflag to stack
44	pop eax //Get Eflag from stack into eax
45	mov ecx, eax //Make another copy of Eflag in ecx
46	xor eax, 0x200000 //Toggle ID bit in Eflag [i.e. bit(21)]
47	push eax //Save modified Eflag back to stack
48
49	popfd //Restored modified value back to Eflag reg
50	pushfd //Save Eflag to stack
51	pop eax //Get Eflag from stack
52	push ecx // save original Eflag to stack
53	popfd // restore original Eflag
54	xor eax, ecx //Compare the new Eflag with the original Eflag
55	jz NOT_SUPPORTED //If the same, CPUID instruction is not supported,
56	//skip following instructions and jump to
57	//NOT_SUPPORTED label
58
59	xor eax, eax //Set eax to zero
60
61	_asm _emit 0x0f //CPUID instruction (two bytes opcode)
62	_asm _emit 0xa2
63
64	cmp eax, 1 //make sure eax return non-zero value
65	jl NOT_SUPPORTED //If eax is zero, mmx not supported
66
67	xor eax, eax //set eax to zero
68	inc eax //Now increment eax to 1. This instruction is
69	//faster than the instruction "mov eax, 1"
70
71	_asm _emit 0x0f //CPUID instruction
72	_asm _emit 0xa2
73
74	and edx, 0x00800000 //mask out all bits but mmx bit(24)
75	cmp edx, 0 // 0 = mmx not supported
76	jz NOT_SUPPORTED // non-zero = Yes, mmx IS supported
77
78	mov mmx_supported_local, 1 //set return value to 1
79
80	NOT_SUPPORTED:
81	mov eax, mmx_supported_local //move return value to eax
82	pop edx //CPUID trashed these
83	pop ecx
84	pop ebx
85	}
86
87	//mmx_supported_local=0; // test code for force don't support MMX
88	//printf("MMX : %u (1=MMX supported)\n",mmx_supported_local);
89
90	mmx_supported = mmx_supported_local;
91	return mmx_supported_local;
92	}
93
94	/* Combines the row recently read in with the previous row.
95	This routine takes care of alpha and transparency if requested.
96	This routine also handles the two methods of progressive display
97	of interlaced images, depending on the mask value.
98	The mask value describes which pixels are to be combined with
99	the row. The pattern always repeats every 8 pixels, so just 8
100	bits are needed. A one indicates the pixel is to be combined; a
101	zero indicates the pixel is to be skipped. This is in addition
102	to any alpha or transparency value associated with the pixel. If
103	you want all pixels to be combined, pass 0xff (255) in mask. */
104
105	/* Use this routine for x86 platform - uses faster MMX routine if machine
106	supports MMX */
107
108	void /* PRIVATE */
109	png_combine_row(png_structp png_ptr, png_bytep row, int mask)
110	{
111	#ifdef PNG_USE_LOCAL_ARRAYS
112	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
113	#endif
114
115	png_debug(1,"in png_combine_row_asm\n");
116
117	if (mmx_supported == 2) {
118	/* this should have happened in png_init_mmx_flags() already */
119	png_warning(png_ptr, "asm_flags may not have been initialized");
120	png_mmx_support();
121	}
122
123	if (mask == 0xff)
124	{
125	png_memcpy(row, png_ptr->row_buf + 1,
126	(png_size_t)((png_ptr->width * png_ptr->row_info.pixel_depth + 7) >> 3));
127	}
128	/* GRR: add "else if (mask == 0)" case?
129	* or does png_combine_row() not even get called in that case? */
130	else
131	{
132	switch (png_ptr->row_info.pixel_depth)
133	{
134	case 1:
135	{
136	png_bytep sp;
137	png_bytep dp;
138	int s_inc, s_start, s_end;
139	int m;
140	int shift;
141	png_uint_32 i;
142
143	sp = png_ptr->row_buf + 1;
144	dp = row;
145	m = 0x80;
146	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
147	if (png_ptr->transformations & PNG_PACKSWAP)
148	{
149	s_start = 0;
150	s_end = 7;
151	s_inc = 1;
152	}
153	else
154	#endif
155	{
156	s_start = 7;
157	s_end = 0;
158	s_inc = -1;
159	}
160
161	shift = s_start;
162
163	for (i = 0; i < png_ptr->width; i++)
164	{
165	if (m & mask)
166	{
167	int value;
168
169	value = (*sp >> shift) & 0x1;
170	*dp &= (png_byte)((0x7f7f >> (7 - shift)) & 0xff);
171	*dp \|= (png_byte)(value << shift);
172	}
173
174	if (shift == s_end)
175	{
176	shift = s_start;
177	sp++;
178	dp++;
179	}
180	else
181	shift += s_inc;
182
183	if (m == 1)
184	m = 0x80;
185	else
186	m >>= 1;
187	}
188	break;
189	}
190
191	case 2:
192	{
193	png_bytep sp;
194	png_bytep dp;
195	int s_start, s_end, s_inc;
196	int m;
197	int shift;
198	png_uint_32 i;
199	int value;
200
201	sp = png_ptr->row_buf + 1;
202	dp = row;
203	m = 0x80;
204	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
205	if (png_ptr->transformations & PNG_PACKSWAP)
206	{
207	s_start = 0;
208	s_end = 6;
209	s_inc = 2;
210	}
211	else
212	#endif
213	{
214	s_start = 6;
215	s_end = 0;
216	s_inc = -2;
217	}
218
219	shift = s_start;
220
221	for (i = 0; i < png_ptr->width; i++)
222	{
223	if (m & mask)
224	{
225	value = (*sp >> shift) & 0x3;
226	*dp &= (png_byte)((0x3f3f >> (6 - shift)) & 0xff);
227	*dp \|= (png_byte)(value << shift);
228	}
229
230	if (shift == s_end)
231	{
232	shift = s_start;
233	sp++;
234	dp++;
235	}
236	else
237	shift += s_inc;
238	if (m == 1)
239	m = 0x80;
240	else
241	m >>= 1;
242	}
243	break;
244	}
245
246	case 4:
247	{
248	png_bytep sp;
249	png_bytep dp;
250	int s_start, s_end, s_inc;
251	int m;
252	int shift;
253	png_uint_32 i;
254	int value;
255
256	sp = png_ptr->row_buf + 1;
257	dp = row;
258	m = 0x80;
259	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
260	if (png_ptr->transformations & PNG_PACKSWAP)
261	{
262	s_start = 0;
263	s_end = 4;
264	s_inc = 4;
265	}
266	else
267	#endif
268	{
269	s_start = 4;
270	s_end = 0;
271	s_inc = -4;
272	}
273	shift = s_start;
274
275	for (i = 0; i < png_ptr->width; i++)
276	{
277	if (m & mask)
278	{
279	value = (*sp >> shift) & 0xf;
280	*dp &= (png_byte)((0xf0f >> (4 - shift)) & 0xff);
281	*dp \|= (png_byte)(value << shift);
282	}
283
284	if (shift == s_end)
285	{
286	shift = s_start;
287	sp++;
288	dp++;
289	}
290	else
291	shift += s_inc;
292	if (m == 1)
293	m = 0x80;
294	else
295	m >>= 1;
296	}
297	break;
298	}
299
300	case 8:
301	{
302	png_bytep srcptr;
303	png_bytep dstptr;
304	png_uint_32 len;
305	int m;
306	int diff, unmask;
307
308	__int64 mask0=0x0102040810204080;
309
310	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
311	/* && mmx_supported */ )
312	{
313	srcptr = png_ptr->row_buf + 1;
314	dstptr = row;
315	m = 0x80;
316	unmask = ~mask;
317	len = png_ptr->width &~7; //reduce to multiple of 8
318	diff = png_ptr->width & 7; //amount lost
319
320	_asm
321	{
322	movd mm7, unmask //load bit pattern
323	psubb mm6,mm6 //zero mm6
324	punpcklbw mm7,mm7
325	punpcklwd mm7,mm7
326	punpckldq mm7,mm7 //fill register with 8 masks
327
328	movq mm0,mask0
329
330	pand mm0,mm7 //nonzero if keep byte
331	pcmpeqb mm0,mm6 //zeros->1s, v versa
332
333	mov ecx,len //load length of line (pixels)
334	mov esi,srcptr //load source
335	mov ebx,dstptr //load dest
336	cmp ecx,0 //lcr
337	je mainloop8end
338
339	mainloop8:
340	movq mm4,[esi]
341	pand mm4,mm0
342	movq mm6,mm0
343	pandn mm6,[ebx]
344	por mm4,mm6
345	movq [ebx],mm4
346
347	add esi,8 //inc by 8 bytes processed
348	add ebx,8
349	sub ecx,8 //dec by 8 pixels processed
350
351	ja mainloop8
352	mainloop8end:
353
354	mov ecx,diff
355	cmp ecx,0
356	jz end8
357
358	mov edx,mask
359	sal edx,24 //make low byte the high byte
360
361	secondloop8:
362	sal edx,1 //move high bit to CF
363	jnc skip8 //if CF = 0
364	mov al,[esi]
365	mov [ebx],al
366	skip8:
367	inc esi
368	inc ebx
369
370	dec ecx
371	jnz secondloop8
372	end8:
373	emms
374	}
375	}
376	else /* mmx not supported - use modified C routine */
377	{
378	register unsigned int incr1, initial_val, final_val;
379	png_size_t pixel_bytes;
380	png_uint_32 i;
381	register int disp = png_pass_inc[png_ptr->pass];
382	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
383
384	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
385	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
386	pixel_bytes;
387	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
388	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
389	final_val = png_ptr->width*pixel_bytes;
390	incr1 = (disp)*pixel_bytes;
391	for (i = initial_val; i < final_val; i += incr1)
392	{
393	png_memcpy(dstptr, srcptr, pixel_bytes);
394	srcptr += incr1;
395	dstptr += incr1;
396	}
397	} /* end of else */
398
399	break;
400	} // end 8 bpp
401
402	case 16:
403	{
404	png_bytep srcptr;
405	png_bytep dstptr;
406	png_uint_32 len;
407	int unmask, diff;
408	__int64 mask1=0x0101020204040808,
409	mask0=0x1010202040408080;
410
411	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
412	/* && mmx_supported */ )
413	{
414	srcptr = png_ptr->row_buf + 1;
415	dstptr = row;
416
417	unmask = ~mask;
418	len = (png_ptr->width)&~7;
419	diff = (png_ptr->width)&7;
420	_asm
421	{
422	movd mm7, unmask //load bit pattern
423	psubb mm6,mm6 //zero mm6
424	punpcklbw mm7,mm7
425	punpcklwd mm7,mm7
426	punpckldq mm7,mm7 //fill register with 8 masks
427
428	movq mm0,mask0
429	movq mm1,mask1
430
431	pand mm0,mm7
432	pand mm1,mm7
433
434	pcmpeqb mm0,mm6
435	pcmpeqb mm1,mm6
436
437	mov ecx,len //load length of line
438	mov esi,srcptr //load source
439	mov ebx,dstptr //load dest
440	cmp ecx,0 //lcr
441	jz mainloop16end
442
443	mainloop16:
444	movq mm4,[esi]
445	pand mm4,mm0
446	movq mm6,mm0
447	movq mm7,[ebx]
448	pandn mm6,mm7
449	por mm4,mm6
450	movq [ebx],mm4
451
452	movq mm5,[esi+8]
453	pand mm5,mm1
454	movq mm7,mm1
455	movq mm6,[ebx+8]
456	pandn mm7,mm6
457	por mm5,mm7
458	movq [ebx+8],mm5
459
460	add esi,16 //inc by 16 bytes processed
461	add ebx,16
462	sub ecx,8 //dec by 8 pixels processed
463
464	ja mainloop16
465
466	mainloop16end:
467	mov ecx,diff
468	cmp ecx,0
469	jz end16
470
471	mov edx,mask
472	sal edx,24 //make low byte the high byte
473	secondloop16:
474	sal edx,1 //move high bit to CF
475	jnc skip16 //if CF = 0
476	mov ax,[esi]
477	mov [ebx],ax
478	skip16:
479	add esi,2
480	add ebx,2
481
482	dec ecx
483	jnz secondloop16
484	end16:
485	emms
486	}
487	}
488	else /* mmx not supported - use modified C routine */
489	{
490	register unsigned int incr1, initial_val, final_val;
491	png_size_t pixel_bytes;
492	png_uint_32 i;
493	register int disp = png_pass_inc[png_ptr->pass];
494	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
495
496	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
497	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
498	pixel_bytes;
499	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
500	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
501	final_val = png_ptr->width*pixel_bytes;
502	incr1 = (disp)*pixel_bytes;
503	for (i = initial_val; i < final_val; i += incr1)
504	{
505	png_memcpy(dstptr, srcptr, pixel_bytes);
506	srcptr += incr1;
507	dstptr += incr1;
508	}
509	} /* end of else */
510
511	break;
512	} // end 16 bpp
513
514	case 24:
515	{
516	png_bytep srcptr;
517	png_bytep dstptr;
518	png_uint_32 len;
519	int unmask, diff;
520
521	__int64 mask2=0x0101010202020404, //24bpp
522	mask1=0x0408080810101020,
523	mask0=0x2020404040808080;
524
525	srcptr = png_ptr->row_buf + 1;
526	dstptr = row;
527
528	unmask = ~mask;
529	len = (png_ptr->width)&~7;
530	diff = (png_ptr->width)&7;
531
532	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
533	/* && mmx_supported */ )
534	{
535	_asm
536	{
537	movd mm7, unmask //load bit pattern
538	psubb mm6,mm6 //zero mm6
539	punpcklbw mm7,mm7
540	punpcklwd mm7,mm7
541	punpckldq mm7,mm7 //fill register with 8 masks
542
543	movq mm0,mask0
544	movq mm1,mask1
545	movq mm2,mask2
546
547	pand mm0,mm7
548	pand mm1,mm7
549	pand mm2,mm7
550
551	pcmpeqb mm0,mm6
552	pcmpeqb mm1,mm6
553	pcmpeqb mm2,mm6
554
555	mov ecx,len //load length of line
556	mov esi,srcptr //load source
557	mov ebx,dstptr //load dest
558	cmp ecx,0
559	jz mainloop24end
560
561	mainloop24:
562	movq mm4,[esi]
563	pand mm4,mm0
564	movq mm6,mm0
565	movq mm7,[ebx]
566	pandn mm6,mm7
567	por mm4,mm6
568	movq [ebx],mm4
569
570
571	movq mm5,[esi+8]
572	pand mm5,mm1
573	movq mm7,mm1
574	movq mm6,[ebx+8]
575	pandn mm7,mm6
576	por mm5,mm7
577	movq [ebx+8],mm5
578
579	movq mm6,[esi+16]
580	pand mm6,mm2
581	movq mm4,mm2
582	movq mm7,[ebx+16]
583	pandn mm4,mm7
584	por mm6,mm4
585	movq [ebx+16],mm6
586
587	add esi,24 //inc by 24 bytes processed
588	add ebx,24
589	sub ecx,8 //dec by 8 pixels processed
590
591	ja mainloop24
592
593	mainloop24end:
594	mov ecx,diff
595	cmp ecx,0
596	jz end24
597
598	mov edx,mask
599	sal edx,24 //make low byte the high byte
600	secondloop24:
601	sal edx,1 //move high bit to CF
602	jnc skip24 //if CF = 0
603	mov ax,[esi]
604	mov [ebx],ax
605	xor eax,eax
606	mov al,[esi+2]
607	mov [ebx+2],al
608	skip24:
609	add esi,3
610	add ebx,3
611
612	dec ecx
613	jnz secondloop24
614
615	end24:
616	emms
617	}
618	}
619	else /* mmx not supported - use modified C routine */
620	{
621	register unsigned int incr1, initial_val, final_val;
622	png_size_t pixel_bytes;
623	png_uint_32 i;
624	register int disp = png_pass_inc[png_ptr->pass];
625	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
626
627	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
628	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
629	pixel_bytes;
630	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
631	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
632	final_val = png_ptr->width*pixel_bytes;
633	incr1 = (disp)*pixel_bytes;
634	for (i = initial_val; i < final_val; i += incr1)
635	{
636	png_memcpy(dstptr, srcptr, pixel_bytes);
637	srcptr += incr1;
638	dstptr += incr1;
639	}
640	} /* end of else */
641
642	break;
643	} // end 24 bpp
644
645	case 32:
646	{
647	png_bytep srcptr;
648	png_bytep dstptr;
649	png_uint_32 len;
650	int unmask, diff;
651
652	__int64 mask3=0x0101010102020202, //32bpp
653	mask2=0x0404040408080808,
654	mask1=0x1010101020202020,
655	mask0=0x4040404080808080;
656
657	srcptr = png_ptr->row_buf + 1;
658	dstptr = row;
659
660	unmask = ~mask;
661	len = (png_ptr->width)&~7;
662	diff = (png_ptr->width)&7;
663
664	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
665	/* && mmx_supported */ )
666	{
667	_asm
668	{
669	movd mm7, unmask //load bit pattern
670	psubb mm6,mm6 //zero mm6
671	punpcklbw mm7,mm7
672	punpcklwd mm7,mm7
673	punpckldq mm7,mm7 //fill register with 8 masks
674
675	movq mm0,mask0
676	movq mm1,mask1
677	movq mm2,mask2
678	movq mm3,mask3
679
680	pand mm0,mm7
681	pand mm1,mm7
682	pand mm2,mm7
683	pand mm3,mm7
684
685	pcmpeqb mm0,mm6
686	pcmpeqb mm1,mm6
687	pcmpeqb mm2,mm6
688	pcmpeqb mm3,mm6
689
690	mov ecx,len //load length of line
691	mov esi,srcptr //load source
692	mov ebx,dstptr //load dest
693
694	cmp ecx,0 //lcr
695	jz mainloop32end
696
697	mainloop32:
698	movq mm4,[esi]
699	pand mm4,mm0
700	movq mm6,mm0
701	movq mm7,[ebx]
702	pandn mm6,mm7
703	por mm4,mm6
704	movq [ebx],mm4
705
706	movq mm5,[esi+8]
707	pand mm5,mm1
708	movq mm7,mm1
709	movq mm6,[ebx+8]
710	pandn mm7,mm6
711	por mm5,mm7
712	movq [ebx+8],mm5
713
714	movq mm6,[esi+16]
715	pand mm6,mm2
716	movq mm4,mm2
717	movq mm7,[ebx+16]
718	pandn mm4,mm7
719	por mm6,mm4
720	movq [ebx+16],mm6
721
722	movq mm7,[esi+24]
723	pand mm7,mm3
724	movq mm5,mm3
725	movq mm4,[ebx+24]
726	pandn mm5,mm4
727	por mm7,mm5
728	movq [ebx+24],mm7
729
730	add esi,32 //inc by 32 bytes processed
731	add ebx,32
732	sub ecx,8 //dec by 8 pixels processed
733
734	ja mainloop32
735
736	mainloop32end:
737	mov ecx,diff
738	cmp ecx,0
739	jz end32
740
741	mov edx,mask
742	sal edx,24 //make low byte the high byte
743	secondloop32:
744	sal edx,1 //move high bit to CF
745	jnc skip32 //if CF = 0
746	mov eax,[esi]
747	mov [ebx],eax
748	skip32:
749	add esi,4
750	add ebx,4
751
752	dec ecx
753	jnz secondloop32
754
755	end32:
756	emms
757	}
758	}
759	else /* mmx _not supported - Use modified C routine */
760	{
761	register unsigned int incr1, initial_val, final_val;
762	png_size_t pixel_bytes;
763	png_uint_32 i;
764	register int disp = png_pass_inc[png_ptr->pass];
765	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
766
767	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
768	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
769	pixel_bytes;
770	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
771	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
772	final_val = png_ptr->width*pixel_bytes;
773	incr1 = (disp)*pixel_bytes;
774	for (i = initial_val; i < final_val; i += incr1)
775	{
776	png_memcpy(dstptr, srcptr, pixel_bytes);
777	srcptr += incr1;
778	dstptr += incr1;
779	}
780	} /* end of else */
781
782	break;
783	} // end 32 bpp
784
785	case 48:
786	{
787	png_bytep srcptr;
788	png_bytep dstptr;
789	png_uint_32 len;
790	int unmask, diff;
791
792	__int64 mask5=0x0101010101010202,
793	mask4=0x0202020204040404,
794	mask3=0x0404080808080808,
795	mask2=0x1010101010102020,
796	mask1=0x2020202040404040,
797	mask0=0x4040808080808080;
798
799	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
800	/* && mmx_supported */ )
801	{
802	srcptr = png_ptr->row_buf + 1;
803	dstptr = row;
804
805	unmask = ~mask;
806	len = (png_ptr->width)&~7;
807	diff = (png_ptr->width)&7;
808	_asm
809	{
810	movd mm7, unmask //load bit pattern
811	psubb mm6,mm6 //zero mm6
812	punpcklbw mm7,mm7
813	punpcklwd mm7,mm7
814	punpckldq mm7,mm7 //fill register with 8 masks
815
816	movq mm0,mask0
817	movq mm1,mask1
818	movq mm2,mask2
819	movq mm3,mask3
820	movq mm4,mask4
821	movq mm5,mask5
822
823	pand mm0,mm7
824	pand mm1,mm7
825	pand mm2,mm7
826	pand mm3,mm7
827	pand mm4,mm7
828	pand mm5,mm7
829
830	pcmpeqb mm0,mm6
831	pcmpeqb mm1,mm6
832	pcmpeqb mm2,mm6
833	pcmpeqb mm3,mm6
834	pcmpeqb mm4,mm6
835	pcmpeqb mm5,mm6
836
837	mov ecx,len //load length of line
838	mov esi,srcptr //load source
839	mov ebx,dstptr //load dest
840
841	cmp ecx,0
842	jz mainloop48end
843
844	mainloop48:
845	movq mm7,[esi]
846	pand mm7,mm0
847	movq mm6,mm0
848	pandn mm6,[ebx]
849	por mm7,mm6
850	movq [ebx],mm7
851
852	movq mm6,[esi+8]
853	pand mm6,mm1
854	movq mm7,mm1
855	pandn mm7,[ebx+8]
856	por mm6,mm7
857	movq [ebx+8],mm6
858
859	movq mm6,[esi+16]
860	pand mm6,mm2
861	movq mm7,mm2
862	pandn mm7,[ebx+16]
863	por mm6,mm7
864	movq [ebx+16],mm6
865
866	movq mm7,[esi+24]
867	pand mm7,mm3
868	movq mm6,mm3
869	pandn mm6,[ebx+24]
870	por mm7,mm6
871	movq [ebx+24],mm7
872
873	movq mm6,[esi+32]
874	pand mm6,mm4
875	movq mm7,mm4
876	pandn mm7,[ebx+32]
877	por mm6,mm7
878	movq [ebx+32],mm6
879
880	movq mm7,[esi+40]
881	pand mm7,mm5
882	movq mm6,mm5
883	pandn mm6,[ebx+40]
884	por mm7,mm6
885	movq [ebx+40],mm7
886
887	add esi,48 //inc by 32 bytes processed
888	add ebx,48
889	sub ecx,8 //dec by 8 pixels processed
890
891	ja mainloop48
892	mainloop48end:
893
894	mov ecx,diff
895	cmp ecx,0
896	jz end48
897
898	mov edx,mask
899	sal edx,24 //make low byte the high byte
900
901	secondloop48:
902	sal edx,1 //move high bit to CF
903	jnc skip48 //if CF = 0
904	mov eax,[esi]
905	mov [ebx],eax
906	skip48:
907	add esi,4
908	add ebx,4
909
910	dec ecx
911	jnz secondloop48
912
913	end48:
914	emms
915	}
916	}
917	else /* mmx _not supported - Use modified C routine */
918	{
919	register unsigned int incr1, initial_val, final_val;
920	png_size_t pixel_bytes;
921	png_uint_32 i;
922	register int disp = png_pass_inc[png_ptr->pass];
923	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
924
925	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
926	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
927	pixel_bytes;
928	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
929	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
930	final_val = png_ptr->width*pixel_bytes;
931	incr1 = (disp)*pixel_bytes;
932	for (i = initial_val; i < final_val; i += incr1)
933	{
934	png_memcpy(dstptr, srcptr, pixel_bytes);
935	srcptr += incr1;
936	dstptr += incr1;
937	}
938	} /* end of else */
939
940	break;
941	} // end 48 bpp
942
943	default:
944	{
945	png_bytep sptr;
946	png_bytep dp;
947	png_size_t pixel_bytes;
948	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
949	unsigned int i;
950	register int disp = png_pass_inc[png_ptr->pass]; // get the offset
951	register unsigned int incr1, initial_val, final_val;
952
953	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
954	sptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
955	pixel_bytes;
956	dp = row + offset_table[png_ptr->pass]*pixel_bytes;
957	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
958	final_val = png_ptr->width*pixel_bytes;
959	incr1 = (disp)*pixel_bytes;
960	for (i = initial_val; i < final_val; i += incr1)
961	{
962	png_memcpy(dp, sptr, pixel_bytes);
963	sptr += incr1;
964	dp += incr1;
965	}
966	break;
967	}
968	} /* end switch (png_ptr->row_info.pixel_depth) */
969	} /* end if (non-trivial mask) */
970
971	} /* end png_combine_row() */
972
973
974	#if defined(PNG_READ_INTERLACING_SUPPORTED)
975
976	void /* PRIVATE */
977	png_do_read_interlace(png_structp png_ptr)
978	{
979	png_row_infop row_info = &(png_ptr->row_info);
980	png_bytep row = png_ptr->row_buf + 1;
981	int pass = png_ptr->pass;
982	png_uint_32 transformations = png_ptr->transformations;
983	#ifdef PNG_USE_LOCAL_ARRAYS
984	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
985	#endif
986
987	png_debug(1,"in png_do_read_interlace\n");
988
989	if (mmx_supported == 2) {
990	/* this should have happened in png_init_mmx_flags() already */
991	png_warning(png_ptr, "asm_flags may not have been initialized");
992	png_mmx_support();
993	}
994
995	if (row != NULL && row_info != NULL)
996	{
997	png_uint_32 final_width;
998
999	final_width = row_info->width * png_pass_inc[pass];
1000
1001	switch (row_info->pixel_depth)
1002	{
1003	case 1:
1004	{
1005	png_bytep sp, dp;
1006	int sshift, dshift;
1007	int s_start, s_end, s_inc;
1008	png_byte v;
1009	png_uint_32 i;
1010	int j;
1011
1012	sp = row + (png_size_t)((row_info->width - 1) >> 3);
1013	dp = row + (png_size_t)((final_width - 1) >> 3);
1014	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1015	if (transformations & PNG_PACKSWAP)
1016	{
1017	sshift = (int)((row_info->width + 7) & 7);
1018	dshift = (int)((final_width + 7) & 7);
1019	s_start = 7;
1020	s_end = 0;
1021	s_inc = -1;
1022	}
1023	else
1024	#endif
1025	{
1026	sshift = 7 - (int)((row_info->width + 7) & 7);
1027	dshift = 7 - (int)((final_width + 7) & 7);
1028	s_start = 0;
1029	s_end = 7;
1030	s_inc = 1;
1031	}
1032
1033	for (i = row_info->width; i; i--)
1034	{
1035	v = (png_byte)((*sp >> sshift) & 0x1);
1036	for (j = 0; j < png_pass_inc[pass]; j++)
1037	{
1038	*dp &= (png_byte)((0x7f7f >> (7 - dshift)) & 0xff);
1039	*dp \|= (png_byte)(v << dshift);
1040	if (dshift == s_end)
1041	{
1042	dshift = s_start;
1043	dp--;
1044	}
1045	else
1046	dshift += s_inc;
1047	}
1048	if (sshift == s_end)
1049	{
1050	sshift = s_start;
1051	sp--;
1052	}
1053	else
1054	sshift += s_inc;
1055	}
1056	break;
1057	}
1058
1059	case 2:
1060	{
1061	png_bytep sp, dp;
1062	int sshift, dshift;
1063	int s_start, s_end, s_inc;
1064	png_uint_32 i;
1065
1066	sp = row + (png_size_t)((row_info->width - 1) >> 2);
1067	dp = row + (png_size_t)((final_width - 1) >> 2);
1068	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1069	if (transformations & PNG_PACKSWAP)
1070	{
1071	sshift = (png_size_t)(((row_info->width + 3) & 3) << 1);
1072	dshift = (png_size_t)(((final_width + 3) & 3) << 1);
1073	s_start = 6;
1074	s_end = 0;
1075	s_inc = -2;
1076	}
1077	else
1078	#endif
1079	{
1080	sshift = (png_size_t)((3 - ((row_info->width + 3) & 3)) << 1);
1081	dshift = (png_size_t)((3 - ((final_width + 3) & 3)) << 1);
1082	s_start = 0;
1083	s_end = 6;
1084	s_inc = 2;
1085	}
1086
1087	for (i = row_info->width; i; i--)
1088	{
1089	png_byte v;
1090	int j;
1091
1092	v = (png_byte)((*sp >> sshift) & 0x3);
1093	for (j = 0; j < png_pass_inc[pass]; j++)
1094	{
1095	*dp &= (png_byte)((0x3f3f >> (6 - dshift)) & 0xff);
1096	*dp \|= (png_byte)(v << dshift);
1097	if (dshift == s_end)
1098	{
1099	dshift = s_start;
1100	dp--;
1101	}
1102	else
1103	dshift += s_inc;
1104	}
1105	if (sshift == s_end)
1106	{
1107	sshift = s_start;
1108	sp--;
1109	}
1110	else
1111	sshift += s_inc;
1112	}
1113	break;
1114	}
1115
1116	case 4:
1117	{
1118	png_bytep sp, dp;
1119	int sshift, dshift;
1120	int s_start, s_end, s_inc;
1121	png_uint_32 i;
1122
1123	sp = row + (png_size_t)((row_info->width - 1) >> 1);
1124	dp = row + (png_size_t)((final_width - 1) >> 1);
1125	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1126	if (transformations & PNG_PACKSWAP)
1127	{
1128	sshift = (png_size_t)(((row_info->width + 1) & 1) << 2);
1129	dshift = (png_size_t)(((final_width + 1) & 1) << 2);
1130	s_start = 4;
1131	s_end = 0;
1132	s_inc = -4;
1133	}
1134	else
1135	#endif
1136	{
1137	sshift = (png_size_t)((1 - ((row_info->width + 1) & 1)) << 2);
1138	dshift = (png_size_t)((1 - ((final_width + 1) & 1)) << 2);
1139	s_start = 0;
1140	s_end = 4;
1141	s_inc = 4;
1142	}
1143
1144	for (i = row_info->width; i; i--)
1145	{
1146	png_byte v;
1147	int j;
1148
1149	v = (png_byte)((*sp >> sshift) & 0xf);
1150	for (j = 0; j < png_pass_inc[pass]; j++)
1151	{
1152	*dp &= (png_byte)((0xf0f >> (4 - dshift)) & 0xff);
1153	*dp \|= (png_byte)(v << dshift);
1154	if (dshift == s_end)
1155	{
1156	dshift = s_start;
1157	dp--;
1158	}
1159	else
1160	dshift += s_inc;
1161	}
1162	if (sshift == s_end)
1163	{
1164	sshift = s_start;
1165	sp--;
1166	}
1167	else
1168	sshift += s_inc;
1169	}
1170	break;
1171	}
1172
1173	default: // This is the place where the routine is modified
1174	{
1175	__int64 const4 = 0x0000000000FFFFFF;
1176	// __int64 const5 = 0x000000FFFFFF0000; // unused...
1177	__int64 const6 = 0x00000000000000FF;
1178	png_bytep sptr, dp;
1179	png_uint_32 i;
1180	png_size_t pixel_bytes;
1181	int width = row_info->width;
1182
1183	pixel_bytes = (row_info->pixel_depth >> 3);
1184
1185	sptr = row + (width - 1) * pixel_bytes;
1186	dp = row + (final_width - 1) * pixel_bytes;
1187	// New code by Nirav Chhatrapati - Intel Corporation
1188	// sign fix by GRR
1189	// NOTE: there is NO MMX code for 48-bit and 64-bit images
1190
1191	// use MMX routine if machine supports it
1192	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_INTERLACE)
1193	/* && mmx_supported */ )
1194	{
1195	if (pixel_bytes == 3)
1196	{
1197	if (((pass == 0) \|\| (pass == 1)) && width)
1198	{
1199	_asm
1200	{
1201	mov esi, sptr
1202	mov edi, dp
1203	mov ecx, width
1204	sub edi, 21 // (png_pass_inc[pass] - 1)*pixel_bytes
1205	loop_pass0:
1206	movd mm0, [esi] ; X X X X X v2 v1 v0
1207	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
1208	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
1209	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
1210	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
1211	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
1212	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
1213	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
1214	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
1215	movq mm3, mm0 ; v2 v1 v0 v2 v1 v0 v2 v1
1216	psllq mm0, 16 ; v0 v2 v1 v0 v2 v1 0 0
1217	movq mm4, mm3 ; v2 v1 v0 v2 v1 v0 v2 v1
1218	punpckhdq mm3, mm0 ; v0 v2 v1 v0 v2 v1 v0 v2
1219	movq [edi+16] , mm4
1220	psrlq mm0, 32 ; 0 0 0 0 v0 v2 v1 v0
1221	movq [edi+8] , mm3
1222	punpckldq mm0, mm4 ; v1 v0 v2 v1 v0 v2 v1 v0
1223	sub esi, 3
1224	movq [edi], mm0
1225	sub edi, 24
1226	//sub esi, 3
1227	dec ecx
1228	jnz loop_pass0
1229	EMMS
1230	}
1231	}
1232	else if (((pass == 2) \|\| (pass == 3)) && width)
1233	{
1234	_asm
1235	{
1236	mov esi, sptr
1237	mov edi, dp
1238	mov ecx, width
1239	sub edi, 9 // (png_pass_inc[pass] - 1)*pixel_bytes
1240	loop_pass2:
1241	movd mm0, [esi] ; X X X X X v2 v1 v0
1242	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
1243	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
1244	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
1245	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
1246	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
1247	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
1248	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
1249	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
1250	movq [edi+4], mm0 ; move to memory
1251	psrlq mm0, 16 ; 0 0 v2 v1 v0 v2 v1 v0
1252	movd [edi], mm0 ; move to memory
1253	sub esi, 3
1254	sub edi, 12
1255	dec ecx
1256	jnz loop_pass2
1257	EMMS
1258	}
1259	}
1260	else if (width) /* && ((pass == 4) \|\| (pass == 5)) */
1261	{
1262	int width_mmx = ((width >> 1) << 1) - 8;
1263	if (width_mmx < 0)
1264	width_mmx = 0;
1265	width -= width_mmx; // 8 or 9 pix, 24 or 27 bytes
1266	if (width_mmx)
1267	{
1268	_asm
1269	{
1270	mov esi, sptr
1271	mov edi, dp
1272	mov ecx, width_mmx
1273	sub esi, 3
1274	sub edi, 9
1275	loop_pass4:
1276	movq mm0, [esi] ; X X v2 v1 v0 v5 v4 v3
1277	movq mm7, mm0 ; X X v2 v1 v0 v5 v4 v3
1278	movq mm6, mm0 ; X X v2 v1 v0 v5 v4 v3
1279	psllq mm0, 24 ; v1 v0 v5 v4 v3 0 0 0
1280	pand mm7, const4 ; 0 0 0 0 0 v5 v4 v3
1281	psrlq mm6, 24 ; 0 0 0 X X v2 v1 v0
1282	por mm0, mm7 ; v1 v0 v5 v4 v3 v5 v4 v3
1283	movq mm5, mm6 ; 0 0 0 X X v2 v1 v0
1284	psllq mm6, 8 ; 0 0 X X v2 v1 v0 0
1285	movq [edi], mm0 ; move quad to memory
1286	psrlq mm5, 16 ; 0 0 0 0 0 X X v2
1287	pand mm5, const6 ; 0 0 0 0 0 0 0 v2
1288	por mm6, mm5 ; 0 0 X X v2 v1 v0 v2
1289	movd [edi+8], mm6 ; move double to memory
1290	sub esi, 6
1291	sub edi, 12
1292	sub ecx, 2
1293	jnz loop_pass4
1294	EMMS
1295	}
1296	}
1297
1298	sptr -= width_mmx*3;
1299	dp -= width_mmx*6;
1300	for (i = width; i; i--)
1301	{
1302	png_byte v[8];
1303	int j;
1304
1305	png_memcpy(v, sptr, 3);
1306	for (j = 0; j < png_pass_inc[pass]; j++)
1307	{
1308	png_memcpy(dp, v, 3);
1309	dp -= 3;
1310	}
1311	sptr -= 3;
1312	}
1313	}
1314	} /* end of pixel_bytes == 3 */
1315
1316	else if (pixel_bytes == 1)
1317	{
1318	if (((pass == 0) \|\| (pass == 1)) && width)
1319	{
1320	int width_mmx = ((width >> 2) << 2);
1321	width -= width_mmx;
1322	if (width_mmx)
1323	{
1324	_asm
1325	{
1326	mov esi, sptr
1327	mov edi, dp
1328	mov ecx, width_mmx
1329	sub edi, 31
1330	sub esi, 3
1331	loop1_pass0:
1332	movd mm0, [esi] ; X X X X v0 v1 v2 v3
1333	movq mm1, mm0 ; X X X X v0 v1 v2 v3
1334	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1335	movq mm2, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1336	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1337	movq mm3, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1338	punpckldq mm0, mm0 ; v3 v3 v3 v3 v3 v3 v3 v3
1339	punpckhdq mm3, mm3 ; v2 v2 v2 v2 v2 v2 v2 v2
1340	movq [edi], mm0 ; move to memory v3
1341	punpckhwd mm2, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
1342	movq [edi+8], mm3 ; move to memory v2
1343	movq mm4, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
1344	punpckldq mm2, mm2 ; v1 v1 v1 v1 v1 v1 v1 v1
1345	punpckhdq mm4, mm4 ; v0 v0 v0 v0 v0 v0 v0 v0
1346	movq [edi+16], mm2 ; move to memory v1
1347	movq [edi+24], mm4 ; move to memory v0
1348	sub esi, 4
1349	sub edi, 32
1350	sub ecx, 4
1351	jnz loop1_pass0
1352	EMMS
1353	}
1354	}
1355
1356	sptr -= width_mmx;
1357	dp -= width_mmx*8;
1358	for (i = width; i; i--)
1359	{
1360	int j;
1361
1362	/* I simplified this part in version 1.0.4e
1363	* here and in several other instances where
1364	* pixel_bytes == 1 -- GR-P
1365	*
1366	* Original code:
1367	*
1368	* png_byte v[8];
1369	* png_memcpy(v, sptr, pixel_bytes);
1370	* for (j = 0; j < png_pass_inc[pass]; j++)
1371	* {
1372	* png_memcpy(dp, v, pixel_bytes);
1373	* dp -= pixel_bytes;
1374	* }
1375	* sptr -= pixel_bytes;
1376	*
1377	* Replacement code is in the next three lines:
1378	*/
1379
1380	for (j = 0; j < png_pass_inc[pass]; j++)
1381	dp-- = sptr;
1382	sptr--;
1383	}
1384	}
1385	else if (((pass == 2) \|\| (pass == 3)) && width)
1386	{
1387	int width_mmx = ((width >> 2) << 2);
1388	width -= width_mmx;
1389	if (width_mmx)
1390	{
1391	_asm
1392	{
1393	mov esi, sptr
1394	mov edi, dp
1395	mov ecx, width_mmx
1396	sub edi, 15
1397	sub esi, 3
1398	loop1_pass2:
1399	movd mm0, [esi] ; X X X X v0 v1 v2 v3
1400	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1401	movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1402	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1403	punpckhwd mm1, mm1 ; v0 v0 v0 v0 v1 v1 v1 v1
1404	movq [edi], mm0 ; move to memory v2 and v3
1405	sub esi, 4
1406	movq [edi+8], mm1 ; move to memory v1 and v0
1407	sub edi, 16
1408	sub ecx, 4
1409	jnz loop1_pass2
1410	EMMS
1411	}
1412	}
1413
1414	sptr -= width_mmx;
1415	dp -= width_mmx*4;
1416	for (i = width; i; i--)
1417	{
1418	int j;
1419
1420	for (j = 0; j < png_pass_inc[pass]; j++)
1421	{
1422	dp-- = sptr;
1423	}
1424	sptr --;
1425	}
1426	}
1427	else if (width) /* && ((pass == 4) \|\| (pass == 5))) */
1428	{
1429	int width_mmx = ((width >> 3) << 3);
1430	width -= width_mmx;
1431	if (width_mmx)
1432	{
1433	_asm
1434	{
1435	mov esi, sptr
1436	mov edi, dp
1437	mov ecx, width_mmx
1438	sub edi, 15
1439	sub esi, 7
1440	loop1_pass4:
1441	movq mm0, [esi] ; v0 v1 v2 v3 v4 v5 v6 v7
1442	movq mm1, mm0 ; v0 v1 v2 v3 v4 v5 v6 v7
1443	punpcklbw mm0, mm0 ; v4 v4 v5 v5 v6 v6 v7 v7
1444	//movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1445	punpckhbw mm1, mm1 ;v0 v0 v1 v1 v2 v2 v3 v3
1446	movq [edi+8], mm1 ; move to memory v0 v1 v2 and v3
1447	sub esi, 8
1448	movq [edi], mm0 ; move to memory v4 v5 v6 and v7
1449	//sub esi, 4
1450	sub edi, 16
1451	sub ecx, 8
1452	jnz loop1_pass4
1453	EMMS
1454	}
1455	}
1456
1457	sptr -= width_mmx;
1458	dp -= width_mmx*2;
1459	for (i = width; i; i--)
1460	{
1461	int j;
1462
1463	for (j = 0; j < png_pass_inc[pass]; j++)
1464	{
1465	dp-- = sptr;
1466	}
1467	sptr --;
1468	}
1469	}
1470	} /* end of pixel_bytes == 1 */
1471
1472	else if (pixel_bytes == 2)
1473	{
1474	if (((pass == 0) \|\| (pass == 1)) && width)
1475	{
1476	int width_mmx = ((width >> 1) << 1);
1477	width -= width_mmx;
1478	if (width_mmx)
1479	{
1480	_asm
1481	{
1482	mov esi, sptr
1483	mov edi, dp
1484	mov ecx, width_mmx
1485	sub esi, 2
1486	sub edi, 30
1487	loop2_pass0:
1488	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1489	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1490	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1491	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
1492	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
1493	movq [edi], mm0
1494	movq [edi + 8], mm0
1495	movq [edi + 16], mm1
1496	movq [edi + 24], mm1
1497	sub esi, 4
1498	sub edi, 32
1499	sub ecx, 2
1500	jnz loop2_pass0
1501	EMMS
1502	}
1503	}
1504
1505	sptr -= (width_mmx*2 - 2); // sign fixed
1506	dp -= (width_mmx*16 - 2); // sign fixed
1507	for (i = width; i; i--)
1508	{
1509	png_byte v[8];
1510	int j;
1511	sptr -= 2;
1512	png_memcpy(v, sptr, 2);
1513	for (j = 0; j < png_pass_inc[pass]; j++)
1514	{
1515	dp -= 2;
1516	png_memcpy(dp, v, 2);
1517	}
1518	}
1519	}
1520	else if (((pass == 2) \|\| (pass == 3)) && width)
1521	{
1522	int width_mmx = ((width >> 1) << 1) ;
1523	width -= width_mmx;
1524	if (width_mmx)
1525	{
1526	_asm
1527	{
1528	mov esi, sptr
1529	mov edi, dp
1530	mov ecx, width_mmx
1531	sub esi, 2
1532	sub edi, 14
1533	loop2_pass2:
1534	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1535	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1536	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1537	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
1538	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
1539	movq [edi], mm0
1540	sub esi, 4
1541	movq [edi + 8], mm1
1542	//sub esi, 4
1543	sub edi, 16
1544	sub ecx, 2
1545	jnz loop2_pass2
1546	EMMS
1547	}
1548	}
1549
1550	sptr -= (width_mmx*2 - 2); // sign fixed
1551	dp -= (width_mmx*8 - 2); // sign fixed
1552	for (i = width; i; i--)
1553	{
1554	png_byte v[8];
1555	int j;
1556	sptr -= 2;
1557	png_memcpy(v, sptr, 2);
1558	for (j = 0; j < png_pass_inc[pass]; j++)
1559	{
1560	dp -= 2;
1561	png_memcpy(dp, v, 2);
1562	}
1563	}
1564	}
1565	else if (width) // pass == 4 or 5
1566	{
1567	int width_mmx = ((width >> 1) << 1) ;
1568	width -= width_mmx;
1569	if (width_mmx)
1570	{
1571	_asm
1572	{
1573	mov esi, sptr
1574	mov edi, dp
1575	mov ecx, width_mmx
1576	sub esi, 2
1577	sub edi, 6
1578	loop2_pass4:
1579	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1580	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1581	sub esi, 4
1582	movq [edi], mm0
1583	sub edi, 8
1584	sub ecx, 2
1585	jnz loop2_pass4
1586	EMMS
1587	}
1588	}
1589
1590	sptr -= (width_mmx*2 - 2); // sign fixed
1591	dp -= (width_mmx*4 - 2); // sign fixed
1592	for (i = width; i; i--)
1593	{
1594	png_byte v[8];
1595	int j;
1596	sptr -= 2;
1597	png_memcpy(v, sptr, 2);
1598	for (j = 0; j < png_pass_inc[pass]; j++)
1599	{
1600	dp -= 2;
1601	png_memcpy(dp, v, 2);
1602	}
1603	}
1604	}
1605	} /* end of pixel_bytes == 2 */
1606
1607	else if (pixel_bytes == 4)
1608	{
1609	if (((pass == 0) \|\| (pass == 1)) && width)
1610	{
1611	int width_mmx = ((width >> 1) << 1) ;
1612	width -= width_mmx;
1613	if (width_mmx)
1614	{
1615	_asm
1616	{
1617	mov esi, sptr
1618	mov edi, dp
1619	mov ecx, width_mmx
1620	sub esi, 4
1621	sub edi, 60
1622	loop4_pass0:
1623	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1624	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1625	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1626	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1627	movq [edi], mm0
1628	movq [edi + 8], mm0
1629	movq [edi + 16], mm0
1630	movq [edi + 24], mm0
1631	movq [edi+32], mm1
1632	movq [edi + 40], mm1
1633	movq [edi+ 48], mm1
1634	sub esi, 8
1635	movq [edi + 56], mm1
1636	sub edi, 64
1637	sub ecx, 2
1638	jnz loop4_pass0
1639	EMMS
1640	}
1641	}
1642
1643	sptr -= (width_mmx*4 - 4); // sign fixed
1644	dp -= (width_mmx*32 - 4); // sign fixed
1645	for (i = width; i; i--)
1646	{
1647	png_byte v[8];
1648	int j;
1649	sptr -= 4;
1650	png_memcpy(v, sptr, 4);
1651	for (j = 0; j < png_pass_inc[pass]; j++)
1652	{
1653	dp -= 4;
1654	png_memcpy(dp, v, 4);
1655	}
1656	}
1657	}
1658	else if (((pass == 2) \|\| (pass == 3)) && width)
1659	{
1660	int width_mmx = ((width >> 1) << 1) ;
1661	width -= width_mmx;
1662	if (width_mmx)
1663	{
1664	_asm
1665	{
1666	mov esi, sptr
1667	mov edi, dp
1668	mov ecx, width_mmx
1669	sub esi, 4
1670	sub edi, 28
1671	loop4_pass2:
1672	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1673	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1674	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1675	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1676	movq [edi], mm0
1677	movq [edi + 8], mm0
1678	movq [edi+16], mm1
1679	movq [edi + 24], mm1
1680	sub esi, 8
1681	sub edi, 32
1682	sub ecx, 2
1683	jnz loop4_pass2
1684	EMMS
1685	}
1686	}
1687
1688	sptr -= (width_mmx*4 - 4); // sign fixed
1689	dp -= (width_mmx*16 - 4); // sign fixed
1690	for (i = width; i; i--)
1691	{
1692	png_byte v[8];
1693	int j;
1694	sptr -= 4;
1695	png_memcpy(v, sptr, 4);
1696	for (j = 0; j < png_pass_inc[pass]; j++)
1697	{
1698	dp -= 4;
1699	png_memcpy(dp, v, 4);
1700	}
1701	}
1702	}
1703	else if (width) // pass == 4 or 5
1704	{
1705	int width_mmx = ((width >> 1) << 1) ;
1706	width -= width_mmx;
1707	if (width_mmx)
1708	{
1709	_asm
1710	{
1711	mov esi, sptr
1712	mov edi, dp
1713	mov ecx, width_mmx
1714	sub esi, 4
1715	sub edi, 12
1716	loop4_pass4:
1717	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1718	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1719	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1720	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1721	movq [edi], mm0
1722	sub esi, 8
1723	movq [edi + 8], mm1
1724	sub edi, 16
1725	sub ecx, 2
1726	jnz loop4_pass4
1727	EMMS
1728	}
1729	}
1730
1731	sptr -= (width_mmx*4 - 4); // sign fixed
1732	dp -= (width_mmx*8 - 4); // sign fixed
1733	for (i = width; i; i--)
1734	{
1735	png_byte v[8];
1736	int j;
1737	sptr -= 4;
1738	png_memcpy(v, sptr, 4);
1739	for (j = 0; j < png_pass_inc[pass]; j++)
1740	{
1741	dp -= 4;
1742	png_memcpy(dp, v, 4);
1743	}
1744	}
1745	}
1746
1747	} /* end of pixel_bytes == 4 */
1748
1749	else if (pixel_bytes == 6)
1750	{
1751	for (i = width; i; i--)
1752	{
1753	png_byte v[8];
1754	int j;
1755	png_memcpy(v, sptr, 6);
1756	for (j = 0; j < png_pass_inc[pass]; j++)
1757	{
1758	png_memcpy(dp, v, 6);
1759	dp -= 6;
1760	}
1761	sptr -= 6;
1762	}
1763	} /* end of pixel_bytes == 6 */
1764
1765	else
1766	{
1767	for (i = width; i; i--)
1768	{
1769	png_byte v[8];
1770	int j;
1771	png_memcpy(v, sptr, pixel_bytes);
1772	for (j = 0; j < png_pass_inc[pass]; j++)
1773	{
1774	png_memcpy(dp, v, pixel_bytes);
1775	dp -= pixel_bytes;
1776	}
1777	sptr-= pixel_bytes;
1778	}
1779	}
1780	} /* end of mmx_supported */
1781
1782	else /* MMX not supported: use modified C code - takes advantage
1783	* of inlining of memcpy for a constant */
1784	{
1785	if (pixel_bytes == 1)
1786	{
1787	for (i = width; i; i--)
1788	{
1789	int j;
1790	for (j = 0; j < png_pass_inc[pass]; j++)
1791	dp-- = sptr;
1792	sptr--;
1793	}
1794	}
1795	else if (pixel_bytes == 3)
1796	{
1797	for (i = width; i; i--)
1798	{
1799	png_byte v[8];
1800	int j;
1801	png_memcpy(v, sptr, pixel_bytes);
1802	for (j = 0; j < png_pass_inc[pass]; j++)
1803	{
1804	png_memcpy(dp, v, pixel_bytes);
1805	dp -= pixel_bytes;
1806	}
1807	sptr -= pixel_bytes;
1808	}
1809	}
1810	else if (pixel_bytes == 2)
1811	{
1812	for (i = width; i; i--)
1813	{
1814	png_byte v[8];
1815	int j;
1816	png_memcpy(v, sptr, pixel_bytes);
1817	for (j = 0; j < png_pass_inc[pass]; j++)
1818	{
1819	png_memcpy(dp, v, pixel_bytes);
1820	dp -= pixel_bytes;
1821	}
1822	sptr -= pixel_bytes;
1823	}
1824	}
1825	else if (pixel_bytes == 4)
1826	{
1827	for (i = width; i; i--)
1828	{
1829	png_byte v[8];
1830	int j;
1831	png_memcpy(v, sptr, pixel_bytes);
1832	for (j = 0; j < png_pass_inc[pass]; j++)
1833	{
1834	png_memcpy(dp, v, pixel_bytes);
1835	dp -= pixel_bytes;
1836	}
1837	sptr -= pixel_bytes;
1838	}
1839	}
1840	else if (pixel_bytes == 6)
1841	{
1842	for (i = width; i; i--)
1843	{
1844	png_byte v[8];
1845	int j;
1846	png_memcpy(v, sptr, pixel_bytes);
1847	for (j = 0; j < png_pass_inc[pass]; j++)
1848	{
1849	png_memcpy(dp, v, pixel_bytes);
1850	dp -= pixel_bytes;
1851	}
1852	sptr -= pixel_bytes;
1853	}
1854	}
1855	else
1856	{
1857	for (i = width; i; i--)
1858	{
1859	png_byte v[8];
1860	int j;
1861	png_memcpy(v, sptr, pixel_bytes);
1862	for (j = 0; j < png_pass_inc[pass]; j++)
1863	{
1864	png_memcpy(dp, v, pixel_bytes);
1865	dp -= pixel_bytes;
1866	}
1867	sptr -= pixel_bytes;
1868	}
1869	}
1870
1871	} /* end of MMX not supported */
1872	break;
1873	}
1874	} /* end switch (row_info->pixel_depth) */
1875
1876	row_info->width = final_width;
1877	row_info->rowbytes = ((final_width *
1878	(png_uint_32)row_info->pixel_depth + 7) >> 3);
1879	}
1880
1881	}
1882
1883	#endif /* PNG_READ_INTERLACING_SUPPORTED */
1884
1885
1886	// These variables are utilized in the functions below. They are declared
1887	// globally here to ensure alignment on 8-byte boundaries.
1888
1889	union uAll {
1890	__int64 use;
1891	double align;
1892	} LBCarryMask = {0x0101010101010101},
1893	HBClearMask = {0x7f7f7f7f7f7f7f7f},
1894	ActiveMask, ActiveMask2, ActiveMaskEnd, ShiftBpp, ShiftRem;
1895
1896
1897	// Optimized code for PNG Average filter decoder
1898	void /* PRIVATE */
1899	png_read_filter_row_mmx_avg(png_row_infop row_info, png_bytep row
1900	, png_bytep prev_row)
1901	{
1902	int bpp;
1903	png_uint_32 FullLength;
1904	png_uint_32 MMXLength;
1905	//png_uint_32 len;
1906	int diff;
1907
1908	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
1909	FullLength = row_info->rowbytes; // # of bytes to filter
1910	_asm {
1911	// Init address pointers and offset
1912	mov edi, row // edi ==> Avg(x)
1913	xor ebx, ebx // ebx ==> x
1914	mov edx, edi
1915	mov esi, prev_row // esi ==> Prior(x)
1916	sub edx, bpp // edx ==> Raw(x-bpp)
1917
1918	xor eax, eax
1919	// Compute the Raw value for the first bpp bytes
1920	// Raw(x) = Avg(x) + (Prior(x)/2)
1921	davgrlp:
1922	mov al, [esi + ebx] // Load al with Prior(x)
1923	inc ebx
1924	shr al, 1 // divide by 2
1925	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
1926	cmp ebx, bpp
1927	mov [edi+ebx-1], al // Write back Raw(x);
1928	// mov does not affect flags; -1 to offset inc ebx
1929	jb davgrlp
1930	// get # of bytes to alignment
1931	mov diff, edi // take start of row
1932	add diff, ebx // add bpp
1933	add diff, 0xf // add 7 + 8 to incr past alignment boundary
1934	and diff, 0xfffffff8 // mask to alignment boundary
1935	sub diff, edi // subtract from start ==> value ebx at alignment
1936	jz davggo
1937	// fix alignment
1938	// Compute the Raw value for the bytes upto the alignment boundary
1939	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
1940	xor ecx, ecx
1941	davglp1:
1942	xor eax, eax
1943	mov cl, [esi + ebx] // load cl with Prior(x)
1944	mov al, [edx + ebx] // load al with Raw(x-bpp)
1945	add ax, cx
1946	inc ebx
1947	shr ax, 1 // divide by 2
1948	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
1949	cmp ebx, diff // Check if at alignment boundary
1950	mov [edi+ebx-1], al // Write back Raw(x);
1951	// mov does not affect flags; -1 to offset inc ebx
1952	jb davglp1 // Repeat until at alignment boundary
1953	davggo:
1954	mov eax, FullLength
1955	mov ecx, eax
1956	sub eax, ebx // subtract alignment fix
1957	and eax, 0x00000007 // calc bytes over mult of 8
1958	sub ecx, eax // drop over bytes from original length
1959	mov MMXLength, ecx
1960	} // end _asm block
1961	// Now do the math for the rest of the row
1962	switch ( bpp )
1963	{
1964	case 3:
1965	{
1966	ActiveMask.use = 0x0000000000ffffff;
1967	ShiftBpp.use = 24; // == 3 * 8
1968	ShiftRem.use = 40; // == 64 - 24
1969	_asm {
1970	// Re-init address pointers and offset
1971	movq mm7, ActiveMask
1972	mov ebx, diff // ebx ==> x = offset to alignment boundary
1973	movq mm5, LBCarryMask
1974	mov edi, row // edi ==> Avg(x)
1975	movq mm4, HBClearMask
1976	mov esi, prev_row // esi ==> Prior(x)
1977	// PRIME the pump (load the first Raw(x-bpp) data set
1978	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
1979	// (we correct position in loop below)
1980	davg3lp:
1981	movq mm0, [edi + ebx] // Load mm0 with Avg(x)
1982	// Add (Prev_row/2) to Average
1983	movq mm3, mm5
1984	psrlq mm2, ShiftRem // Correct position Raw(x-bpp) data
1985	movq mm1, [esi + ebx] // Load mm1 with Prior(x)
1986	movq mm6, mm7
1987	pand mm3, mm1 // get lsb for each prev_row byte
1988	psrlq mm1, 1 // divide prev_row bytes by 2
1989	pand mm1, mm4 // clear invalid bit 7 of each byte
1990	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
1991	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
1992	movq mm1, mm3 // now use mm1 for getting LBCarrys
1993	pand mm1, mm2 // get LBCarrys for each byte where both
1994	// lsb's were == 1 (Only valid for active group)
1995	psrlq mm2, 1 // divide raw bytes by 2
1996	pand mm2, mm4 // clear invalid bit 7 of each byte
1997	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
1998	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
1999	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2000	// byte
2001	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2002	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 3-5
2003	movq mm2, mm0 // mov updated Raws to mm2
2004	psllq mm2, ShiftBpp // shift data to position correctly
2005	movq mm1, mm3 // now use mm1 for getting LBCarrys
2006	pand mm1, mm2 // get LBCarrys for each byte where both
2007	// lsb's were == 1 (Only valid for active group)
2008	psrlq mm2, 1 // divide raw bytes by 2
2009	pand mm2, mm4 // clear invalid bit 7 of each byte
2010	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2011	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2012	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2013	// byte
2014
2015	// Add 3rd active group (Raw(x-bpp)/2) to Average with LBCarry
2016	psllq mm6, ShiftBpp // shift the mm6 mask to cover the last two
2017	// bytes
2018	movq mm2, mm0 // mov updated Raws to mm2
2019	psllq mm2, ShiftBpp // shift data to position correctly
2020	// Data only needs to be shifted once here to
2021	// get the correct x-bpp offset.
2022	movq mm1, mm3 // now use mm1 for getting LBCarrys
2023	pand mm1, mm2 // get LBCarrys for each byte where both
2024	// lsb's were == 1 (Only valid for active group)
2025	psrlq mm2, 1 // divide raw bytes by 2
2026	pand mm2, mm4 // clear invalid bit 7 of each byte
2027	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2028	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2029	add ebx, 8
2030	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2031	// byte
2032
2033	// Now ready to write back to memory
2034	movq [edi + ebx - 8], mm0
2035	// Move updated Raw(x) to use as Raw(x-bpp) for next loop
2036	cmp ebx, MMXLength
2037	movq mm2, mm0 // mov updated Raw(x) to mm2
2038	jb davg3lp
2039	} // end _asm block
2040	}
2041	break;
2042
2043	case 6:
2044	case 4:
2045	case 7:
2046	case 5:
2047	{
2048	ActiveMask.use = 0xffffffffffffffff; // use shift below to clear
2049	// appropriate inactive bytes
2050	ShiftBpp.use = bpp << 3;
2051	ShiftRem.use = 64 - ShiftBpp.use;
2052	_asm {
2053	movq mm4, HBClearMask
2054	// Re-init address pointers and offset
2055	mov ebx, diff // ebx ==> x = offset to alignment boundary
2056	// Load ActiveMask and clear all bytes except for 1st active group
2057	movq mm7, ActiveMask
2058	mov edi, row // edi ==> Avg(x)
2059	psrlq mm7, ShiftRem
2060	mov esi, prev_row // esi ==> Prior(x)
2061	movq mm6, mm7
2062	movq mm5, LBCarryMask
2063	psllq mm6, ShiftBpp // Create mask for 2nd active group
2064	// PRIME the pump (load the first Raw(x-bpp) data set
2065	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2066	// (we correct position in loop below)
2067	davg4lp:
2068	movq mm0, [edi + ebx]
2069	psrlq mm2, ShiftRem // shift data to position correctly
2070	movq mm1, [esi + ebx]
2071	// Add (Prev_row/2) to Average
2072	movq mm3, mm5
2073	pand mm3, mm1 // get lsb for each prev_row byte
2074	psrlq mm1, 1 // divide prev_row bytes by 2
2075	pand mm1, mm4 // clear invalid bit 7 of each byte
2076	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2077	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
2078	movq mm1, mm3 // now use mm1 for getting LBCarrys
2079	pand mm1, mm2 // get LBCarrys for each byte where both
2080	// lsb's were == 1 (Only valid for active group)
2081	psrlq mm2, 1 // divide raw bytes by 2
2082	pand mm2, mm4 // clear invalid bit 7 of each byte
2083	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2084	pand mm2, mm7 // Leave only Active Group 1 bytes to add to Avg
2085	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2086	// byte
2087	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2088	movq mm2, mm0 // mov updated Raws to mm2
2089	psllq mm2, ShiftBpp // shift data to position correctly
2090	add ebx, 8
2091	movq mm1, mm3 // now use mm1 for getting LBCarrys
2092	pand mm1, mm2 // get LBCarrys for each byte where both
2093	// lsb's were == 1 (Only valid for active group)
2094	psrlq mm2, 1 // divide raw bytes by 2
2095	pand mm2, mm4 // clear invalid bit 7 of each byte
2096	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2097	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2098	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2099	// byte
2100	cmp ebx, MMXLength
2101	// Now ready to write back to memory
2102	movq [edi + ebx - 8], mm0
2103	// Prep Raw(x-bpp) for next loop
2104	movq mm2, mm0 // mov updated Raws to mm2
2105	jb davg4lp
2106	} // end _asm block
2107	}
2108	break;
2109	case 2:
2110	{
2111	ActiveMask.use = 0x000000000000ffff;
2112	ShiftBpp.use = 16; // == 2 * 8 [BUGFIX]
2113	ShiftRem.use = 48; // == 64 - 16 [BUGFIX]
2114	_asm {
2115	// Load ActiveMask
2116	movq mm7, ActiveMask
2117	// Re-init address pointers and offset
2118	mov ebx, diff // ebx ==> x = offset to alignment boundary
2119	movq mm5, LBCarryMask
2120	mov edi, row // edi ==> Avg(x)
2121	movq mm4, HBClearMask
2122	mov esi, prev_row // esi ==> Prior(x)
2123	// PRIME the pump (load the first Raw(x-bpp) data set
2124	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2125	// (we correct position in loop below)
2126	davg2lp:
2127	movq mm0, [edi + ebx]
2128	psrlq mm2, ShiftRem // shift data to position correctly [BUGFIX]
2129	movq mm1, [esi + ebx]
2130	// Add (Prev_row/2) to Average
2131	movq mm3, mm5
2132	pand mm3, mm1 // get lsb for each prev_row byte
2133	psrlq mm1, 1 // divide prev_row bytes by 2
2134	pand mm1, mm4 // clear invalid bit 7 of each byte
2135	movq mm6, mm7
2136	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2137	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
2138	movq mm1, mm3 // now use mm1 for getting LBCarrys
2139	pand mm1, mm2 // get LBCarrys for each byte where both
2140	// lsb's were == 1 (Only valid for active group)
2141	psrlq mm2, 1 // divide raw bytes by 2
2142	pand mm2, mm4 // clear invalid bit 7 of each byte
2143	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2144	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
2145	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2146	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2147	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 2 & 3
2148	movq mm2, mm0 // mov updated Raws to mm2
2149	psllq mm2, ShiftBpp // shift data to position correctly
2150	movq mm1, mm3 // now use mm1 for getting LBCarrys
2151	pand mm1, mm2 // get LBCarrys for each byte where both
2152	// lsb's were == 1 (Only valid for active group)
2153	psrlq mm2, 1 // divide raw bytes by 2
2154	pand mm2, mm4 // clear invalid bit 7 of each byte
2155	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2156	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2157	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2158
2159	// Add rdd active group (Raw(x-bpp)/2) to Average with LBCarry
2160	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 4 & 5
2161	movq mm2, mm0 // mov updated Raws to mm2
2162	psllq mm2, ShiftBpp // shift data to position correctly
2163	// Data only needs to be shifted once here to
2164	// get the correct x-bpp offset.
2165	movq mm1, mm3 // now use mm1 for getting LBCarrys
2166	pand mm1, mm2 // get LBCarrys for each byte where both
2167	// lsb's were == 1 (Only valid for active group)
2168	psrlq mm2, 1 // divide raw bytes by 2
2169	pand mm2, mm4 // clear invalid bit 7 of each byte
2170	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2171	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2172	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2173
2174	// Add 4th active group (Raw(x-bpp)/2) to Average with LBCarry
2175	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 6 & 7
2176	movq mm2, mm0 // mov updated Raws to mm2
2177	psllq mm2, ShiftBpp // shift data to position correctly
2178	// Data only needs to be shifted once here to
2179	// get the correct x-bpp offset.
2180	add ebx, 8
2181	movq mm1, mm3 // now use mm1 for getting LBCarrys
2182	pand mm1, mm2 // get LBCarrys for each byte where both
2183	// lsb's were == 1 (Only valid for active group)
2184	psrlq mm2, 1 // divide raw bytes by 2
2185	pand mm2, mm4 // clear invalid bit 7 of each byte
2186	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2187	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2188	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2189
2190	cmp ebx, MMXLength
2191	// Now ready to write back to memory
2192	movq [edi + ebx - 8], mm0
2193	// Prep Raw(x-bpp) for next loop
2194	movq mm2, mm0 // mov updated Raws to mm2
2195	jb davg2lp
2196	} // end _asm block
2197	}
2198	break;
2199
2200	case 1: // bpp == 1
2201	{
2202	_asm {
2203	// Re-init address pointers and offset
2204	mov ebx, diff // ebx ==> x = offset to alignment boundary
2205	mov edi, row // edi ==> Avg(x)
2206	cmp ebx, FullLength // Test if offset at end of array
2207	jnb davg1end
2208	// Do Paeth decode for remaining bytes
2209	mov esi, prev_row // esi ==> Prior(x)
2210	mov edx, edi
2211	xor ecx, ecx // zero ecx before using cl & cx in loop below
2212	sub edx, bpp // edx ==> Raw(x-bpp)
2213	davg1lp:
2214	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
2215	xor eax, eax
2216	mov cl, [esi + ebx] // load cl with Prior(x)
2217	mov al, [edx + ebx] // load al with Raw(x-bpp)
2218	add ax, cx
2219	inc ebx
2220	shr ax, 1 // divide by 2
2221	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
2222	cmp ebx, FullLength // Check if at end of array
2223	mov [edi+ebx-1], al // Write back Raw(x);
2224	// mov does not affect flags; -1 to offset inc ebx
2225	jb davg1lp
2226	davg1end:
2227	} // end _asm block
2228	}
2229	return;
2230
2231	case 8: // bpp == 8
2232	{
2233	_asm {
2234	// Re-init address pointers and offset
2235	mov ebx, diff // ebx ==> x = offset to alignment boundary
2236	movq mm5, LBCarryMask
2237	mov edi, row // edi ==> Avg(x)
2238	movq mm4, HBClearMask
2239	mov esi, prev_row // esi ==> Prior(x)
2240	// PRIME the pump (load the first Raw(x-bpp) data set
2241	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2242	// (NO NEED to correct position in loop below)
2243	davg8lp:
2244	movq mm0, [edi + ebx]
2245	movq mm3, mm5
2246	movq mm1, [esi + ebx]
2247	add ebx, 8
2248	pand mm3, mm1 // get lsb for each prev_row byte
2249	psrlq mm1, 1 // divide prev_row bytes by 2
2250	pand mm3, mm2 // get LBCarrys for each byte where both
2251	// lsb's were == 1
2252	psrlq mm2, 1 // divide raw bytes by 2
2253	pand mm1, mm4 // clear invalid bit 7 of each byte
2254	paddb mm0, mm3 // add LBCarrys to Avg for each byte
2255	pand mm2, mm4 // clear invalid bit 7 of each byte
2256	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2257	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
2258	cmp ebx, MMXLength
2259	movq [edi + ebx - 8], mm0
2260	movq mm2, mm0 // reuse as Raw(x-bpp)
2261	jb davg8lp
2262	} // end _asm block
2263	}
2264	break;
2265	default: // bpp greater than 8
2266	{
2267	_asm {
2268	movq mm5, LBCarryMask
2269	// Re-init address pointers and offset
2270	mov ebx, diff // ebx ==> x = offset to alignment boundary
2271	mov edi, row // edi ==> Avg(x)
2272	movq mm4, HBClearMask
2273	mov edx, edi
2274	mov esi, prev_row // esi ==> Prior(x)
2275	sub edx, bpp // edx ==> Raw(x-bpp)
2276	davgAlp:
2277	movq mm0, [edi + ebx]
2278	movq mm3, mm5
2279	movq mm1, [esi + ebx]
2280	pand mm3, mm1 // get lsb for each prev_row byte
2281	movq mm2, [edx + ebx]
2282	psrlq mm1, 1 // divide prev_row bytes by 2
2283	pand mm3, mm2 // get LBCarrys for each byte where both
2284	// lsb's were == 1
2285	psrlq mm2, 1 // divide raw bytes by 2
2286	pand mm1, mm4 // clear invalid bit 7 of each byte
2287	paddb mm0, mm3 // add LBCarrys to Avg for each byte
2288	pand mm2, mm4 // clear invalid bit 7 of each byte
2289	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2290	add ebx, 8
2291	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
2292	cmp ebx, MMXLength
2293	movq [edi + ebx - 8], mm0
2294	jb davgAlp
2295	} // end _asm block
2296	}
2297	break;
2298	} // end switch ( bpp )
2299
2300	_asm {
2301	// MMX acceleration complete now do clean-up
2302	// Check if any remaining bytes left to decode
2303	mov ebx, MMXLength // ebx ==> x = offset bytes remaining after MMX
2304	mov edi, row // edi ==> Avg(x)
2305	cmp ebx, FullLength // Test if offset at end of array
2306	jnb davgend
2307	// Do Paeth decode for remaining bytes
2308	mov esi, prev_row // esi ==> Prior(x)
2309	mov edx, edi
2310	xor ecx, ecx // zero ecx before using cl & cx in loop below
2311	sub edx, bpp // edx ==> Raw(x-bpp)
2312	davglp2:
2313	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
2314	xor eax, eax
2315	mov cl, [esi + ebx] // load cl with Prior(x)
2316	mov al, [edx + ebx] // load al with Raw(x-bpp)
2317	add ax, cx
2318	inc ebx
2319	shr ax, 1 // divide by 2
2320	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
2321	cmp ebx, FullLength // Check if at end of array
2322	mov [edi+ebx-1], al // Write back Raw(x);
2323	// mov does not affect flags; -1 to offset inc ebx
2324	jb davglp2
2325	davgend:
2326	emms // End MMX instructions; prep for possible FP instrs.
2327	} // end _asm block
2328	}
2329
2330	// Optimized code for PNG Paeth filter decoder
2331	void /* PRIVATE */
2332	png_read_filter_row_mmx_paeth(png_row_infop row_info, png_bytep row,
2333	png_bytep prev_row)
2334	{
2335	png_uint_32 FullLength;
2336	png_uint_32 MMXLength;
2337	//png_uint_32 len;
2338	int bpp;
2339	int diff;
2340	//int ptemp;
2341	int patemp, pbtemp, pctemp;
2342
2343	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
2344	FullLength = row_info->rowbytes; // # of bytes to filter
2345	_asm
2346	{
2347	xor ebx, ebx // ebx ==> x offset
2348	mov edi, row
2349	xor edx, edx // edx ==> x-bpp offset
2350	mov esi, prev_row
2351	xor eax, eax
2352
2353	// Compute the Raw value for the first bpp bytes
2354	// Note: the formula works out to be always
2355	// Paeth(x) = Raw(x) + Prior(x) where x < bpp
2356	dpthrlp:
2357	mov al, [edi + ebx]
2358	add al, [esi + ebx]
2359	inc ebx
2360	cmp ebx, bpp
2361	mov [edi + ebx - 1], al
2362	jb dpthrlp
2363	// get # of bytes to alignment
2364	mov diff, edi // take start of row
2365	add diff, ebx // add bpp
2366	xor ecx, ecx
2367	add diff, 0xf // add 7 + 8 to incr past alignment boundary
2368	and diff, 0xfffffff8 // mask to alignment boundary
2369	sub diff, edi // subtract from start ==> value ebx at alignment
2370	jz dpthgo
2371	// fix alignment
2372	dpthlp1:
2373	xor eax, eax
2374	// pav = p - a = (a + b - c) - a = b - c
2375	mov al, [esi + ebx] // load Prior(x) into al
2376	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2377	sub eax, ecx // subtract Prior(x-bpp)
2378	mov patemp, eax // Save pav for later use
2379	xor eax, eax
2380	// pbv = p - b = (a + b - c) - b = a - c
2381	mov al, [edi + edx] // load Raw(x-bpp) into al
2382	sub eax, ecx // subtract Prior(x-bpp)
2383	mov ecx, eax
2384	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2385	add eax, patemp // pcv = pav + pbv
2386	// pc = abs(pcv)
2387	test eax, 0x80000000
2388	jz dpthpca
2389	neg eax // reverse sign of neg values
2390	dpthpca:
2391	mov pctemp, eax // save pc for later use
2392	// pb = abs(pbv)
2393	test ecx, 0x80000000
2394	jz dpthpba
2395	neg ecx // reverse sign of neg values
2396	dpthpba:
2397	mov pbtemp, ecx // save pb for later use
2398	// pa = abs(pav)
2399	mov eax, patemp
2400	test eax, 0x80000000
2401	jz dpthpaa
2402	neg eax // reverse sign of neg values
2403	dpthpaa:
2404	mov patemp, eax // save pa for later use
2405	// test if pa <= pb
2406	cmp eax, ecx
2407	jna dpthabb
2408	// pa > pb; now test if pb <= pc
2409	cmp ecx, pctemp
2410	jna dpthbbc
2411	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
2412	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2413	jmp dpthpaeth
2414	dpthbbc:
2415	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
2416	mov cl, [esi + ebx] // load Prior(x) into cl
2417	jmp dpthpaeth
2418	dpthabb:
2419	// pa <= pb; now test if pa <= pc
2420	cmp eax, pctemp
2421	jna dpthabc
2422	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
2423	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2424	jmp dpthpaeth
2425	dpthabc:
2426	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
2427	mov cl, [edi + edx] // load Raw(x-bpp) into cl
2428	dpthpaeth:
2429	inc ebx
2430	inc edx
2431	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
2432	add [edi + ebx - 1], cl
2433	cmp ebx, diff
2434	jb dpthlp1
2435	dpthgo:
2436	mov ecx, FullLength
2437	mov eax, ecx
2438	sub eax, ebx // subtract alignment fix
2439	and eax, 0x00000007 // calc bytes over mult of 8
2440	sub ecx, eax // drop over bytes from original length
2441	mov MMXLength, ecx
2442	} // end _asm block
2443	// Now do the math for the rest of the row
2444	switch ( bpp )
2445	{
2446	case 3:
2447	{
2448	ActiveMask.use = 0x0000000000ffffff;
2449	ActiveMaskEnd.use = 0xffff000000000000;
2450	ShiftBpp.use = 24; // == bpp(3) * 8
2451	ShiftRem.use = 40; // == 64 - 24
2452	_asm
2453	{
2454	mov ebx, diff
2455	mov edi, row
2456	mov esi, prev_row
2457	pxor mm0, mm0
2458	// PRIME the pump (load the first Raw(x-bpp) data set
2459	movq mm1, [edi+ebx-8]
2460	dpth3lp:
2461	psrlq mm1, ShiftRem // shift last 3 bytes to 1st 3 bytes
2462	movq mm2, [esi + ebx] // load b=Prior(x)
2463	punpcklbw mm1, mm0 // Unpack High bytes of a
2464	movq mm3, [esi+ebx-8] // Prep c=Prior(x-bpp) bytes
2465	punpcklbw mm2, mm0 // Unpack High bytes of b
2466	psrlq mm3, ShiftRem // shift last 3 bytes to 1st 3 bytes
2467	// pav = p - a = (a + b - c) - a = b - c
2468	movq mm4, mm2
2469	punpcklbw mm3, mm0 // Unpack High bytes of c
2470	// pbv = p - b = (a + b - c) - b = a - c
2471	movq mm5, mm1
2472	psubw mm4, mm3
2473	pxor mm7, mm7
2474	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2475	movq mm6, mm4
2476	psubw mm5, mm3
2477
2478	// pa = abs(p-a) = abs(pav)
2479	// pb = abs(p-b) = abs(pbv)
2480	// pc = abs(p-c) = abs(pcv)
2481	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2482	paddw mm6, mm5
2483	pand mm0, mm4 // Only pav bytes < 0 in mm7
2484	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2485	psubw mm4, mm0
2486	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2487	psubw mm4, mm0
2488	psubw mm5, mm7
2489	pxor mm0, mm0
2490	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2491	pand mm0, mm6 // Only pav bytes < 0 in mm7
2492	psubw mm5, mm7
2493	psubw mm6, mm0
2494	// test pa <= pb
2495	movq mm7, mm4
2496	psubw mm6, mm0
2497	pcmpgtw mm7, mm5 // pa > pb?
2498	movq mm0, mm7
2499	// use mm7 mask to merge pa & pb
2500	pand mm5, mm7
2501	// use mm0 mask copy to merge a & b
2502	pand mm2, mm0
2503	pandn mm7, mm4
2504	pandn mm0, mm1
2505	paddw mm7, mm5
2506	paddw mm0, mm2
2507	// test ((pa <= pb)? pa:pb) <= pc
2508	pcmpgtw mm7, mm6 // pab > pc?
2509	pxor mm1, mm1
2510	pand mm3, mm7
2511	pandn mm7, mm0
2512	paddw mm7, mm3
2513	pxor mm0, mm0
2514	packuswb mm7, mm1
2515	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
2516	pand mm7, ActiveMask
2517	movq mm2, mm3 // load b=Prior(x) step 1
2518	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2519	punpcklbw mm3, mm0 // Unpack High bytes of c
2520	movq [edi + ebx], mm7 // write back updated value
2521	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
2522	// Now do Paeth for 2nd set of bytes (3-5)
2523	psrlq mm2, ShiftBpp // load b=Prior(x) step 2
2524	punpcklbw mm1, mm0 // Unpack High bytes of a
2525	pxor mm7, mm7
2526	punpcklbw mm2, mm0 // Unpack High bytes of b
2527	// pbv = p - b = (a + b - c) - b = a - c
2528	movq mm5, mm1
2529	// pav = p - a = (a + b - c) - a = b - c
2530	movq mm4, mm2
2531	psubw mm5, mm3
2532	psubw mm4, mm3
2533	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) =
2534	// pav + pbv = pbv + pav
2535	movq mm6, mm5
2536	paddw mm6, mm4
2537
2538	// pa = abs(p-a) = abs(pav)
2539	// pb = abs(p-b) = abs(pbv)
2540	// pc = abs(p-c) = abs(pcv)
2541	pcmpgtw mm0, mm5 // Create mask pbv bytes < 0
2542	pcmpgtw mm7, mm4 // Create mask pav bytes < 0
2543	pand mm0, mm5 // Only pbv bytes < 0 in mm0
2544	pand mm7, mm4 // Only pav bytes < 0 in mm7
2545	psubw mm5, mm0
2546	psubw mm4, mm7
2547	psubw mm5, mm0
2548	psubw mm4, mm7
2549	pxor mm0, mm0
2550	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2551	pand mm0, mm6 // Only pav bytes < 0 in mm7
2552	psubw mm6, mm0
2553	// test pa <= pb
2554	movq mm7, mm4
2555	psubw mm6, mm0
2556	pcmpgtw mm7, mm5 // pa > pb?
2557	movq mm0, mm7
2558	// use mm7 mask to merge pa & pb
2559	pand mm5, mm7
2560	// use mm0 mask copy to merge a & b
2561	pand mm2, mm0
2562	pandn mm7, mm4
2563	pandn mm0, mm1
2564	paddw mm7, mm5
2565	paddw mm0, mm2
2566	// test ((pa <= pb)? pa:pb) <= pc
2567	pcmpgtw mm7, mm6 // pab > pc?
2568	movq mm2, [esi + ebx] // load b=Prior(x)
2569	pand mm3, mm7
2570	pandn mm7, mm0
2571	pxor mm1, mm1
2572	paddw mm7, mm3
2573	pxor mm0, mm0
2574	packuswb mm7, mm1
2575	movq mm3, mm2 // load c=Prior(x-bpp) step 1
2576	pand mm7, ActiveMask
2577	punpckhbw mm2, mm0 // Unpack High bytes of b
2578	psllq mm7, ShiftBpp // Shift bytes to 2nd group of 3 bytes
2579	// pav = p - a = (a + b - c) - a = b - c
2580	movq mm4, mm2
2581	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2582	psllq mm3, ShiftBpp // load c=Prior(x-bpp) step 2
2583	movq [edi + ebx], mm7 // write back updated value
2584	movq mm1, mm7
2585	punpckhbw mm3, mm0 // Unpack High bytes of c
2586	psllq mm1, ShiftBpp // Shift bytes
2587	// Now mm1 will be used as Raw(x-bpp)
2588	// Now do Paeth for 3rd, and final, set of bytes (6-7)
2589	pxor mm7, mm7
2590	punpckhbw mm1, mm0 // Unpack High bytes of a
2591	psubw mm4, mm3
2592	// pbv = p - b = (a + b - c) - b = a - c
2593	movq mm5, mm1
2594	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2595	movq mm6, mm4
2596	psubw mm5, mm3
2597	pxor mm0, mm0
2598	paddw mm6, mm5
2599
2600	// pa = abs(p-a) = abs(pav)
2601	// pb = abs(p-b) = abs(pbv)
2602	// pc = abs(p-c) = abs(pcv)
2603	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2604	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2605	pand mm0, mm4 // Only pav bytes < 0 in mm7
2606	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2607	psubw mm4, mm0
2608	psubw mm5, mm7
2609	psubw mm4, mm0
2610	psubw mm5, mm7
2611	pxor mm0, mm0
2612	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2613	pand mm0, mm6 // Only pav bytes < 0 in mm7
2614	psubw mm6, mm0
2615	// test pa <= pb
2616	movq mm7, mm4
2617	psubw mm6, mm0
2618	pcmpgtw mm7, mm5 // pa > pb?
2619	movq mm0, mm7
2620	// use mm0 mask copy to merge a & b
2621	pand mm2, mm0
2622	// use mm7 mask to merge pa & pb
2623	pand mm5, mm7
2624	pandn mm0, mm1
2625	pandn mm7, mm4
2626	paddw mm0, mm2
2627	paddw mm7, mm5
2628	// test ((pa <= pb)? pa:pb) <= pc
2629	pcmpgtw mm7, mm6 // pab > pc?
2630	pand mm3, mm7
2631	pandn mm7, mm0
2632	paddw mm7, mm3
2633	pxor mm1, mm1
2634	packuswb mm1, mm7
2635	// Step ebx to next set of 8 bytes and repeat loop til done
2636	add ebx, 8
2637	pand mm1, ActiveMaskEnd
2638	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2639
2640	cmp ebx, MMXLength
2641	pxor mm0, mm0 // pxor does not affect flags
2642	movq [edi + ebx - 8], mm1 // write back updated value
2643	// mm1 will be used as Raw(x-bpp) next loop
2644	// mm3 ready to be used as Prior(x-bpp) next loop
2645	jb dpth3lp
2646	} // end _asm block
2647	}
2648	break;
2649
2650	case 6:
2651	case 7:
2652	case 5:
2653	{
2654	ActiveMask.use = 0x00000000ffffffff;
2655	ActiveMask2.use = 0xffffffff00000000;
2656	ShiftBpp.use = bpp << 3; // == bpp * 8
2657	ShiftRem.use = 64 - ShiftBpp.use;
2658	_asm
2659	{
2660	mov ebx, diff
2661	mov edi, row
2662	mov esi, prev_row
2663	// PRIME the pump (load the first Raw(x-bpp) data set
2664	movq mm1, [edi+ebx-8]
2665	pxor mm0, mm0
2666	dpth6lp:
2667	// Must shift to position Raw(x-bpp) data
2668	psrlq mm1, ShiftRem
2669	// Do first set of 4 bytes
2670	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2671	punpcklbw mm1, mm0 // Unpack Low bytes of a
2672	movq mm2, [esi + ebx] // load b=Prior(x)
2673	punpcklbw mm2, mm0 // Unpack Low bytes of b
2674	// Must shift to position Prior(x-bpp) data
2675	psrlq mm3, ShiftRem
2676	// pav = p - a = (a + b - c) - a = b - c
2677	movq mm4, mm2
2678	punpcklbw mm3, mm0 // Unpack Low bytes of c
2679	// pbv = p - b = (a + b - c) - b = a - c
2680	movq mm5, mm1
2681	psubw mm4, mm3
2682	pxor mm7, mm7
2683	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2684	movq mm6, mm4
2685	psubw mm5, mm3
2686	// pa = abs(p-a) = abs(pav)
2687	// pb = abs(p-b) = abs(pbv)
2688	// pc = abs(p-c) = abs(pcv)
2689	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2690	paddw mm6, mm5
2691	pand mm0, mm4 // Only pav bytes < 0 in mm7
2692	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2693	psubw mm4, mm0
2694	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2695	psubw mm4, mm0
2696	psubw mm5, mm7
2697	pxor mm0, mm0
2698	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2699	pand mm0, mm6 // Only pav bytes < 0 in mm7
2700	psubw mm5, mm7
2701	psubw mm6, mm0
2702	// test pa <= pb
2703	movq mm7, mm4
2704	psubw mm6, mm0
2705	pcmpgtw mm7, mm5 // pa > pb?
2706	movq mm0, mm7
2707	// use mm7 mask to merge pa & pb
2708	pand mm5, mm7
2709	// use mm0 mask copy to merge a & b
2710	pand mm2, mm0
2711	pandn mm7, mm4
2712	pandn mm0, mm1
2713	paddw mm7, mm5
2714	paddw mm0, mm2
2715	// test ((pa <= pb)? pa:pb) <= pc
2716	pcmpgtw mm7, mm6 // pab > pc?
2717	pxor mm1, mm1
2718	pand mm3, mm7
2719	pandn mm7, mm0
2720	paddw mm7, mm3
2721	pxor mm0, mm0
2722	packuswb mm7, mm1
2723	movq mm3, [esi + ebx - 8] // load c=Prior(x-bpp)
2724	pand mm7, ActiveMask
2725	psrlq mm3, ShiftRem
2726	movq mm2, [esi + ebx] // load b=Prior(x) step 1
2727	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2728	movq mm6, mm2
2729	movq [edi + ebx], mm7 // write back updated value
2730	movq mm1, [edi+ebx-8]
2731	psllq mm6, ShiftBpp
2732	movq mm5, mm7
2733	psrlq mm1, ShiftRem
2734	por mm3, mm6
2735	psllq mm5, ShiftBpp
2736	punpckhbw mm3, mm0 // Unpack High bytes of c
2737	por mm1, mm5
2738	// Do second set of 4 bytes
2739	punpckhbw mm2, mm0 // Unpack High bytes of b
2740	punpckhbw mm1, mm0 // Unpack High bytes of a
2741	// pav = p - a = (a + b - c) - a = b - c
2742	movq mm4, mm2
2743	// pbv = p - b = (a + b - c) - b = a - c
2744	movq mm5, mm1
2745	psubw mm4, mm3
2746	pxor mm7, mm7
2747	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2748	movq mm6, mm4
2749	psubw mm5, mm3
2750	// pa = abs(p-a) = abs(pav)
2751	// pb = abs(p-b) = abs(pbv)
2752	// pc = abs(p-c) = abs(pcv)
2753	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2754	paddw mm6, mm5
2755	pand mm0, mm4 // Only pav bytes < 0 in mm7
2756	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2757	psubw mm4, mm0
2758	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2759	psubw mm4, mm0
2760	psubw mm5, mm7
2761	pxor mm0, mm0
2762	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2763	pand mm0, mm6 // Only pav bytes < 0 in mm7
2764	psubw mm5, mm7
2765	psubw mm6, mm0
2766	// test pa <= pb
2767	movq mm7, mm4
2768	psubw mm6, mm0
2769	pcmpgtw mm7, mm5 // pa > pb?
2770	movq mm0, mm7
2771	// use mm7 mask to merge pa & pb
2772	pand mm5, mm7
2773	// use mm0 mask copy to merge a & b
2774	pand mm2, mm0
2775	pandn mm7, mm4
2776	pandn mm0, mm1
2777	paddw mm7, mm5
2778	paddw mm0, mm2
2779	// test ((pa <= pb)? pa:pb) <= pc
2780	pcmpgtw mm7, mm6 // pab > pc?
2781	pxor mm1, mm1
2782	pand mm3, mm7
2783	pandn mm7, mm0
2784	pxor mm1, mm1
2785	paddw mm7, mm3
2786	pxor mm0, mm0
2787	// Step ex to next set of 8 bytes and repeat loop til done
2788	add ebx, 8
2789	packuswb mm1, mm7
2790	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2791	cmp ebx, MMXLength
2792	movq [edi + ebx - 8], mm1 // write back updated value
2793	// mm1 will be used as Raw(x-bpp) next loop
2794	jb dpth6lp
2795	} // end _asm block
2796	}
2797	break;
2798
2799	case 4:
2800	{
2801	ActiveMask.use = 0x00000000ffffffff;
2802	_asm {
2803	mov ebx, diff
2804	mov edi, row
2805	mov esi, prev_row
2806	pxor mm0, mm0
2807	// PRIME the pump (load the first Raw(x-bpp) data set
2808	movq mm1, [edi+ebx-8] // Only time should need to read
2809	// a=Raw(x-bpp) bytes
2810	dpth4lp:
2811	// Do first set of 4 bytes
2812	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2813	punpckhbw mm1, mm0 // Unpack Low bytes of a
2814	movq mm2, [esi + ebx] // load b=Prior(x)
2815	punpcklbw mm2, mm0 // Unpack High bytes of b
2816	// pav = p - a = (a + b - c) - a = b - c
2817	movq mm4, mm2
2818	punpckhbw mm3, mm0 // Unpack High bytes of c
2819	// pbv = p - b = (a + b - c) - b = a - c
2820	movq mm5, mm1
2821	psubw mm4, mm3
2822	pxor mm7, mm7
2823	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2824	movq mm6, mm4
2825	psubw mm5, mm3
2826	// pa = abs(p-a) = abs(pav)
2827	// pb = abs(p-b) = abs(pbv)
2828	// pc = abs(p-c) = abs(pcv)
2829	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2830	paddw mm6, mm5
2831	pand mm0, mm4 // Only pav bytes < 0 in mm7
2832	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2833	psubw mm4, mm0
2834	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2835	psubw mm4, mm0
2836	psubw mm5, mm7
2837	pxor mm0, mm0
2838	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2839	pand mm0, mm6 // Only pav bytes < 0 in mm7
2840	psubw mm5, mm7
2841	psubw mm6, mm0
2842	// test pa <= pb
2843	movq mm7, mm4
2844	psubw mm6, mm0
2845	pcmpgtw mm7, mm5 // pa > pb?
2846	movq mm0, mm7
2847	// use mm7 mask to merge pa & pb
2848	pand mm5, mm7
2849	// use mm0 mask copy to merge a & b
2850	pand mm2, mm0
2851	pandn mm7, mm4
2852	pandn mm0, mm1
2853	paddw mm7, mm5
2854	paddw mm0, mm2
2855	// test ((pa <= pb)? pa:pb) <= pc
2856	pcmpgtw mm7, mm6 // pab > pc?
2857	pxor mm1, mm1
2858	pand mm3, mm7
2859	pandn mm7, mm0
2860	paddw mm7, mm3
2861	pxor mm0, mm0
2862	packuswb mm7, mm1
2863	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
2864	pand mm7, ActiveMask
2865	movq mm2, mm3 // load b=Prior(x) step 1
2866	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2867	punpcklbw mm3, mm0 // Unpack High bytes of c
2868	movq [edi + ebx], mm7 // write back updated value
2869	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
2870	// Do second set of 4 bytes
2871	punpckhbw mm2, mm0 // Unpack Low bytes of b
2872	punpcklbw mm1, mm0 // Unpack Low bytes of a
2873	// pav = p - a = (a + b - c) - a = b - c
2874	movq mm4, mm2
2875	// pbv = p - b = (a + b - c) - b = a - c
2876	movq mm5, mm1
2877	psubw mm4, mm3
2878	pxor mm7, mm7
2879	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2880	movq mm6, mm4
2881	psubw mm5, mm3
2882	// pa = abs(p-a) = abs(pav)
2883	// pb = abs(p-b) = abs(pbv)
2884	// pc = abs(p-c) = abs(pcv)
2885	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2886	paddw mm6, mm5
2887	pand mm0, mm4 // Only pav bytes < 0 in mm7
2888	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2889	psubw mm4, mm0
2890	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2891	psubw mm4, mm0
2892	psubw mm5, mm7
2893	pxor mm0, mm0
2894	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2895	pand mm0, mm6 // Only pav bytes < 0 in mm7
2896	psubw mm5, mm7
2897	psubw mm6, mm0
2898	// test pa <= pb
2899	movq mm7, mm4
2900	psubw mm6, mm0
2901	pcmpgtw mm7, mm5 // pa > pb?
2902	movq mm0, mm7
2903	// use mm7 mask to merge pa & pb
2904	pand mm5, mm7
2905	// use mm0 mask copy to merge a & b
2906	pand mm2, mm0
2907	pandn mm7, mm4
2908	pandn mm0, mm1
2909	paddw mm7, mm5
2910	paddw mm0, mm2
2911	// test ((pa <= pb)? pa:pb) <= pc
2912	pcmpgtw mm7, mm6 // pab > pc?
2913	pxor mm1, mm1
2914	pand mm3, mm7
2915	pandn mm7, mm0
2916	pxor mm1, mm1
2917	paddw mm7, mm3
2918	pxor mm0, mm0
2919	// Step ex to next set of 8 bytes and repeat loop til done
2920	add ebx, 8
2921	packuswb mm1, mm7
2922	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2923	cmp ebx, MMXLength
2924	movq [edi + ebx - 8], mm1 // write back updated value
2925	// mm1 will be used as Raw(x-bpp) next loop
2926	jb dpth4lp
2927	} // end _asm block
2928	}
2929	break;
2930	case 8: // bpp == 8
2931	{
2932	ActiveMask.use = 0x00000000ffffffff;
2933	_asm {
2934	mov ebx, diff
2935	mov edi, row
2936	mov esi, prev_row
2937	pxor mm0, mm0
2938	// PRIME the pump (load the first Raw(x-bpp) data set
2939	movq mm1, [edi+ebx-8] // Only time should need to read
2940	// a=Raw(x-bpp) bytes
2941	dpth8lp:
2942	// Do first set of 4 bytes
2943	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2944	punpcklbw mm1, mm0 // Unpack Low bytes of a
2945	movq mm2, [esi + ebx] // load b=Prior(x)
2946	punpcklbw mm2, mm0 // Unpack Low bytes of b
2947	// pav = p - a = (a + b - c) - a = b - c
2948	movq mm4, mm2
2949	punpcklbw mm3, mm0 // Unpack Low bytes of c
2950	// pbv = p - b = (a + b - c) - b = a - c
2951	movq mm5, mm1
2952	psubw mm4, mm3
2953	pxor mm7, mm7
2954	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2955	movq mm6, mm4
2956	psubw mm5, mm3
2957	// pa = abs(p-a) = abs(pav)
2958	// pb = abs(p-b) = abs(pbv)
2959	// pc = abs(p-c) = abs(pcv)
2960	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2961	paddw mm6, mm5
2962	pand mm0, mm4 // Only pav bytes < 0 in mm7
2963	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2964	psubw mm4, mm0
2965	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2966	psubw mm4, mm0
2967	psubw mm5, mm7
2968	pxor mm0, mm0
2969	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2970	pand mm0, mm6 // Only pav bytes < 0 in mm7
2971	psubw mm5, mm7
2972	psubw mm6, mm0
2973	// test pa <= pb
2974	movq mm7, mm4
2975	psubw mm6, mm0
2976	pcmpgtw mm7, mm5 // pa > pb?
2977	movq mm0, mm7
2978	// use mm7 mask to merge pa & pb
2979	pand mm5, mm7
2980	// use mm0 mask copy to merge a & b
2981	pand mm2, mm0
2982	pandn mm7, mm4
2983	pandn mm0, mm1
2984	paddw mm7, mm5
2985	paddw mm0, mm2
2986	// test ((pa <= pb)? pa:pb) <= pc
2987	pcmpgtw mm7, mm6 // pab > pc?
2988	pxor mm1, mm1
2989	pand mm3, mm7
2990	pandn mm7, mm0
2991	paddw mm7, mm3
2992	pxor mm0, mm0
2993	packuswb mm7, mm1
2994	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2995	pand mm7, ActiveMask
2996	movq mm2, [esi + ebx] // load b=Prior(x)
2997	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2998	punpckhbw mm3, mm0 // Unpack High bytes of c
2999	movq [edi + ebx], mm7 // write back updated value
3000	movq mm1, [edi+ebx-8] // read a=Raw(x-bpp) bytes
3001
3002	// Do second set of 4 bytes
3003	punpckhbw mm2, mm0 // Unpack High bytes of b
3004	punpckhbw mm1, mm0 // Unpack High bytes of a
3005	// pav = p - a = (a + b - c) - a = b - c
3006	movq mm4, mm2
3007	// pbv = p - b = (a + b - c) - b = a - c
3008	movq mm5, mm1
3009	psubw mm4, mm3
3010	pxor mm7, mm7
3011	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3012	movq mm6, mm4
3013	psubw mm5, mm3
3014	// pa = abs(p-a) = abs(pav)
3015	// pb = abs(p-b) = abs(pbv)
3016	// pc = abs(p-c) = abs(pcv)
3017	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
3018	paddw mm6, mm5
3019	pand mm0, mm4 // Only pav bytes < 0 in mm7
3020	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
3021	psubw mm4, mm0
3022	pand mm7, mm5 // Only pbv bytes < 0 in mm0
3023	psubw mm4, mm0
3024	psubw mm5, mm7
3025	pxor mm0, mm0
3026	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
3027	pand mm0, mm6 // Only pav bytes < 0 in mm7
3028	psubw mm5, mm7
3029	psubw mm6, mm0
3030	// test pa <= pb
3031	movq mm7, mm4
3032	psubw mm6, mm0
3033	pcmpgtw mm7, mm5 // pa > pb?
3034	movq mm0, mm7
3035	// use mm7 mask to merge pa & pb
3036	pand mm5, mm7
3037	// use mm0 mask copy to merge a & b
3038	pand mm2, mm0
3039	pandn mm7, mm4
3040	pandn mm0, mm1
3041	paddw mm7, mm5
3042	paddw mm0, mm2
3043	// test ((pa <= pb)? pa:pb) <= pc
3044	pcmpgtw mm7, mm6 // pab > pc?
3045	pxor mm1, mm1
3046	pand mm3, mm7
3047	pandn mm7, mm0
3048	pxor mm1, mm1
3049	paddw mm7, mm3
3050	pxor mm0, mm0
3051	// Step ex to next set of 8 bytes and repeat loop til done
3052	add ebx, 8
3053	packuswb mm1, mm7
3054	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
3055	cmp ebx, MMXLength
3056	movq [edi + ebx - 8], mm1 // write back updated value
3057	// mm1 will be used as Raw(x-bpp) next loop
3058	jb dpth8lp
3059	} // end _asm block
3060	}
3061	break;
3062
3063	case 1: // bpp = 1
3064	case 2: // bpp = 2
3065	default: // bpp > 8
3066	{
3067	_asm {
3068	mov ebx, diff
3069	cmp ebx, FullLength
3070	jnb dpthdend
3071	mov edi, row
3072	mov esi, prev_row
3073	// Do Paeth decode for remaining bytes
3074	mov edx, ebx
3075	xor ecx, ecx // zero ecx before using cl & cx in loop below
3076	sub edx, bpp // Set edx = ebx - bpp
3077	dpthdlp:
3078	xor eax, eax
3079	// pav = p - a = (a + b - c) - a = b - c
3080	mov al, [esi + ebx] // load Prior(x) into al
3081	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3082	sub eax, ecx // subtract Prior(x-bpp)
3083	mov patemp, eax // Save pav for later use
3084	xor eax, eax
3085	// pbv = p - b = (a + b - c) - b = a - c
3086	mov al, [edi + edx] // load Raw(x-bpp) into al
3087	sub eax, ecx // subtract Prior(x-bpp)
3088	mov ecx, eax
3089	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3090	add eax, patemp // pcv = pav + pbv
3091	// pc = abs(pcv)
3092	test eax, 0x80000000
3093	jz dpthdpca
3094	neg eax // reverse sign of neg values
3095	dpthdpca:
3096	mov pctemp, eax // save pc for later use
3097	// pb = abs(pbv)
3098	test ecx, 0x80000000
3099	jz dpthdpba
3100	neg ecx // reverse sign of neg values
3101	dpthdpba:
3102	mov pbtemp, ecx // save pb for later use
3103	// pa = abs(pav)
3104	mov eax, patemp
3105	test eax, 0x80000000
3106	jz dpthdpaa
3107	neg eax // reverse sign of neg values
3108	dpthdpaa:
3109	mov patemp, eax // save pa for later use
3110	// test if pa <= pb
3111	cmp eax, ecx
3112	jna dpthdabb
3113	// pa > pb; now test if pb <= pc
3114	cmp ecx, pctemp
3115	jna dpthdbbc
3116	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3117	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3118	jmp dpthdpaeth
3119	dpthdbbc:
3120	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
3121	mov cl, [esi + ebx] // load Prior(x) into cl
3122	jmp dpthdpaeth
3123	dpthdabb:
3124	// pa <= pb; now test if pa <= pc
3125	cmp eax, pctemp
3126	jna dpthdabc
3127	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3128	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3129	jmp dpthdpaeth
3130	dpthdabc:
3131	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
3132	mov cl, [edi + edx] // load Raw(x-bpp) into cl
3133	dpthdpaeth:
3134	inc ebx
3135	inc edx
3136	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
3137	add [edi + ebx - 1], cl
3138	cmp ebx, FullLength
3139	jb dpthdlp
3140	dpthdend:
3141	} // end _asm block
3142	}
3143	return; // No need to go further with this one
3144	} // end switch ( bpp )
3145	_asm
3146	{
3147	// MMX acceleration complete now do clean-up
3148	// Check if any remaining bytes left to decode
3149	mov ebx, MMXLength
3150	cmp ebx, FullLength
3151	jnb dpthend
3152	mov edi, row
3153	mov esi, prev_row
3154	// Do Paeth decode for remaining bytes
3155	mov edx, ebx
3156	xor ecx, ecx // zero ecx before using cl & cx in loop below
3157	sub edx, bpp // Set edx = ebx - bpp
3158	dpthlp2:
3159	xor eax, eax
3160	// pav = p - a = (a + b - c) - a = b - c
3161	mov al, [esi + ebx] // load Prior(x) into al
3162	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3163	sub eax, ecx // subtract Prior(x-bpp)
3164	mov patemp, eax // Save pav for later use
3165	xor eax, eax
3166	// pbv = p - b = (a + b - c) - b = a - c
3167	mov al, [edi + edx] // load Raw(x-bpp) into al
3168	sub eax, ecx // subtract Prior(x-bpp)
3169	mov ecx, eax
3170	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3171	add eax, patemp // pcv = pav + pbv
3172	// pc = abs(pcv)
3173	test eax, 0x80000000
3174	jz dpthpca2
3175	neg eax // reverse sign of neg values
3176	dpthpca2:
3177	mov pctemp, eax // save pc for later use
3178	// pb = abs(pbv)
3179	test ecx, 0x80000000
3180	jz dpthpba2
3181	neg ecx // reverse sign of neg values
3182	dpthpba2:
3183	mov pbtemp, ecx // save pb for later use
3184	// pa = abs(pav)
3185	mov eax, patemp
3186	test eax, 0x80000000
3187	jz dpthpaa2
3188	neg eax // reverse sign of neg values
3189	dpthpaa2:
3190	mov patemp, eax // save pa for later use
3191	// test if pa <= pb
3192	cmp eax, ecx
3193	jna dpthabb2
3194	// pa > pb; now test if pb <= pc
3195	cmp ecx, pctemp
3196	jna dpthbbc2
3197	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3198	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3199	jmp dpthpaeth2
3200	dpthbbc2:
3201	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
3202	mov cl, [esi + ebx] // load Prior(x) into cl
3203	jmp dpthpaeth2
3204	dpthabb2:
3205	// pa <= pb; now test if pa <= pc
3206	cmp eax, pctemp
3207	jna dpthabc2
3208	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3209	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3210	jmp dpthpaeth2
3211	dpthabc2:
3212	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
3213	mov cl, [edi + edx] // load Raw(x-bpp) into cl
3214	dpthpaeth2:
3215	inc ebx
3216	inc edx
3217	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
3218	add [edi + ebx - 1], cl
3219	cmp ebx, FullLength
3220	jb dpthlp2
3221	dpthend:
3222	emms // End MMX instructions; prep for possible FP instrs.
3223	} // end _asm block
3224	}
3225
3226	// Optimized code for PNG Sub filter decoder
3227	void /* PRIVATE */
3228	png_read_filter_row_mmx_sub(png_row_infop row_info, png_bytep row)
3229	{
3230	//int test;
3231	int bpp;
3232	png_uint_32 FullLength;
3233	png_uint_32 MMXLength;
3234	int diff;
3235
3236	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
3237	FullLength = row_info->rowbytes - bpp; // # of bytes to filter
3238	_asm {
3239	mov edi, row
3240	mov esi, edi // lp = row
3241	add edi, bpp // rp = row + bpp
3242	xor eax, eax
3243	// get # of bytes to alignment
3244	mov diff, edi // take start of row
3245	add diff, 0xf // add 7 + 8 to incr past
3246	// alignment boundary
3247	xor ebx, ebx
3248	and diff, 0xfffffff8 // mask to alignment boundary
3249	sub diff, edi // subtract from start ==> value
3250	// ebx at alignment
3251	jz dsubgo
3252	// fix alignment
3253	dsublp1:
3254	mov al, [esi+ebx]
3255	add [edi+ebx], al
3256	inc ebx
3257	cmp ebx, diff
3258	jb dsublp1
3259	dsubgo:
3260	mov ecx, FullLength
3261	mov edx, ecx
3262	sub edx, ebx // subtract alignment fix
3263	and edx, 0x00000007 // calc bytes over mult of 8
3264	sub ecx, edx // drop over bytes from length
3265	mov MMXLength, ecx
3266	} // end _asm block
3267
3268	// Now do the math for the rest of the row
3269	switch ( bpp )
3270	{
3271	case 3:
3272	{
3273	ActiveMask.use = 0x0000ffffff000000;
3274	ShiftBpp.use = 24; // == 3 * 8
3275	ShiftRem.use = 40; // == 64 - 24
3276	_asm {
3277	mov edi, row
3278	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
3279	mov esi, edi // lp = row
3280	add edi, bpp // rp = row + bpp
3281	movq mm6, mm7
3282	mov ebx, diff
3283	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
3284	// byte group
3285	// PRIME the pump (load the first Raw(x-bpp) data set
3286	movq mm1, [edi+ebx-8]
3287	dsub3lp:
3288	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3289	// no need for mask; shift clears inactive bytes
3290	// Add 1st active group
3291	movq mm0, [edi+ebx]
3292	paddb mm0, mm1
3293	// Add 2nd active group
3294	movq mm1, mm0 // mov updated Raws to mm1
3295	psllq mm1, ShiftBpp // shift data to position correctly
3296	pand mm1, mm7 // mask to use only 2nd active group
3297	paddb mm0, mm1
3298	// Add 3rd active group
3299	movq mm1, mm0 // mov updated Raws to mm1
3300	psllq mm1, ShiftBpp // shift data to position correctly
3301	pand mm1, mm6 // mask to use only 3rd active group
3302	add ebx, 8
3303	paddb mm0, mm1
3304	cmp ebx, MMXLength
3305	movq [edi+ebx-8], mm0 // Write updated Raws back to array
3306	// Prep for doing 1st add at top of loop
3307	movq mm1, mm0
3308	jb dsub3lp
3309	} // end _asm block
3310	}
3311	break;
3312
3313	case 1:
3314	{
3315	// Placed here just in case this is a duplicate of the
3316	// non-MMX code for the SUB filter in png_read_filter_row below
3317	//
3318	// png_bytep rp;
3319	// png_bytep lp;
3320	// png_uint_32 i;
3321	// bpp = (row_info->pixel_depth + 7) >> 3;
3322	// for (i = (png_uint_32)bpp, rp = row + bpp, lp = row;
3323	// i < row_info->rowbytes; i++, rp++, lp++)
3324	// {
3325	// rp = (png_byte)(((int)(rp) + (int)(*lp)) & 0xff);
3326	// }
3327	_asm {
3328	mov ebx, diff
3329	mov edi, row
3330	cmp ebx, FullLength
3331	jnb dsub1end
3332	mov esi, edi // lp = row
3333	xor eax, eax
3334	add edi, bpp // rp = row + bpp
3335	dsub1lp:
3336	mov al, [esi+ebx]
3337	add [edi+ebx], al
3338	inc ebx
3339	cmp ebx, FullLength
3340	jb dsub1lp
3341	dsub1end:
3342	} // end _asm block
3343	}
3344	return;
3345
3346	case 6:
3347	case 7:
3348	case 4:
3349	case 5:
3350	{
3351	ShiftBpp.use = bpp << 3;
3352	ShiftRem.use = 64 - ShiftBpp.use;
3353	_asm {
3354	mov edi, row
3355	mov ebx, diff
3356	mov esi, edi // lp = row
3357	add edi, bpp // rp = row + bpp
3358	// PRIME the pump (load the first Raw(x-bpp) data set
3359	movq mm1, [edi+ebx-8]
3360	dsub4lp:
3361	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3362	// no need for mask; shift clears inactive bytes
3363	movq mm0, [edi+ebx]
3364	paddb mm0, mm1
3365	// Add 2nd active group
3366	movq mm1, mm0 // mov updated Raws to mm1
3367	psllq mm1, ShiftBpp // shift data to position correctly
3368	// there is no need for any mask
3369	// since shift clears inactive bits/bytes
3370	add ebx, 8
3371	paddb mm0, mm1
3372	cmp ebx, MMXLength
3373	movq [edi+ebx-8], mm0
3374	movq mm1, mm0 // Prep for doing 1st add at top of loop
3375	jb dsub4lp
3376	} // end _asm block
3377	}
3378	break;
3379
3380	case 2:
3381	{
3382	ActiveMask.use = 0x00000000ffff0000;
3383	ShiftBpp.use = 16; // == 2 * 8
3384	ShiftRem.use = 48; // == 64 - 16
3385	_asm {
3386	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
3387	mov ebx, diff
3388	movq mm6, mm7
3389	mov edi, row
3390	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
3391	// byte group
3392	mov esi, edi // lp = row
3393	movq mm5, mm6
3394	add edi, bpp // rp = row + bpp
3395	psllq mm5, ShiftBpp // Move mask in mm5 to cover 4th active
3396	// byte group
3397	// PRIME the pump (load the first Raw(x-bpp) data set
3398	movq mm1, [edi+ebx-8]
3399	dsub2lp:
3400	// Add 1st active group
3401	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3402	// no need for mask; shift clears inactive
3403	// bytes
3404	movq mm0, [edi+ebx]
3405	paddb mm0, mm1
3406	// Add 2nd active group
3407	movq mm1, mm0 // mov updated Raws to mm1
3408	psllq mm1, ShiftBpp // shift data to position correctly
3409	pand mm1, mm7 // mask to use only 2nd active group
3410	paddb mm0, mm1
3411	// Add 3rd active group
3412	movq mm1, mm0 // mov updated Raws to mm1
3413	psllq mm1, ShiftBpp // shift data to position correctly
3414	pand mm1, mm6 // mask to use only 3rd active group
3415	paddb mm0, mm1
3416	// Add 4th active group
3417	movq mm1, mm0 // mov updated Raws to mm1
3418	psllq mm1, ShiftBpp // shift data to position correctly
3419	pand mm1, mm5 // mask to use only 4th active group
3420	add ebx, 8
3421	paddb mm0, mm1
3422	cmp ebx, MMXLength
3423	movq [edi+ebx-8], mm0 // Write updated Raws back to array
3424	movq mm1, mm0 // Prep for doing 1st add at top of loop
3425	jb dsub2lp
3426	} // end _asm block
3427	}
3428	break;
3429	case 8:
3430	{
3431	_asm {
3432	mov edi, row
3433	mov ebx, diff
3434	mov esi, edi // lp = row
3435	add edi, bpp // rp = row + bpp
3436	mov ecx, MMXLength
3437	movq mm7, [edi+ebx-8] // PRIME the pump (load the first
3438	// Raw(x-bpp) data set
3439	and ecx, 0x0000003f // calc bytes over mult of 64
3440	dsub8lp:
3441	movq mm0, [edi+ebx] // Load Sub(x) for 1st 8 bytes
3442	paddb mm0, mm7
3443	movq mm1, [edi+ebx+8] // Load Sub(x) for 2nd 8 bytes
3444	movq [edi+ebx], mm0 // Write Raw(x) for 1st 8 bytes
3445	// Now mm0 will be used as Raw(x-bpp) for
3446	// the 2nd group of 8 bytes. This will be
3447	// repeated for each group of 8 bytes with
3448	// the 8th group being used as the Raw(x-bpp)
3449	// for the 1st group of the next loop.
3450	paddb mm1, mm0
3451	movq mm2, [edi+ebx+16] // Load Sub(x) for 3rd 8 bytes
3452	movq [edi+ebx+8], mm1 // Write Raw(x) for 2nd 8 bytes
3453	paddb mm2, mm1
3454	movq mm3, [edi+ebx+24] // Load Sub(x) for 4th 8 bytes
3455	movq [edi+ebx+16], mm2 // Write Raw(x) for 3rd 8 bytes
3456	paddb mm3, mm2
3457	movq mm4, [edi+ebx+32] // Load Sub(x) for 5th 8 bytes
3458	movq [edi+ebx+24], mm3 // Write Raw(x) for 4th 8 bytes
3459	paddb mm4, mm3
3460	movq mm5, [edi+ebx+40] // Load Sub(x) for 6th 8 bytes
3461	movq [edi+ebx+32], mm4 // Write Raw(x) for 5th 8 bytes
3462	paddb mm5, mm4
3463	movq mm6, [edi+ebx+48] // Load Sub(x) for 7th 8 bytes
3464	movq [edi+ebx+40], mm5 // Write Raw(x) for 6th 8 bytes
3465	paddb mm6, mm5
3466	movq mm7, [edi+ebx+56] // Load Sub(x) for 8th 8 bytes
3467	movq [edi+ebx+48], mm6 // Write Raw(x) for 7th 8 bytes
3468	add ebx, 64
3469	paddb mm7, mm6
3470	cmp ebx, ecx
3471	movq [edi+ebx-8], mm7 // Write Raw(x) for 8th 8 bytes
3472	jb dsub8lp
3473	cmp ebx, MMXLength
3474	jnb dsub8lt8
3475	dsub8lpA:
3476	movq mm0, [edi+ebx]
3477	add ebx, 8
3478	paddb mm0, mm7
3479	cmp ebx, MMXLength
3480	movq [edi+ebx-8], mm0 // use -8 to offset early add to ebx
3481	movq mm7, mm0 // Move calculated Raw(x) data to mm1 to
3482	// be the new Raw(x-bpp) for the next loop
3483	jb dsub8lpA
3484	dsub8lt8:
3485	} // end _asm block
3486	}
3487	break;
3488
3489	default: // bpp greater than 8 bytes
3490	{
3491	_asm {
3492	mov ebx, diff
3493	mov edi, row
3494	mov esi, edi // lp = row
3495	add edi, bpp // rp = row + bpp
3496	dsubAlp:
3497	movq mm0, [edi+ebx]
3498	movq mm1, [esi+ebx]
3499	add ebx, 8
3500	paddb mm0, mm1
3501	cmp ebx, MMXLength
3502	movq [edi+ebx-8], mm0 // mov does not affect flags; -8 to offset
3503	// add ebx
3504	jb dsubAlp
3505	} // end _asm block
3506	}
3507	break;
3508
3509	} // end switch ( bpp )
3510
3511	_asm {
3512	mov ebx, MMXLength
3513	mov edi, row
3514	cmp ebx, FullLength
3515	jnb dsubend
3516	mov esi, edi // lp = row
3517	xor eax, eax
3518	add edi, bpp // rp = row + bpp
3519	dsublp2:
3520	mov al, [esi+ebx]
3521	add [edi+ebx], al
3522	inc ebx
3523	cmp ebx, FullLength
3524	jb dsublp2
3525	dsubend:
3526	emms // End MMX instructions; prep for possible FP instrs.
3527	} // end _asm block
3528	}
3529
3530	// Optimized code for PNG Up filter decoder
3531	void /* PRIVATE */
3532	png_read_filter_row_mmx_up(png_row_infop row_info, png_bytep row,
3533	png_bytep prev_row)
3534	{
3535	png_uint_32 len;
3536	len = row_info->rowbytes; // # of bytes to filter
3537	_asm {
3538	mov edi, row
3539	// get # of bytes to alignment
3540	mov ecx, edi
3541	xor ebx, ebx
3542	add ecx, 0x7
3543	xor eax, eax
3544	and ecx, 0xfffffff8
3545	mov esi, prev_row
3546	sub ecx, edi
3547	jz dupgo
3548	// fix alignment
3549	duplp1:
3550	mov al, [edi+ebx]
3551	add al, [esi+ebx]
3552	inc ebx
3553	cmp ebx, ecx
3554	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
3555	jb duplp1
3556	dupgo:
3557	mov ecx, len
3558	mov edx, ecx
3559	sub edx, ebx // subtract alignment fix
3560	and edx, 0x0000003f // calc bytes over mult of 64
3561	sub ecx, edx // drop over bytes from length
3562	// Unrolled loop - use all MMX registers and interleave to reduce
3563	// number of branch instructions (loops) and reduce partial stalls
3564	duploop:
3565	movq mm1, [esi+ebx]
3566	movq mm0, [edi+ebx]
3567	movq mm3, [esi+ebx+8]
3568	paddb mm0, mm1
3569	movq mm2, [edi+ebx+8]
3570	movq [edi+ebx], mm0
3571	paddb mm2, mm3
3572	movq mm5, [esi+ebx+16]
3573	movq [edi+ebx+8], mm2
3574	movq mm4, [edi+ebx+16]
3575	movq mm7, [esi+ebx+24]
3576	paddb mm4, mm5
3577	movq mm6, [edi+ebx+24]
3578	movq [edi+ebx+16], mm4
3579	paddb mm6, mm7
3580	movq mm1, [esi+ebx+32]
3581	movq [edi+ebx+24], mm6
3582	movq mm0, [edi+ebx+32]
3583	movq mm3, [esi+ebx+40]
3584	paddb mm0, mm1
3585	movq mm2, [edi+ebx+40]
3586	movq [edi+ebx+32], mm0
3587	paddb mm2, mm3
3588	movq mm5, [esi+ebx+48]
3589	movq [edi+ebx+40], mm2
3590	movq mm4, [edi+ebx+48]
3591	movq mm7, [esi+ebx+56]
3592	paddb mm4, mm5
3593	movq mm6, [edi+ebx+56]
3594	movq [edi+ebx+48], mm4
3595	add ebx, 64
3596	paddb mm6, mm7
3597	cmp ebx, ecx
3598	movq [edi+ebx-8], mm6 // (+56)movq does not affect flags;
3599	// -8 to offset add ebx
3600	jb duploop
3601
3602	cmp edx, 0 // Test for bytes over mult of 64
3603	jz dupend
3604
3605
3606	// 2 lines added by lcreeve@netins.net
3607	// (mail 11 Jul 98 in png-implement list)
3608	cmp edx, 8 //test for less than 8 bytes
3609	jb duplt8
3610
3611
3612	add ecx, edx
3613	and edx, 0x00000007 // calc bytes over mult of 8
3614	sub ecx, edx // drop over bytes from length
3615	jz duplt8
3616	// Loop using MMX registers mm0 & mm1 to update 8 bytes simultaneously
3617	duplpA:
3618	movq mm1, [esi+ebx]
3619	movq mm0, [edi+ebx]
3620	add ebx, 8
3621	paddb mm0, mm1
3622	cmp ebx, ecx
3623	movq [edi+ebx-8], mm0 // movq does not affect flags; -8 to offset add ebx
3624	jb duplpA
3625	cmp edx, 0 // Test for bytes over mult of 8
3626	jz dupend
3627	duplt8:
3628	xor eax, eax
3629	add ecx, edx // move over byte count into counter
3630	// Loop using x86 registers to update remaining bytes
3631	duplp2:
3632	mov al, [edi + ebx]
3633	add al, [esi + ebx]
3634	inc ebx
3635	cmp ebx, ecx
3636	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
3637	jb duplp2
3638	dupend:
3639	// Conversion of filtered row completed
3640	emms // End MMX instructions; prep for possible FP instrs.
3641	} // end _asm block
3642	}
3643
3644
3645	// Optimized png_read_filter_row routines
3646	void /* PRIVATE */
3647	png_read_filter_row(png_structp png_ptr, png_row_infop row_info, png_bytep
3648	row, png_bytep prev_row, int filter)
3649	{
3650	#ifdef PNG_DEBUG
3651	char filnm[10];
3652	#endif
3653
3654	if (mmx_supported == 2) {
3655	/* this should have happened in png_init_mmx_flags() already */
3656	png_warning(png_ptr, "asm_flags may not have been initialized");
3657	png_mmx_support();
3658	}
3659
3660	#ifdef PNG_DEBUG
3661	png_debug(1, "in png_read_filter_row\n");
3662	switch (filter)
3663	{
3664	case 0: sprintf(filnm, "none");
3665	break;
3666	case 1: sprintf(filnm, "sub-%s",
3667	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB)? "MMX" : "x86");
3668	break;
3669	case 2: sprintf(filnm, "up-%s",
3670	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP)? "MMX" : "x86");
3671	break;
3672	case 3: sprintf(filnm, "avg-%s",
3673	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG)? "MMX" : "x86");
3674	break;
3675	case 4: sprintf(filnm, "Paeth-%s",
3676	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH)? "MMX":"x86");
3677	break;
3678	default: sprintf(filnm, "unknw");
3679	break;
3680	}
3681	png_debug2(0,"row=%5d, %s, ", png_ptr->row_number, filnm);
3682	png_debug2(0, "pd=%2d, b=%d, ", (int)row_info->pixel_depth,
3683	(int)((row_info->pixel_depth + 7) >> 3));
3684	png_debug1(0,"len=%8d, ", row_info->rowbytes);
3685	#endif /* PNG_DEBUG */
3686
3687	switch (filter)
3688	{
3689	case PNG_FILTER_VALUE_NONE:
3690	break;
3691
3692	case PNG_FILTER_VALUE_SUB:
3693	{
3694	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB) &&
3695	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3696	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3697	{
3698	png_read_filter_row_mmx_sub(row_info, row);
3699	}
3700	else
3701	{
3702	png_uint_32 i;
3703	png_uint_32 istop = row_info->rowbytes;
3704	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3705	png_bytep rp = row + bpp;
3706	png_bytep lp = row;
3707
3708	for (i = bpp; i < istop; i++)
3709	{
3710	rp = (png_byte)(((int)(rp) + (int)(*lp++)) & 0xff);
3711	rp++;
3712	}
3713	}
3714	break;
3715	}
3716
3717	case PNG_FILTER_VALUE_UP:
3718	{
3719	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP) &&
3720	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3721	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3722	{
3723	png_read_filter_row_mmx_up(row_info, row, prev_row);
3724	}
3725	else
3726	{
3727	png_uint_32 i;
3728	png_uint_32 istop = row_info->rowbytes;
3729	png_bytep rp = row;
3730	png_bytep pp = prev_row;
3731
3732	for (i = 0; i < istop; ++i)
3733	{
3734	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
3735	rp++;
3736	}
3737	}
3738	break;
3739	}
3740
3741	case PNG_FILTER_VALUE_AVG:
3742	{
3743	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG) &&
3744	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3745	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3746	{
3747	png_read_filter_row_mmx_avg(row_info, row, prev_row);
3748	}
3749	else
3750	{
3751	png_uint_32 i;
3752	png_bytep rp = row;
3753	png_bytep pp = prev_row;
3754	png_bytep lp = row;
3755	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3756	png_uint_32 istop = row_info->rowbytes - bpp;
3757
3758	for (i = 0; i < bpp; i++)
3759	{
3760	rp = (png_byte)(((int)(rp) +
3761	((int)(*pp++) >> 1)) & 0xff);
3762	rp++;
3763	}
3764
3765	for (i = 0; i < istop; i++)
3766	{
3767	rp = (png_byte)(((int)(rp) +
3768	((int)(pp++ + lp++) >> 1)) & 0xff);
3769	rp++;
3770	}
3771	}
3772	break;
3773	}
3774
3775	case PNG_FILTER_VALUE_PAETH:
3776	{
3777	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH) &&
3778	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3779	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3780	{
3781	png_read_filter_row_mmx_paeth(row_info, row, prev_row);
3782	}
3783	else
3784	{
3785	png_uint_32 i;
3786	png_bytep rp = row;
3787	png_bytep pp = prev_row;
3788	png_bytep lp = row;
3789	png_bytep cp = prev_row;
3790	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3791	png_uint_32 istop=row_info->rowbytes - bpp;
3792
3793	for (i = 0; i < bpp; i++)
3794	{
3795	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
3796	rp++;
3797	}
3798
3799	for (i = 0; i < istop; i++) // use leftover rp,pp
3800	{
3801	int a, b, c, pa, pb, pc, p;
3802
3803	a = *lp++;
3804	b = *pp++;
3805	c = *cp++;
3806
3807	p = b - c;
3808	pc = a - c;
3809
3810	#ifdef PNG_USE_ABS
3811	pa = abs(p);
3812	pb = abs(pc);
3813	pc = abs(p + pc);
3814	#else
3815	pa = p < 0 ? -p : p;
3816	pb = pc < 0 ? -pc : pc;
3817	pc = (p + pc) < 0 ? -(p + pc) : p + pc;
3818	#endif
3819
3820	/*
3821	if (pa <= pb && pa <= pc)
3822	p = a;
3823	else if (pb <= pc)
3824	p = b;
3825	else
3826	p = c;
3827	*/
3828
3829	p = (pa <= pb && pa <=pc) ? a : (pb <= pc) ? b : c;
3830
3831	rp = (png_byte)(((int)(rp) + p) & 0xff);
3832	rp++;
3833	}
3834	}
3835	break;
3836	}
3837
3838	default:
3839	png_warning(png_ptr, "Ignoring bad row filter type");
3840	*row=0;
3841	break;
3842	}
3843	}
3844
3845	#endif /* PNG_ASSEMBLER_CODE_SUPPORTED && PNG_USE_PNGVCRD */

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: trunk/src/3rdparty/libpng/pngvcrd.c@ 130

Download in other formats: