
Ich habe den folgenden Code:

procedure TCellBlock.GeneratePtoQ;
  x,y: integer;
  i: integer;
  Change: cardinal;
  i:= 0;
  //Walk the grid of changed (alive) cells 
  for x:= GridMaxX downto 1 do begin
    for y:= GridMaxY downto 1 do begin
      if Active[cIndexP][x, y] then begin
        Active[cIndexP][x,y]:= false;

        //Put active items on the stack.
        ToDo[i]:= x shl 16 or y;
      end; {if}
    end; {for y}
  end; {for x}
  while i > 0 do begin
    y:= ToDo[i] and $FFFF;
    x:= ToDo[i] shr 16;

    //Calculate the cell, Change = (oldval XOR newval)
    Change:= Grid[x,y].GeneratePtoQ;

    //Mark the cells in the grid that need to be recalculated next generation.
    Active[cIndexQ][x,y]:= Active[cIndexQ][x,y] or (Change <> 0);
    Active[cIndexQ][x+1,y+1]:= Active[cIndexQ][x+1,y+1] or ((Change and $cc000000) <> 0);
    Active[cIndexQ][x+1,y]:= Active[cIndexQ][x+1,y] or ((Change and $ff000000) <> 0);
    Active[cIndexQ][x,y+1]:= Active[cIndexQ][x,y+1] or ((Change and $cccccccc) <> 0);
  end; {while}

Das obige ist ein Codeausschnitt eines Testprogramms, das Conways berechnet Spiel des Lebens.
Der Code muss so schnell wie möglich sein. Und zu diesem Zweck versuche ich verschiedene Ansätze.

Es geht durch ein Gitter von aktiven Zellen, sieht zu, welche Zellen aktiv sind, und legt diejenigen auf einen Stapel.
Als nächstes verarbeitet es die Elemente auf dem Stapel und sieht, welche Zellen sich geändert haben.
Wenn eine Zelle geändert hat, aktualisiert sie die Änderungen in das Netz für die nächste Generation.

Ich speichere Zellen in 32 -Bit -Kardinälen (4 Bits y, 8 Bit x) und die P (sogar) Generationen sind im Vergleich zu den Q (Odd) -Gen (ungerade) Generationen 1,1 Pixel aus. 8.

Ich möchte das Netz loswerden, ich möchte nur mit dem Stapel umgehen.
Wie implementiere ich einen Stack, der Duplikate beseitigt?

Beachten Sie, dass es sein muss so schnell wie möglich Und ich bin nicht oben mit schmutzigen Tricks, um das zu bekommen.

Lösung 4

Ich habe darüber nachgedacht und ich denke, ich habe eine Lösung.

Ein Hintergrund

So sind die Daten im Speicher angelegt

00 A  08  B  10   18     The bits of Individual int32's are layout like this:
01 |  09  |  11   19     00 04 08 0C 10 14 18 1C    // N-Mask: $33333333
02 |  0A  |  12   1A     01 05 09 0D 11 15 19 1D    // S-Mask: $cccccccc
03 |  0B  |  13   1B     02 06 0A 0E 12 16 1A 1E    // W-Mask: $000000ff
04 |  0C  |  14   1C     03 07 0B 0F 13 17 1B 1F    // E-Mask: $ff000000
05 |  0D  |  15   1D                                //SE-Mask: $cc000000
06 |  0E  |  16   1E                                //NW-Mask: $00000033
07 V  0F  V  17   1F     I can mask of different portions if need be.

-- Figure A: Grid --     -- Figure B: cell --       -- Table C: masks --

Ich habe mich nicht für die Größe des Bausteins entschieden, aber das ist die allgemeine Idee.

Sogar Generationen werden genannt P, ungerade Generationen werden genannt Q.

Sie sind so gestaffelt

 +----------------+<<<<<<<< P         00 04  08  0C  //I use a 64K lookup
 |+---------------|+                  01 05* 09* 0D  //table to lookup
 ||               ||                  02 06* 0A* 0E  //the inner* 2x2 bits from
 ||               ||                  03 07  0B  0F  //a 4x4 grid.
 +----------------+|                  //I need to do 8 lookups for a 32 bit cell
  +----------------+<<<<<<<< Q

 - Figure D: Cells are staggered -   -- Figure E: lookup --

Auf diese Weise beim Erzeugen P -> Q, Ich muss mir nur P selbst und seine S, SE, E -Nachbarn anstelle aller 8 Nachbarn, dito für q -> P. Ich muss nur Q selbst und seine N-, NW- und W -Nachbarn betrachten.
Beachten Sie auch, dass die erstaunliche Zeit mir Zeit spart, um das Ergebnis der Suche zu übersetzen, da ich weniger Bit verschieben muss, um die Ergebnisse zu erreichen.

Wenn ich durch ein Raster schaue (Abbildung a) Ich gehe durch die Zellen (Abbildung b) in der in Abbildung A gezeigten Reihenfolge A immer in streng zunehmender Reihenfolge in einem P-Zyklus und immer in abnehmender Reihenfolge in einem Q-Zyklus.
Tatsächlich funktioniert der Q-Zyklus genau in der entgegengesetzten Reihenfolge aus dem P-Zyklus. Dies beschleunigt die Dinge, indem der Cache so weit wie möglich wiederverwendet.

Ich möchte so weit wie möglich mit Zeigern minimieren, da Zeiger nicht vorhergesagt werden können und nicht nacheinander zugegriffen werden (Sie springen überall) Ich möchte also Arrays, Stapel und Warteschlangen so weit wie möglich verwenden.

Welche Daten müssen tun, um den Überblick zu behalten
Ich muss nur die Zellen im Auge behalten, die sich ändern. Wenn sich eine Zelle (das ist ein INT32) ändert sich nicht von einer Generation zur nächsten von einer Generation, ich entferte sie von der Berücksichtigung.
Dies ist, was der Code in der Frage tut. Es verwendet ein Netz, um die Änderungen im Auge zu behalten, aber ich möchte a verwenden Stapel, kein Netz; und ich nur Ich möchte mit aktiven Zellen umgehen. Ich möchte nicht über stabile oder tote Zellen wissen.

Einige Hintergrundinformationen zu den Daten
Beachten Sie, wie die Zelle selbst immer monoton nimmt. Wie es sein S-Neighbor sowie die E- und Se-Neighbor. Ich kann diese Informationen verwenden, um zu betrügen.

Die Lösung
Ich benutze einen Stapel, um die Zelle selbst und ihren Nachbarn und eine Warteschlange im Auge zu behalten, um den Nachbarn E- und SE im Auge zu behalten, und wenn ich fertig bin, fusioniere ich die beiden.

Nehmen wir im Gitter an, die folgenden Zellen sind als aktiv herausgestellt, nachdem ich sie berechnet habe:

00, 01, 08 and 15
I make the following two stacks:

stack A    stack B
00         08      a)  -A: Cell 00 itself in stack A and its E-neighbor in B
01         09      a)      Cell 00's S neighbor in stack A and its SE-n'bor in B
02         0A      b)  -B: Cell 01 is already in the stack, we only add S/SE
08         10      c)  -C: Cell 08 goes into the stack as normal
09         11      c)      We'll sort out the merge later.
15         1D      d)  -D: Cell 15 and neighbors go on as usual.
16         1E      d)

Now I push members from stack A and B onto a new stack C so that stack C has
no duplicates and it strictly increasing:

Here's the pseudo code to process the two queues:  

a:= 0; b:= 0; c:=0;
while not done do begin
  if stack[a] <= stack[b] then begin
    stack[c]:= stack[a]; inc(a); inc(c);
    if stack[a] = stack[b] then inc(b);
  else begin
    stack[c]:= stack[b]; inc(b); inc(c);
end; {while}

Und noch besser
Ich muss nicht die beiden Stapel und die Verschmelzung als zwei getrennte Schritte machen, wenn ich mache A ein Stapel und B Als Warteschlange kann ich den zweiten Schritt ausführen, der im Pseudo -Code und im Gebäude der beiden Stapel in einem Pass beschrieben wird.

Wenn eine Zelle ändert, muss sich der R- oder SE -Rand nicht ändern, aber ich kann dies unter Verwendung der Masken in Tabelle C testen und nur die Zellen hinzufügen, die in der nächsten Generation die Liste wirklich überprüfen müssen.


  1. Mit diesem Schema muss ich immer nur durchgehen eines Stapeln Sie mit aktiven Zellen bei der Berechnung von Zellen, so dass ich keine Zeit damit verschwende, tote oder inaktive Zellen zu betrachten.
  2. Ich mache nur sequenzielle Speicherzugriffe und maximiere die Cache -Verwendung.
  3. Das Erstellen des Stacks mit neuen Änderungen für die nächsten Generationen erfordert nur eine zusätzliche temporäre Warteschlange, die ich in streng sequentieller Reihenfolge verarbeite.
  4. Ich sortiere und das Minimum an Vergleiche.
  5. Ich muss die Nachbarn jeder einzelnen Zellen (INT32) nicht im Auge behalten, ich muss nur die Nachbarn im Auge behalten (S, E, SE, N, W, NW) von den Gittern hält dies den Speicher über Kopf auf ein Minimum.
  6. Ich muss keinen Zellstatus im Auge behalten, ich muss nur tote Zellen zählen (eine Zelle ist entweder tot, weil sie vorher tot war oder weil sie geändert in tot. Alle aktiven Zellen befinden sich in meinem Todo -Stapel. Dies spart die Buchhaltungszeit und den Speicherraum.
  7. Der Algorithmus läuft in o (n) Zeit, in der (n) die Anzahl von ist aktiv Zellen, es schließt tote Zellen, stabile Zellen und Zellen aus, die mit Periode 2 schwingen.
  8. Ich beschäftige mich immer nur mit 32 Bit Cardinals, was viel schneller ist als die Verwendung von INT16.

Andere Tipps

Wenn ich verstanden habe, was Sie gebeten haben, möchten der Stapel keine Duplizierungswerte haben. Ich bin keine Delphi -Person, aber wenn es Java wäre, hätte ich einen HashMap/ Map -Baum erstellt und jeden Wert zur Karte hinzufügen und es dem Stapel hinzufügen, ob er sich bereits im Hash befindet. Sie können auch alle Werte des Hashs hinzufügen, aber Sie werden die Reihenfolge des Hashs verlieren.

Persönlich würde ich einen ganz anderen Ansatz verfolgen. Zuerst sehe ich nicht, wie Sie nicht alle Nachbarn berücksichtigen müssen, nur weil ein 1,1 -Offset verwendet wird, und dann bezweifle ich, dass Bitschalttricks den Algorithmus viel schneller machen (oft genug ist es das Gegenteil, aber dann könnte er Seien Sie die MEM -Bandbreite eingeschränkt. In diesem Fall würden wir ein bisschen gewinnen)

Also würde ich einfach die einzige Sache entscheiden, die mit Abstand den größten Leistungsgewinn bringen sollte: den Algorithmus multitHeades zu machen. In unserer Welt von Quad/Hex/Octacores, die sich um ein paar prozentuale Leistungserhöhungen sorgen und 300% oder mehr verschwenden, scheint es albern zu sein. Wenn wir also die aktiven Netze ignorieren und alle Felder überprüfen würden, wäre der Algorithmus mit einer großartigen Skalierung trivial, zumal man den Algorithmus leicht vectorisieren könnte, aber das ist nicht besonders effizient, sodass ich einige andere Ansätze zum Multithreading -Ein Algorithmus, der nur die aktiven Zellen in Rechnung stellt.

Zuerst würde ich es verdoppeln, anstatt das Netz loszuwerden: ein SRC und ein Zielenraster -, die jede Runde ausgetauscht werden. Keine Sperrung, um auf das notwendige Netz zuzugreifen, müssen Sie sich keine Sorgen machen, wenn Sie die Felder aktualisieren, und keine abgestandenen Einträge (wichtig für Multithreading, die wir den Cache doch verwenden möchten).

Die einfachste Lösung wäre nun, eine Art von gleichzeitiger Listenstruktur (keine Ahnung von Delphi -Bibliotheken) für die aktiven Zellen zu verwenden und jeden Thread von ihm zu stehlen und zu einem anderen neue aktive Zellen hinzuzufügen. Mit einer guten lock-freien Implementierung einer gleichzeitigen Warteschlange (im Grunde genommen der Ersatz von Dies ist in Delphi) oder ähnliches könnte ganz schön und einfach sein. Für eine bessere Leistung, anstatt einzelne Knoten zur Liste hinzuzufügen, würde ich darüber nachdenken, die Liste in der Liste hinzuzufügen, beispielsweise in Größen von ungefähr 10 oder so - mehr Arbeit mit weniger Overhead, aber wenn wir die Stücke zu groß machen, verlieren wir Parallelität.

Ich kann mir andere Lösungen vorstellen, wie beispielsweise jedem Thread eine Liste aktiver Zellen zu geben (oder mehr genau eine Liste für alle und verschiedene Offsets), aber dann müssen wir zwischen jedem Lauf alle neuen Einträge sammeln (nicht viel Synchronisierungsaufwand, aber einige kopieren ) in eine Liste - einen Versuch wert, nehme ich an.

Wenn Ihr Ziel Geschwindigkeit ist (und nur Geschwindigkeit). Es gibt ein paar Tricks, die die Dinge sehr beschleunigen können. Meine eigene Implementierung des Lebens des Conway nutzt diese Tricks, um es schneller zu machen. Beachten Sie, dass es im Speicher sehr teuer ist.

  1. Jeder Zellen ist ein Objekt
  2. Jedes Zellobjekt enthält seine X/Y -Koordinaten
  3. Jedes Zellobjekt enthält eine "lebende" Zähler der Anzahl der lebendigen Nachbarn. (Wenn eine Zelle ein- und ausschaltet, benachrichtigt sie, dass sie Nachbar ist, damit sie ihre Zähler aktualisieren.
  4. Um #3 zu machen, werden die Zellen bei der Berechnung der nächsten Generation nicht sofort ein-/ausgeschaltet. Sie werden stattdessen in eine Liste gestapelt, bis alle Zellen berechnet werden.
  5. Jede Zelle hat einen Zähler, der darauf hinweist, welches die letzte Generation ist, auf die sie sich geändert hat. Die vermeiden, die gleiche Zelle zweimal zu berechnen. (Meine Alternative zum Stapel, der Duplikate beseitigt)
  6. Die Liste von Nr. 5 wird in der nächsten Generation wiederverwendet, da sich nur die Nachbarn einer Zelle, die sich in der vorherigen Generation verändert hat, auf der aktuellen Änderung ändern können.

Es gibt einige der Tricks, die ich benutze, um die Generation zu beschleunigen. Einige der hier aufgeführten Tricks erhalten Sie viel mehr als Multithreading Ihre Implementierung. Die Verwendung von diesen und Multithread wird jedoch die bestmögliche Leistung erhalten.

Lesen Sie Voos Eintrag.

Meistens @ken, der komplette Sourcecode für das Testprogramm:

Beachten Sie, dass 99,9% der Zeit für die Anzeige ausgeben, da ich nichts getan habe, um dies zu optimieren.

Ich habe eine neue SDI-Main-App erstellt und den Code darin gepostet, und weil ich faul bin, habe ich mich nicht darum gekümmert, Kontrollpersonen umzubenennen oder neu zu streichen.

Projektdatei: SDIApp.dpr

program Sdiapp;

  SDIMAIN in 'SDIMAIN.pas'; {Form1}

{$R *.RES}

  Application.CreateForm(TForm1, Form1);

Hauptform: sdimain.pas



uses Windows, Classes, Graphics, Forms, Controls, Menus,
  Dialogs, StdCtrls, Buttons, ExtCtrls, ComCtrls, ImgList, StdActns,
  ActnList, ToolWin;

  p and q are bit arrays of 16x16 bits, grouped
  as in 8 int32's as follows

  P00 P04 P08 P0c P10 P14 P18 P1c 
  P01 P05 P09 P0d P11 P15 P19 P1d
  P02 P06 P0a P0e P12 P16 P1a P1e
  P03 P07 P0b P0f P13 P17 P1b P1f
  +----> The bits per int32 are grouped as follows

  The int32's are grouped as follows
  P0 P1
  P2 P3
  P4 P5
  P6 P7

  P and Q are staggered as follows:

  +---------------------------------+ <---- P
  | +-------------------------------|-+ <----Q
  | |                               | |
  | |                               | |
  ...                               ...
  | |                               | |
  +-|-------------------------------+ |

  Generations start counting from 0,
  all even generations are stored in P.
  all odd generations are stored in Q.
  When generating P->Q, the S, SE and E neighbors are checked.
  When generating Q->P, the N, NW and W neighbors are checked.

  The westernmost P edge in a grid is stored inside that grid.
  Ditto for all easternmost Q edges.


  cClearQState = $fffffff0;
  cClearPState = $fffff0ff;
  cIndexQ = 1;
  cIndexP = 0;

  ChangeSelf = 0;
  ChangeNW = 1;
  ChangeW = 2;
  ChangeN = 3;

  ChangeSE = 1;
  ChangeE = 2;
  ChangeS = 3;

  //A Grid is 128 x 128 pixels.
  GridSizeX = 512 div 8;   //should be 128/8, 1024 for testing.
  GridSizeY = GridSizeX * 2; //32 totaal: 16x32x4bytes =  2048 x 2 (p+q) = 4k per block.
  GridMaxX = GridSizeX - 1;
  GridMaxY = GridSizeY - 1;
  NumberOfCells = GridSizeX * GridSizeY;

  CellSizeX = 8;
  CellSizeY = 4;
  CellMaxX = CellSizeX - 1;
  CellMaxY = CellSizeY - 1;

  TUnit = Cardinal;
  TBytes = array[0..3] of byte;

  TChange = array[0..3] of boolean;

  TCellBlock = class;
  TFlags = record
    case boolean of
    true: (whole: cardinal);
    false: (part: array[0..3] of byte);

  //TActiveList = array[0..GridMaxX, 0..GridMaxY] of boolean;
  //TActive = array[0..1] of TActiveList;
  TToDoList = array[-1..NumberOfCells] of cardinal; //Padding on both sides.

  TNewRow = TFlags;

  PCell = ^TCell;
  TCell = record
    p: TUnit;
    q: TUnit;
    procedure SetPixel(x,y: integer; InP: Boolean = true);
    function GeneratePtoQ: cardinal; inline;
    function GenerateQtoP: cardinal; inline;

  //A grid contains pointers to an other grid, a unit or nil.
  //A grid can contain grids (and nils) or units (and nils), but not both.
  PGrid = ^TGrid;
  TGrid = array[0..GridMaxX,0..GridMaxY] of TCell;

  TCellBlock = class(TPersistent)
    FHasCells: boolean;
    FLevel: integer;
    FGrid: TGrid;
    ToDoP: TToDoList;
    ToDoQ: TToDoList;
    PCount: integer;
    QCount: integer;
    FParent: TCellBlock;
    FMyX,FMyY: integer;
    N,W,NW: TCellBlock;
    S,E,SE: TCellBlock;
    procedure GeneratePtoQ; virtual;
    procedure GenerateQtoP; virtual;
    procedure UpdateFlagsPtoQ; virtual;
    procedure UpdateFlagsQtoP; virtual;
    procedure Generate; virtual;
    procedure Display(ACanvas: TCanvas); virtual;
    procedure SetPixel(x,y: integer);
    property Grid: TGrid read FGrid write FGrid;
    constructor Create(AParent: TCellBlock);
    destructor Destroy; override;
    property Parent: TCellBlock read FParent;
    property HasCells: boolean read FHasCells;
    property Level: integer read FLevel;
    property MyX: integer read FMyX;
    property MyY: integer read FMyY;

  TCellParent = class(TCellBlock)
    procedure GeneratePtoQ; override;
    procedure GenerateQtoP; override;
    //procedure Display(Startx,StartY: integer; ACanvas: TCanvas); override;

    constructor CreateFromChild(AChild: TCellBlock; ChildX, ChildY: integer);
    constructor CreateFromParent(AParent: TCellParent);
    destructor Destroy; override;

  TForm1 = class(TForm)
    ToolBar1: TToolBar;
    ToolButton9: TToolButton;
    ToolButton1: TToolButton;
    ToolButton2: TToolButton;
    ToolButton3: TToolButton;
    ToolButton4: TToolButton;
    ActionList1: TActionList;
    FileNew1: TAction;
    FileOpen1: TAction;
    FileSave1: TAction;
    FileSaveAs1: TAction;
    FileExit1: TAction;
    EditCut1: TEditCut;
    EditCopy1: TEditCopy;
    EditPaste1: TEditPaste;
    HelpAbout1: TAction;
    StatusBar: TStatusBar;
    ImageList1: TImageList;
    Image1: TImage;
    Timer1: TTimer;
    Label1: TLabel;
    procedure FileNew1Execute(Sender: TObject);
    procedure FileSave1Execute(Sender: TObject);
    procedure FileExit1Execute(Sender: TObject);
    procedure Timer1Timer(Sender: TObject);
    procedure FileOpen1Execute(Sender: TObject);
    procedure ToolButton4Click(Sender: TObject);
    MyBlock: TCellBlock;
    MyBitmap: TBitmap;
    BitmapData: array[0..1024,0..(1024 div 32)] of integer;
    procedure InitLookupTable;
    procedure RestartScreen;
    { Public declarations }

  Form1: TForm1;

  cLiveCell =      $88888888;
  cLiveVerticalP = $40404040;
  cLiveVerticalQ = $04040404;
  cLiveTop =       $00000088;
  cLiveBottom =    $88000000;
  cLivePCorner =   $00000040;
  cLiveQCorner =   $04000000;

  cUnstableCell =      $22222222;
  cUnstableVerticalP = $10101010;
  cUnstableVerticalQ = $01010101;
  cUnstableTop =       $00000022;
  cUnstableBottom =    $22000000;
  cUnstablePCorner =   $00000010;
  cUnstableQCorner =   $01000000;

  cAllDead = $00000000;
  cAllLive = $ffffffff;

  cLiveRow = $8;
  cLive2x2 = $4;
  cUnstableRow = $2;
  cUnstable8x4 = $22;
  cUnstable2x2 = $1;
  cUnstable2x4 = $11;

  cStateMask: array [0..7] of cardinal =
    ($fffffff0, $ffffff0f, $fffff0ff, $ffff0fff, $fff0ffff, $ff0fffff, $f0ffffff, $0fffffff);

  LookupTable: array[0..$FFFF] of byte;
  Generation: int64;


uses about, sysutils, clipbrd, Math;

{$R *.dfm}

  bool = longbool;

procedure getCPUticks(var i : int64);
   mov ECX,i;
   RDTSC;       //cpu clock in EAX,EDX
   mov [ECX],EAX;
   mov [ECX+4],EDX;

function IntToBin(AInt: integer): string;
  i: integer;
  i:= SizeOf(AInt)*8;
  Result:= StringOfChar('0',i);
  while (i > 0) do begin
    if Odd(AInt) then Result[i]:= '1';
    AInt:= AInt shr 1;
  end; {while}

constructor TCellBlock.Create(AParent: TCellBlock);
  inherited Create;
  FParent:= AParent;
  ToDoQ[-1]:= $ffffffff;
  ToDoP[-1]:= $ffffffff;

destructor TCellBlock.Destroy;
  inherited Destroy;

procedure TCell.SetPixel(x: Integer; y: Integer; InP: Boolean = true);
  Mask: cardinal;
  Offset: Integer;
  //0,0 is the topleft pixel, no correction for p,q fase.
  x:= x mod 8;
  y:= y mod 4;
  Offset:= x * 4 + y;
  Mask:= 1 shl Offset;
  if (InP) then p:= p or Mask else q:= q or Mask;

procedure TCellBlock.SetPixel(x: Integer; y: Integer);
  GridX, GridY: integer;
  x1,y1: integer;
  i: integer;
  x:= x + (GridSizeX div 2) * CellSizeX;
  y:= y + (GridSizeY div 2) * CellSizeY;
  if Odd(Generation) then begin
    Dec(x); Dec(y);
    QCount:= 0;
  else PCount:= 0;
  GridX:= x div CellSizeX;
  GridY:= y div CellSizeY;
  if (GridX in [0..GridMaxX]) and (GridY in [0..GridMaxY]) then begin
    i:= 0;
    for x1:= 1 to GridMaxX-1 do begin
      for y1:= 1 to GridMaxY-1 do begin
        case Odd(Generation) of
          false: begin
            ToDoP[i]:= (x1 shl 16 or y1);
          true: begin
            ToDoQ[i]:= (x1 shl 16 or y1);
        end; {case}
      end; {for y}
    end; {for x}
  end; {if}

//This procedure generates the Q data and QState-flags
//using the P-data and PState-flags.

procedure TCellBlock.Generate;
  if Odd(Generation) then GenerateQtoP
  else GeneratePtoQ;

  MaskS =  $cccccccc;
  MaskE =  $ff000000;
  MaskSE = $cc000000;

procedure TCellBlock.GeneratePtoQ;
  x,y: integer;
  i: integer;
  Change: cardinal;
  ToDoA: TToDoList;
  ToDoB: TToDoList;
  A, B: integer;
  done: boolean;
  Address: cardinal;
  i:= 0;
  A:= 0; B:= 0;
  ToDoA[-1]:= $ffffffff;
  ToDoB[-1]:= $ffffffff;
  while (i < PCount) do begin
    y:= ToDoP[i] and $FFFF;
    x:= ToDoP[i] shr 16;
    if (x = GridMaxX) or (y = GridMaxY) then continue; //Skip the loop.
    Change:= Grid[x,y].GeneratePtoQ;
    if (Change <> 0) then begin
      Address:= (x shl 16 or y);
      if ToDoA[A-1] <> Address then begin
        ToDoA[A]:= Address; Inc(A);
      if (Change and MaskS) <> 0 then begin
        ToDoA[A]:= Address + 1;
      end; {if S changed}
      if ((Change and MaskE) <> 0) then begin
        Address:= Address + (1 shl 16);
        if ToDoB[B-1] <> Address then begin
          ToDoB[B]:= Address;
        if ((Change and MaskSE) <> 0) then begin
          ToDoB[B]:= Address + 1;
        end; {if SE changed}
      end; {if E changed}
    end; {if whole cell changed}
  end; {while}
  ToDoA[A]:= $ffffffff;
  ToDoB[B]:= $ffffffff;
  ToDoB[B+1]:= $ffffffff;

  a:= 0; b:= 0; QCount:= 0;
  Done:= (ToDoA[a] = $ffffffff) and (ToDoB[b] = $ffffffff);
  while not done do begin
    if ToDoA[a] <= ToDoB[b] then begin
      ToDoQ[QCount]:= ToDoA[a]; inc(a); inc(QCount);
      if ToDoA[a] = ToDoB[b] then inc(b);
    else begin
      ToDoQ[QCount]:= ToDoB[b]; inc(b); inc(QCount);
    Done:= (ToDoA[a] = $ffffffff) and (ToDoB[b] = $ffffffff);
  end; {while}

  MaskN =  $33333333;
  MaskW =  $000000ff;
  MaskNW = $00000033;

procedure TCellBlock.GenerateQtoP;
  x,y: integer;
  i: integer;
  Change: cardinal;
  ToDoA: TToDoList;
  ToDoB: TToDoList;
  A, B: integer;
  done: boolean;
  Address: cardinal;
  i:= 0;
  A:= 0; B:= 0;
  ToDoA[-1]:= $ffffffff;
  ToDoB[-1]:= $ffffffff;
  while (i < QCount) do begin
    y:= ToDoQ[i] and $FFFF;
    x:= ToDoQ[i] shr 16;
    if (x = 0) or (y = 0) then Continue; //Skip the rest of the loop.
    Change:= Grid[x,y].GenerateQtoP;
    if (Change <> 0) then begin
      Address:= (x shl 16 or y);
      if ToDoA[A-1] <> Address then begin
        ToDoA[A]:= Address; Inc(A);
      if (Change and MaskN) <> 0 then begin
        ToDoA[A]:= Address - 1;
      end; {if N changed}
      if ((Change and MaskW) <> 0) then begin
        Address:= Address - (1 shl 16);
        if ToDoB[B-1] <> Address then begin
          ToDoB[B]:= Address;
        if ((Change and MaskNW) <> 0) then begin
          ToDoB[B]:= Address - 1;
        end; {if NW changed}
      end; {if W changed}
    end; {if whole cell changed}
  end; {while}
  ToDoA[A]:= $ffffffff;
  ToDoB[B]:= $ffffffff;
  ToDoB[B+1]:= $ffffffff;

  a:= 0; b:= 0; PCount:= 0;
  Done:= (ToDoA[a] = $ffffffff) and (ToDoB[b] = $ffffffff);
  while not done do begin
    if ToDoA[a] <= ToDoB[b] then begin
      ToDoP[PCount]:= ToDoA[a]; inc(a); inc(PCount);
      if ToDoA[a] = ToDoB[b] then inc(b);
    else begin
      ToDoP[PCount]:= ToDoB[b]; inc(b); inc(PCount);
    Done:= (ToDoA[a] = $ffffffff) and (ToDoB[b] = $ffffffff);
  end; {while}

procedure TCellBlock.GenerateQtoP;
  x,y: integer;
  i: integer;
  Change: cardinal;
  i:= 0;
  for x:= 0 to GridMaxX - 1 do begin
    for y:= 0 to GridMaxY -1 do begin
      if Active[cIndexQ][x, y] then begin
        Active[cIndexQ][x, y]:= false;
        ToDo[i]:= x shl 16 or y;
      end; {if}
    end; {for y}
  end; {for x}
  while i > 0 do begin
    y:= ToDo[i] and $FFFF;
    x:= ToDo[i] shr 16;
    Change:= Grid[x,y].GenerateQtoP;
    Active[cIndexP][x,y]:= Active[cIndexP][x,y] or (Change <> 0);
    Active[cIndexP][x-1,y-1]:= Active[cIndexP][x-1,y-1] or ((Change and $00000033) <> 0);
    Active[cIndexP][x-1,y]:= Active[cIndexP][x-1,y] or     ((Change and $000000ff) <> 0);
    Active[cIndexP][x,y-1]:= Active[cIndexP][x,y-1] or     ((Change and $33333333) <> 0);
  end; {while}
end; (**)

procedure TCellBlock.UpdateFlagsPtoQ;
  //nog in te vullen.

procedure TCellBlock.UpdateFlagsQtoP;
  //nog in te vullen

function TCell.GeneratePtoQ: cardinal;
  NewQ: cardinal;
  Change: cardinal;
  Mask1 = $f;
  Mask2 = $ff;
  Mask4 = $ffff;

  Row1Mask = $33333333; //0011-0011-0011-0011-0011-0011-0011-0011
  Row2Mask = $cccccccc; //1100-1100-1100-1100-1100-1100-1100-1100

  function MakeNewBrick(p0,p1,p2,p3: cardinal): cardinal; inline;
    Row1, Row2: cardinal;
    //Generate new Brick using a 2x2 grid of bricks ordered like:
    //p0 p1
    //p2 p3

    //First row inside P0
    if (p0 <> 0) then Row1:=
      LookupTable[p0 and $ffff] or
      LookupTable[(p0 shr 8) and $ffff] shl 8 or
      LookupTable[(p0 shr 16)] shl 16 or
      LookupTable[(p0 shr 24) or (p1 and $ff) shl 8] shl 24
    else Row1:= LookupTable[(p1 and $ff) shl 8] shl 24;
    p0:= ((p0 and $cccccccc)) or ((p2 and $33333333));
    p1:= ((p1 and $cc)) or ((p3 and $33));
    if (p0 <> 0) then Row2:=
      LookupTable[p0 and $ffff] or
      LookupTable[(p0 shr 8) and $ffff] shl 8 or
      LookupTable[(p0 shr 16)] shl 16 or
      LookupTable[(p0 shr 24) or ((p1 and $ff) shl 8)] shl 24
    else Row2:= LookupTable[(p1 and $ff) shl 8] shl 24;

    Result:= (Row1 and Row1Mask) or (Row2 and Row2Mask);

  NewQ:= MakeNewBrick(Self.p, PGrid(@Self)^[1,0].p, PGrid(@Self)^[0,1].p, PGrid(@Self)^[1,1].p);
  Result:= NewQ xor q;
  q:= NewQ;

function TCell.GenerateQtoP: cardinal;
  Offset: integer;
  NewP: cardinal;
  Change: cardinal;

  Row1Mask = $33333333; //0011-0011-0011-0011-0011-0011-0011-0011
  Row2Mask = $cccccccc; //1100-1100-1100-1100-1100-1100-1100-1100

  function MakeNewBrick(q0,q1,q2,q3: cardinal): cardinal; inline;
    Row1, Row2: cardinal;
    //Generate new Brick using a 2x2 grid of bricks ordered like:
    //q3 q2
    //q1 q0

    if (q0 <> 0) then Row1:=
      LookupTable[(q0 shr 16)] shl 26 or
      LookupTable[(q0 shr 8 ) and $ffff] shl 18 or
      LookupTable[(q0       ) and $ffff] shl 10 or
      LookupTable[((q0 and $ff) shl 8) or (q1 shr 24)] shl 2
    else Row1:= LookupTable[(q1 shr 24)] shl 2;

    q0:= ((q0 and $33333333) shl 2) or ((q2 and $cccccccc) shr 2);
    q1:= ((q1 and $33000000) shl 2) or ((q3 and $cc000000) shr 2);
    if (q0 <> 0) then Row2:=
      LookupTable[(q0 shr 16) and $ffff] shl 24 or
      LookupTable[(q0 shr 8) and $ffff] shl 16 or
      LookupTable[(q0      ) and $ffff] shl 8 or
      LookupTable[((q0 and $ff) shl 8) or (q1 shr 24)]
    else Row2:= LookupTable[(q1 shr 24)];

    q0:= ((q0 and $33333333)) or ((q2 and $cccccccc));
    q1:= ((q1 and $33000000)) or ((q3 and $cc000000));
    if (q0 <> 0) then Row2:=
      LookupTable[(q0 shr 16)] shl 22 or
      LookupTable[(q0 shr 8) and $ffff] shl 14 or
      LookupTable[(q0      ) and $ffff] shl 6 or
      LookupTable[((q0 and $ff) shl 8) or (q1 shr 24)] shr 2
    else Row2:= LookupTable[(q1 shr 24)] shr 2;

    Result:= (Row1 and Row2Mask) or (Row2 and Row1Mask);

  Offset:= -1;
  NewP:= MakeNewBrick(Self.q, PGrid(@Self)^[Offset,0].q, PGrid(@Self)^[0,Offset].q, PGrid(@Self)^[Offset, Offset].q);
  Result:= NewP xor P;
  P:= NewP;

procedure TCellBlock.Display(ACanvas: TCanvas);
  GridX,GridY: integer;
  //Offset: integer;

  procedure DisplayCell(ACell: TCell);
    x,y,x1,y1: integer;
    Row, Mask: integer;
    DoPixel: boolean;
    Offset: integer;
    DrawOffset: integer;
    InP: boolean;
    DrawOffset:= (Generation and 1);
    InP:= not(Odd(Generation));

    for y:= 0 to CellMaxY do begin
      for x:= 0 to CellMaxX do begin
        //if (x = 0) or (y = 0) then ACanvas.Pixels[GridX*16+x+Offset,GridY*16+y+Offset]:= clBtnFace;
        //0,0 is the topleft pixel, no correction for p,q fase.
        x1:= x mod 8;
        y1:= y mod 4;
        Offset:= x1 * 4 + y1;
        Mask:= 1 shl Offset;
        if (InP) then DoPixel:= (ACell.p and Mask) <> 0
        else DoPixel:= (ACell.q and Mask) <> 0;

        if DoPixel then ACanvas.Pixels[GridX*CellSizeX+x+DrawOffset, GridY*CellSizeY+y+DrawOffset]:= clBlack;
      end; {for x}
    end; {for y}
  end;  (**)

  FillChar(Form1.BitmapData, SizeOf(Form1.BitmapData), #0);
  for GridY:= 0 to GridMaxY do begin
    for GridX:= 0 to GridMaxX do begin
      if Int64(Grid[GridX, GridY]) <> 0 then begin

//A Parent is every layer above the ground level
//the tree grows from the bottom up.
//A new parent is placed on top of the last one and
//always has one and only one child to start with, from there
//the tree grows down again.

constructor TCellParent.CreateFromChild(AChild: TCellBlock; ChildX: Integer; ChildY: Integer);
  inherited Create(nil);

constructor TCellParent.CreateFromParent(AParent: TCellParent);
  inherited Create(AParent);

destructor TCellParent.Destroy;
  inherited Destroy;

procedure TCellParent.GeneratePtoQ;

procedure TCellParent.GenerateQtoP;

//The bitmap for the lookup table is as follows:
// 0  2  4  6
//   +----+
// 1 |3  5| 7
// 8 |A  C| E
//   +----+
// 9  B  D  F
// The inner 2x2 cells are looked up.
// so 0241358AC make up bit 3 etc.

procedure TForm1.InitLookupTable;
  //Masks for normal order.
  MaskNW = $0757;   //0000-0111-0101-0111
  MaskSW = $0EAE;   //0000-1110-1010-1110
  MaskNE = $7570;   //0111-0101-0111-0000
  MaskSE = $EAE0;   //1110-1010-1110-0000

  //Bitlocations for normal order
  BitNW = $0020; //0000-0000-0010-0000
  BitSW = $0040; //0000-0000-0100-0000
  BitNE = $0200; //0000-0020-0000-0000
  BitSE = $0400; //0000-0100-0000-0000

  //Lookup table also has a shifted order. here the bottom half of the N word
  //and the top half of the south word combine.
  //Like so:
  // 2 6 A E
  // 3 7 B F
  // 0 4 8 C
  // 1 5 9 D

  //Mask for split order.
  Mask2NW = $0D5D;     // 0000-1101-0101-1101
  Mask2SW = $0BAB;     // 0000-1011-1010-1011
  Mask2NE = $D5D0;     // 1101-0101-1101-0000
  Mask2SE = $BAB0;     // 1011-1010-1011-0000

  //Bitlocations for split order
  Bit2NW = $0080; // 0000-0000-1000-0000
  Bit2SW = $0010; // 0000-0000-0001-0000
  Bit2NE = $0800; // 0000-1000-0000-0000
  Bit2SE = $0100; // 0000-0001-0000-0000

  ResultNW = $01;
  ResultSW = $02;
  ResultNE = $10;
  ResultSE = $20;

  Result2NW = $04;
  Result2SW = $08;
  Result2NE = $40;
  Result2SE = $80;

  i: integer;
  iNW, iNE, iSW, iSE: cardinal;
  Count: integer;
  ResultByte: byte;

  function GetCount(a: integer): integer;
    c: integer;
    Result:= 0;
    for c:= 0 to 15 do begin
      if Odd(a shr c) then Inc(Result);
    end; {for c}
  end; {GetCount}

  //Fill the normal lookup.
  for i:= 0 to $ffff do begin
    ResultByte:= 0;
    iNW:= i and MaskNW;
    Count:= GetCount(iNW);
    case Count of   //count excluding bit itself
      3: ResultByte:= ResultNW;
      2: if ((i and BitNW) <> 0) then ResultByte:= ResultNW;
    iSW:= i and MaskSW;
    Count:= GetCount(iSW);
    case Count of
      3: ResultByte:= ResultByte or ResultSW;
      2: if ((i and BitSW) <> 0) then ResultByte:= ResultByte or ResultSW;
    iNE:= i and MaskNE;
    Count:= GetCount(iNE);
    case Count of
      3: ResultByte:= ResultByte or ResultNE;
      2: if ((i and BitNE) <> 0) then ResultByte:= ResultByte or ResultNE;
    iSE:= i and MaskSE;
    Count:= GetCount(iSE);
    case Count of
      3: ResultByte:= ResultByte or ResultSE;
      2: if ((i and BitSE) <> 0) then ResultByte:= ResultByte or ResultSE;
    LookupTable[i]:= ResultByte;
  end; {for i}

  //Fill the shifted lookup.
  for i:= 0 to $ffff do begin
    ResultByte:= 0;
    iNW:= i and Mask2NW;
    Count:= GetCount(iNW);
    case Count of   //count excluding bit itself
      3: ResultByte:= Result2NW;
      2: if ((i and Bit2NW) <> 0) then ResultByte:= Result2NW;
    iSW:= i and Mask2SW;
    Count:= GetCount(iSW);
    case Count of
      3: ResultByte:= ResultByte or Result2SW;
      2: if ((i and Bit2SW) <> 0) then ResultByte:= ResultByte or Result2SW;
    iNE:= i and Mask2NE;
    Count:= GetCount(iNE);
    case Count of
      3: ResultByte:= ResultByte or Result2NE;
      2: if ((i and Bit2NE) <> 0) then ResultByte:= ResultByte or Result2NE;
    iSE:= i and Mask2SE;
    Count:= GetCount(iSE);
    case Count of
      3: ResultByte:= ResultByte or Result2SE;
      2: if ((i and Bit2SE) <> 0) then ResultByte:= ResultByte or Result2SE;
    LookupTable[i]:= LookupTable[i] or ResultByte;
  end; {for i}  (**)

procedure TForm1.RestartScreen;
  MyBlock:= TCellBlock.Create(nil);


procedure TForm1.Timer1Timer(Sender: TObject);
  if Assigned(MyBlock) then begin

procedure TForm1.ToolButton4Click(Sender: TObject);
  if Assigned(MyBlock) then begin

procedure TForm1.FileNew1Execute(Sender: TObject);
  FillChar(BitmapData, SizeOf(BitmapData), #0);
  MyBitmap:= TBitmap.Create;
  MyBitmap.PixelFormat:= pf1bit;
  MyBitmap.Monochrome:= true;
  //MyBitmap.Handle:= CreateBitmap(1000,1000,1,2,nil);

  Generation:= 0;

  //if (Sender = FileNew1) then Timer1.Enabled:= not(Timer1.Enabled);


procedure TForm1.FileOpen1Execute(Sender: TObject);
  i,a: integer;
  start, eind: int64;
  Diff: double;
  LowDiff: double;
  LowDiff:= MaxInt;
  for a:= 0 to 10 do begin
    for i:= 0 to 1000 do begin
    //Label1.Caption:= IntToStr(Eind - Start);
    Diff:= Eind - start;
    LowDiff:= Min(Diff, LowDiff);

    Label1.Caption:= Format('%10.0n',[lowdiff]) + ' CPU cycles per 1,000 generations';
    Clipboard.AsText:= Label1.Caption;
  end; {for a}

procedure TForm1.FileSave1Execute(Sender: TObject);
  Timer1.Enabled:= not(Timer1.Enabled);

procedure TForm1.FileExit1Execute(Sender: TObject);

  Generation:= 0;


